Dans les premières années de l’émergence des technologies Big Data, les écosystèmes basés sur Hadoop étaient la solution de référence pour construire des plateformes de données (data platforms) à grande échelle. Leur nature distribuée et leur capacité à traiter des volumes massifs de données en faisaient le choix évident pour les entreprises souhaitant stocker et traiter des données massives. Cependant, à mesure que les besoins en données évoluaient et que les technologies cloud prenaient de la maturité, l’industrie a connu un changement significatif vers les solutions basées sur le cloud, qui sont aujourd’hui le choix naturel pour l’implémentation des plateformes de données modernes.
La transition d’Hadoop aux solutions cloud
La transition des plateformes de données basées sur Hadoop, installées sur site, vers des solutions cloud a commencé sérieusement autour de 2017–2018. Pendant cette période, les avantages du cloud computing sont devenus trop importants pour être ignorés, en particulier pour les entreprises gérant des volumes et charges de travail massives de données.
Les principaux fournisseurs de cloud comme AWS (Amazon), Azure (Microsoft) et Google Cloud Platform (GCP) ont développé des services permettant aux entreprises de construire leurs propres plateformes de données à l’aide de services cloud natifs. Ces solutions, notamment les services type serverless, simplifient considérablement la création et la gestion des plateformes de données de manière intuitive et flexible, sans la complexité de devoir gérer une infrastructure sous-jacente. A noter que bien qu’Hadoop ait perdu de sa popularité face aux solutions cloud, certaines de ses composantes sont encore intégrées dans des solutions modernes
Des plateformes de données basées sur le cloud, telles que Databricks (DBX) et Snowflake, ont émergé en tant que solutions complètes de mise en place de data platform. Ces plateformes fournissent des fonctionnalités avancées pour l’analyse de données massives, une scalabilité exceptionnelle, ainsi qu’une simplification des workflows analytiques, permettant aux entreprises de tirer le meilleur parti de leurs données tout en réduisant la complexité opérationnelle. Ces plateformes fournissent des fonctionnalités avancées pour l’analyse de données massives, une scalabilité exceptionnelle, ainsi qu’une simplification des workflows analytiques, permettant aux entreprises de tirer le meilleur parti de leurs données tout en réduisant la complexité opérationnelle.
Il est également important de noter que Databricks et Snowflake sont étroitement intégrés avec les grands fournisseurs de cloud. Databricks, par exemple, s’appuie sur l’infrastructure d’AWS, Azure, et GCP, permettant aux entreprises d’exploiter les capacités de traitement de ces clouds tout en bénéficiant des optimisations analytiques propres à Databricks. De même, Snowflake est disponible sur plusieurs clouds majeurs, offrant une flexibilité pour les entreprises qui souhaitent utiliser un environnement multi-cloud ou migrer entre différents fournisseurs. Cela a conduit à l’adoption massive des solutions cloud par défaut. Voici quelques raisons pour lesquelles les solutions cloud sont devenues le choix privilégié :
Scalabilité facile : Contrairement aux solutions traditionnelles sur site, les plateformes cloud permettent aux organisations d’adapter facilement leur infrastructure, à la hausse comme à la baisse. Cette flexibilité est cruciale pour les entreprises confrontées à des charges de travail fluctuantes ou connaissant une croissance rapide.
Efficacité des coûts et modèles de tarification : Avec l’avènement des solutions cloud, les entreprises pouvaient profiter de modèles de tarification comme le “pay-as-you-go”, éliminant ainsi la nécessité d’investissements initiaux lourds en infrastructure. Les entreprises ne paient alors que pour les ressources utilisées, ce qui permet une meilleure gestion des coûts.
Externalisation de l’infrastructure : En utilisant des services cloud, les entreprises peuvent externaliser la gestion de l’infrastructure à des fournisseurs spécialisés. Cela permet de se concentrer davantage sur les objectifs métier tout en bénéficiant d’une expertise technique avancée. Cependant, cette sous-traitance pose également des défis, notamment la nécessité de maintenir un contrôle approprié, d’assurer une transparence des opérations, et de gérer les risques liés à la dépendance vis-à-vis des fournisseurs.
Déploiement rapide et maintenance réduite : Les plateformes cloud offrent un déploiement plus rapide des services et réduisent considérablement la complexité liée à la maintenance du matériel et des logiciels, permettant aux organisations de se concentrer sur la donnée et l’innovation plutôt que sur la gestion de l’infrastructure.
Ces avantages ont conduit à une adoption massive des plateformes big data basées sur le cloud, et dès 2020, les solutions cloud étaient devenues la solution pour la gestion des données et l’analyse.
Les défis de l’adoption du cloud : gouvernance des données et conformité
Malgré le fait que les solutions cloud soient idéales pour de nombreuses entreprises, elles posent des défis importants pour d’autres, surtout celles qui traitent des données sensibles ou confidentielles dans certains pays ayant des réglementations strictes en matière de souveraineté et de gouvernance des données, et qui ne disposent pas d’infrastructure de ces cloud providers sur leurs territoires. De nombreux pays exigent que les données sensibles soient stockées dans leurs frontières afin de garantir un meilleur contrôle et une conformité avec les lois locales.
Par exemple, les lois sur la résidence des données imposent que les données personnelles des citoyens soient stockées et traitées sur le territoire du pays, ce qui devient un défi lorsque les fournisseurs de cloud ne disposent pas de régions locales.
Le cas du Maroc
La loi 09–08 sur la protection des données personnelles au Maroc est un exemple clé. Cette loi stipule que les données personnelles des citoyens doivent être protégées et que leur transfert à l’étranger est soumis à des restrictions strictes. Cette réglementation complique l’adoption de services cloud lorsque les fournisseurs ne disposent pas de centres de données locaux permettant de respecter ces exigences de résidence des données. Le Maroc est un exemple où l’adoption du cloud pour la mise en place de plateformes de données “data platforms” traitant des données sensibles ou confidentielles a rencontré des obstacles importants. Les trois principaux fournisseurs de cloud public, AWS, Azure et GCP, ne disposent actuellement pas de régions de centre de données au Maroc. Cette absence complique l’adoption des services cloud pour les entreprises marocaines et les institutions publiques tout en respectant les exigences de résidence des données du pays.
Néanmoin, Il existe une initiative qui vise à introduire les services AWS au sein de ses datacenters au Maroc en collaboration avec Orange Maroc. Cette annonce a été faite lors du GITEX Marrakech 2024, auquel nous, BI NEW VISION, avons été présent. Malgré l’intérêt que cette collaboration apporte, elle reste insuffisante pour implémenter des plateformes de données complètes. Ces services se concentrent principalement sur des solutions de base qui ne concernent pas les services avancés de données, tels que les plateformes analytiques, les services big data évolués, ou les solutions data serverless et PaaS de pointe, comme Amazon EMR, AWS Glue, ou Amazon Athena. Cela limite leur adoption pour des cas d’utilisation plus sophistiqués nécessitant une grande flexibilité et des capacités analytiques accrues. C’est un bon début, mais cela ne doit pas s’arrêter là et devrait plutôt progresser vers des services plus complets et adaptés aux besoins avancés des entreprises marocaines.
Aujourd’hui, les entreprises bloquées n’ayant pas la possibilité de passer au cloud public pour respecter la loi exigée se trouvent toujours dans la philosophie IaaS plutôt que PaaS ou SaaS. Elles ont donc toujours besoin de fournir des efforts pour le déploiement d’infrastructures lourdes au lieu de concentrer les efforts sur des actions à valeur ajoutée, tels que le use case en lui-même à forte valeur ajoutée business. De plus, elles ne peuvent pas bénéficier de l’agilité et des innovations technologiques offertes par les solutions cloud modernes, ce qui limite leur capacité à innover et à réagir rapidement aux évolutions du marché.
En l’absence d’une région cloud locale, les organisations marocaines manipulant des données sensibles, telles que celles des secteurs financier, de la santé ou du gouvernement, font face à un dilemme. Elles doivent soit :
Se tourner vers des solutions sur site(on-premise) : Ces solutions nécessitent une planification minutieuse des coûts d’infrastructure, des licences et de la scalabilité. Les entreprises doivent également prévoir une future compatibilité cloud dans l’éventualité où une région cloud locale deviendrait disponible, afin de garantir une transition fluide vers le cloud. Un exemple de cette approche est l’utilisation de la plateforme Cloudera, qui offre une infrastructure big data qui peut être installée sur site capable de gérer des charges de travail à grande échelle tout en respectant les exigences de conformité locales. Ces solutions nécessitent une planification minutieuse des coûts d’infrastructure, des licences et de la scalabilité. Les entreprises doivent également prévoir une future compatibilité cloud dans l’éventualité où une région cloud locale deviendrait disponible, afin de garantir une transition fluide vers le cloud
Mettre en place des architetures hybride : Les architectures hybrides peuvent représenter une solution efficace pour surmonter les défis liés à la gouvernance et à la conformité des données dans un contexte de cloud. Une architecture hybride permet de traiter la majorité des cas d’usage sur le cloud public, là où les données ne sont pas sensibles, tout en utilisant un cloud privé pour les besoins concernant des données particulièrement sensibles ou confidentielles. Par exemple, les traitements de données analytiques ou les applications sans exigences de confidentialité peuvent être exécutés sur des plateformes publiques comme AWS, Azure, ou GCP. Tandis que les données sensibles peuvent être stockées et traitées dans un environnement de cloud privé, garantissant ainsi la conformité aux lois locales sur la souveraineté des données. Cependant, la complexité d’une architecture hybride réside dans la gestion simultanée de deux infrastructures différentes et dans l’intégration de ces deux environnements. Cette complexité peut entraîner des défis techniques supplémentaires, tels que la synchronisation des données entre le cloud public et privé, la sécurisation des échanges de données, et la nécessité de compétences spécifiques pour gérer deux types d’infrastructure avec des caractéristiques différentes.
Mettre en place des mécanismes avancés et compliqués de gestion de données : Pour les entreprises qui souhaitent toujours tirer parti des avantages du cloud sans enfreindre la conformité, des techniques telles que le chiffrement (au repos et en transit), l’obfuscation des données, et d’autres mesures de sécurité avancées doivent être mises en œuvre. Cependant, la mise en place de ces plateformes de données dans un environnement cloud peut vite devenir un cauchemar en fonction du contexte client, des cas d’usage, et des besoins en traitement de données. Par exemple, lorsque des jointures doivent être effectuées entre plusieurs jeux de données volumineux, il devient nécessaire de déchiffrer ces données au niveau du cloud, ce qui complexifie énormément la gestion de la sécurité et augmente les risques de non-conformité. De plus, le chiffrement et le déchiffrement massifs de données peuvent entraîner une dégradation significative des performances, rendant les traitements plus lents et augmentant les coûts de calcul.
Conclusion
La transition des écosystèmes basés sur Hadoop vers les plateformes de données cloud représente une étape majeure dans l’évolution des technologies big data. Les plateformes cloud offrent une scalabilité, une efficacité coûts et une agilité sans égales, en faisant le choix par défaut pour la plupart des entreprises. Cependant, pour des pays comme le Maroc, où les lois sur la souveraineté des données posent un défi, les entreprises doivent évaluer soigneusement leurs options.
En restant cantonnées à des solutions IaaS en raison des contraintes légales, les entreprises continuent de consacrer des ressources importantes au déploiement et à la gestion d’infrastructures lourdes. Cela les empêche de se concentrer pleinement sur des initiatives à forte valeur ajoutée business, comme le développement de cas d’utilisation innovants qui pourraient accélérer leur croissance et leur compétitivité.
Les entreprises marocaines auraient tout à gagner en réussissant à convaincre les grands fournisseurs de cloud d’ajouter une région locale au Maroc. Cela leur permettrait non seulement de réaliser des économies substantielles en évitant de lourds investissements en infrastructures sur site, mais aussi de bénéficier de l’agilité et des innovations technologiques offertes par les solutions cloud modernes. Cela améliorerait leur compétitivité, leur capacité d’innovation, et leur réactivité aux besoins du marché.
Bien que l’absence de régions cloud locales au Maroc sur des plateformes telles que AWS et Azure rende l’adoption complète du cloud difficile, les entreprises peuvent néanmoins naviguer dans cet environnement en s’appuyant sur des solutions sur site et des mécanismes avancés de protection des données. En trouvant le bon équilibre, les entreprises marocaines peuvent se préparer à un futur où l’infrastructure cloud deviendra plus accessible, tout en maintenant la conformité aux lois locales.
Chez BI NEW VISION, nous avons déjà aidé les entreprises marocaines à naviguer dans ces défis complexes. Grâce à notre expertise approfondie en infrastructure cloud, big data et gouvernance des données, nous avons été en mesure de fournir à nos clients des solutions adaptées, garantissant la conformité avec les lois locales tout en facilitant une transition efficace vers des plateformes cloud modernes. Notre objectif est d’accompagner nos clients pour qu’ils tirent le meilleur parti des technologies disponibles tout en préparant l’avenir.
Mehdi TAZI – CTO & Data Architect a BI-NEWVISION