• Accueil >
  • Transformer la gestion des données bancaires : l’histoire d’un succès de partitionnement multi-niveaux

Chez Bi NewVision, notre mission est d’accompagner les grandes entreprises du monde entier dans l’optimisation et la modernisation de leurs architectures de données. Dans le cadre d’une récente collaboration, nous avons uni nos forces avec un important groupe bancaire de détail présent à l’international. Ce qui n’était au départ qu’un défi complexe de gestion de données transactionnelles massives est rapidement devenu une révolution de la donnée, modifiant en profondeur la manière dont les équipes de Business Intelligence (BI) accèdent et exploitent l’information à l’échelle internationale.

 

Relever le défi : un voyage dans la révolution des données bancaires

Notre client, une grande banque de détail, faisait face à un volume colossal — environ 700 To — de données de transactions réparties sur plusieurs pays et actualisées quotidiennement. Les objectifs étaient doubles :

  1. Simplifier la gestion de ces énormes ensembles de données, afin que les équipes BI locales puissent aisément extraire et analyser leurs données régionales.
  2. Assurer une performance et des coûts optimisés pour fournir des informations plus rapidement et à moindre coût.

Chez Bi NewVision, nous avons vu l’opportunité de repenser tout leur processus de gestion des données. Notre stratégie s’est appuyée sur l’architecture “medallion”, en accordant une attention particulière à la couche gold pour mettre à disposition des équipes BI du monde entier des données unifiées et de haute qualité.

 

 

La puissance du partitionnement multi-niveaux

1. Partitionnement par pays

Nous avons d’abord partitionné les données par pays pour permettre à chaque équipe BI régionale d’accéder et d’analyser rapidement ses transactions locales. Cela assurait également une conformité aux réglementations locales en matière de gouvernance des données.

2. Segmentation annuelle

Au sein de chaque partition pays, nous avons segmenté les données par année afin de gérer de grands volumes de données et de permettre des analyses plus stratégiques et longitudinales sur les tendances des transactions.

3. Découpage mensuel

Le niveau de granularité le plus fin consistait en un partitionnement mensuel. Cette approche a permis au groupe bancaire de produire des tableaux de bord mensuels quasi en temps réel, sans traiter de données inutiles. Concrètement, les requêtes se sont accélérées, permettant aux équipes d’identifier plus efficacement les anomalies et tendances des transactions chaque mois.

Pourquoi nous nous sommes arrêtés au niveau mensuel
Étant donné les besoins en reporting, un partitionnement quotidien n’était pas nécessaire. Les équipes BI avaient principalement besoin d’analyses mensuelles, nous avons donc trouvé un juste équilibre entre la granularité et les performances des requêtes.

Concideration techniques

Les données au sein de chaque partition ont été consolidées par fichiers de 512 Mo chacun, ce qui permet de réduire la surcharge (overhead) des opérations d’E/S par rapport au traitement utile.

 

Mise en œuvre technique

Format de données : Parquet

Nous avons opté pour Apache Parquet, grâce à sa capacité de compression et de “partition pruning”. Son format de stockage en colonnes était idéal pour des charges de travail OLAP, améliorant les performances des requêtes tout en réduisant les coûts de stockage.

Référence :

Traitement des données : Apache Spark sur Amazon EMR

Notre équipe a utilisé Apache Spark sur Amazon EMR pour gérer les processus ELT (Extract, Load, Transform) à grande échelle. Les capacités de calcul distribué de Spark ont permis de nettoyer, préparer et écrire de larges volumes de données transactionnelles vers la couche gold.

Référence :

Requêtes Serverless & Intégration : Amazon Athena et Glue

Pour les requêtes SQL d’exploration ou BI, nous avons choisi Amazon Athena — configuré avec Presto. un service AWS serverless simple d’usage, Associé à AWS Glue, ce service a simplifié la découverte et la curation des données, en mode by-as-you-go. Les équipes BI ont pu exploiter Tableau en se connectant directement à Athena pour des tableaux de bord interactifs.

Référence :

Ingestion de données : Solution d’ingestion locale (Data Ingestor)

Un outil d’ingestion local, reposant également sur Spark sur EMR, a été mis en place pour charger quotidiennement, de façon automatisée, les nouvelles transactions issues de différentes sources. Cette chaîne d’ingestion a garanti la cohérence et l’intégrité des données de bout en bout.

Qualité des données avec le SODA Framework

La qualité des données était cruciale. Nous avons intégré SODA Framework pour automatiser les vérifications de la qualité des données. Grâce à SODA, nous avons défini et surveillé des règles concernant l’exhaustivité, l’unicité et la conformité. Cette approche proactive nous a permis de détecter et résoudre rapidement toute anomalie avant qu’elle n’ait un impact sur les opérations BI.

Référence :

 

 

Résultats : un véritable tournant pour les opérations BI

  1. Amélioration des performances de requête
    Le partitionnement multi-niveaux et le stockage en colonnes via Parquet ont permis des requêtes plus rapides et plus granulaires, facilitant l’élaboration de rapports mensuels quasi en temps réel.
  2. Optimisation des coûts
    Grâce au modèle de facturation à l’utilisation d’Amazon Athena et au “partition pruning”, seules les données pertinentes étaient scannées, réduisant le temps de traitement et les coûts.
  3. Analyses régionales sur mesure
    Le partitionnement par pays a permis aux équipes locales d’accéder rapidement aux données pertinentes, en conformité avec les réglementations locales en vigueur.
  4. Qualité de données renforcée
    L’intégration de SODA Framework a accru la fiabilité des données en identifiant et traitant immédiatement les problèmes éventuels.

 

Conclusion : un jalon clé de la stratégie Data chez Bi NewVision

Chez Bi NewVision, nous sommes fiers d’avoir redéfini la gestion des données pour l’une des plus grandes banques de détail international. En associant l’architecture medallion, le partitionnement multi-niveaux, le format Parquet et une suite technologique finement orchestrée, nous avons proposé une solution qui a non seulement satisfait, mais dépassé les objectifs de performance, d’évolutivité et de sécurité du client.

Ce projet a été plus qu’un simple exercice technique : il illustre notre engagement pour l’innovation et la création de solutions pragmatiques, orientées métier. Les équipes BI du client travaillent désormais sur des données agiles et fiables, leur permettant de prendre des décisions plus rapidement et en toute confiance, dans un secteur financier en constante mutation.

Mehdi TAZI – CTO & Data Architect a BI-NEWVISION