Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:
https://blog.tuttosemplice.com/fr/data-lakehouse-google-cloud-architecture-pour-donnees-hybrides/
Verrai reindirizzato automaticamente...
Dans le paysage financier actuel, et en particulier dans le secteur des prêts immobiliers, la véritable valeur ne réside pas seulement dans les bases de données structurées, mais dans une mine d’or souvent inexploitée : les documents non structurés. Fiches de paie, expertises immobilières, actes notariés et pièces d’identité constituent ce que l’on appelle souvent le Dark Data. Le défi pour les CTO et les Architectes de Données en 2026 n’est plus seulement d’archiver ces fichiers, mais de les rendre interrogeables en temps réel aux côtés des données transactionnelles.
Dans cet article technique, nous explorerons comment concevoir et implémenter une architecture data lakehouse google cloud capable de briser les silos entre le data lake (où résident les PDF) et le data warehouse (où résident les données CRM). Nous utiliserons la puissance de BigQuery, l’intelligence de Document AI et les capacités prédictives de Vertex AI pour transformer un processus d’instruction manuel en un pipeline automatisé et sécurisé.
Traditionnellement, les banques maintenaient deux piles technologiques séparées : un Data Lake (ex. Google Cloud Storage) pour les fichiers bruts et un Data Warehouse (ex. bases de données SQL héritées ou premiers MPP) pour la Business Intelligence. Cette approche entraînait une duplication des données, une latence élevée et un désalignement des informations.
Le Data Lakehouse sur Google Cloud Platform (GCP) résout ce problème en permettant de traiter les fichiers archivés dans le stockage objet comme s’il s’agissait de tables d’une base de données relationnelle, tout en maintenant les coûts de stockage bas et les performances élevées du warehouse.
La première étape pour construire un data lakehouse google cloud efficace est de structurer correctement la couche d’ingestion. Nous ne faisons pas que charger des fichiers ; nous préparons le terrain pour l’analyse.
Depuis les mises à jour récentes de GCP, BigQuery permet de créer des Object Tables. Ce sont des tables en lecture seule qui mappent les fichiers présents dans un bucket GCS. Cela nous permet de voir les PDF des fiches de paie directement dans BigQuery sans les déplacer.
CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.documents_bruts`
WITH CONNECTION `us.my-connection`
OPTIONS (
object_metadata = 'SIMPLE',
uris = ['gs://bucket-docs-prets/*.pdf']
);Avec cette seule instruction SQL, nous avons rendu notre archive documentaire accessible via SQL. Nous pouvons interroger les métadonnées (date de création, taille, nom du fichier) comme s’il s’agissait de colonnes structurées.
Avoir les fichiers listés dans BigQuery ne suffit pas. Nous devons lire leur contenu. C’est ici qu’intervient l’intégration entre BigQuery et Document AI via les Remote Functions (Fonctions Distantes).
Au lieu de construire des pipelines ETL complexes avec Dataflow ou des scripts Python externes, nous pouvons invoquer le modèle d’extraction directement depuis une requête SQL. Imaginons devoir extraire le « Revenu Net » et l’« Employeur » des fiches de paie.
Dans la console GCP, nous configurons un processeur Lending Document Splitter & Parser (spécifique au secteur des prêts) ou un processeur Custom Extractor entraîné sur les spécificités des fiches de paie locales.
Nous créons une Cloud Function (Gen 2) qui sert de pont. Cette fonction reçoit l’URI du fichier depuis BigQuery, appelle l’API de Document AI et renvoie un objet JSON avec les entités extraites.
Nous pouvons maintenant enrichir nos données brutes en les transformant en informations structurées :
CREATE OR REPLACE TABLE `fintech_lakehouse.donnees_revenus_extraites` AS
SELECT
uri,
remote_functions.extract_entities(uri) AS json_data
FROM
`fintech_lakehouse.documents_bruts`
WHERE
content_type = 'application/pdf';Le résultat est une table contenant le lien vers le document original et une colonne JSON avec les données extraites. C’est le véritable pouvoir du data lakehouse google cloud : des données non structurées converties en structurées à la volée.
Une fois les données extraites, comment devons-nous les stocker ? Dans le contexte des prêts immobiliers, la flexibilité est fondamentale, mais les performances des requêtes sont prioritaires.
Nous déconseillons d’aplatir complètement chaque champ extrait dans une colonne dédiée, car les formats documentaires changent. La meilleure approche est :
JSON. BigQuery supporte nativement l’accès aux champs JSON avec une syntaxe efficace.Exemple de requête analytique unifiée :
SELECT
crm.customer_id,
crm.risk_score_preliminaire,
docs.revenu_mensuel,
SAFE_CAST(docs.json_payload.details_supp.bonus_production AS FLOAT64) as bonus
FROM
`fintech_lakehouse.crm_customers` crm
JOIN
`fintech_lakehouse.donnees_revenus_extraites` docs
ON
crm.tax_code = docs.code_fiscal
WHERE
docs.revenu_mensuel > 2000;En traitant des données sensibles comme les revenus et les expertises, la sécurité n’est pas optionnelle. Le RGPD impose que l’accès aux données personnelles soit limité au personnel strictement nécessaire.
Dans un data lakehouse google cloud, il n’est pas nécessaire de créer des vues séparées pour chaque groupe d’utilisateurs. Nous utilisons la Row-Level Security (RLS) de BigQuery.
Supposons que nous ayons deux groupes d’utilisateurs : Analystes Risque (accès complet) et Agents Commerciaux (accès limité uniquement à leurs propres dossiers).
CREATE ROW ACCESS POLICY filtre_commercial
ON `fintech_lakehouse.donnees_revenus_extraites`
GRANT TO ('group:agents-commerciaux@banque.fr')
FILTER USING (id_agent = SESSION_USER());Avec cette politique, lorsqu’un agent exécute un SELECT *, BigQuery filtrera automatiquement les résultats, ne montrant que les lignes où l’id_agent correspond à l’utilisateur connecté. Les données sensibles des autres clients restent invisibles, garantissant la conformité réglementaire sans dupliquer les données.
Le dernier kilomètre de notre Lakehouse est l’activation de la donnée. Maintenant que nous avons uni les données comportementales (historique des paiements du CRM) avec les données de revenus réels (extraites des fiches de paie), nous pouvons entraîner des modèles de Machine Learning supérieurs.
En utilisant Vertex AI intégré avec BigQuery, nous pouvons créer un modèle de régression logistique ou un réseau de neurones pour prédire la probabilité de défaut (PD).
CREATE MODEL directement en SQL (BigQuery ML) ou exportons le dataset sur Vertex AI pour l’AutoML.Implémenter un data lakehouse google cloud dans le secteur des prêts immobiliers transforme radicalement l’opérationnel. Il ne s’agit pas seulement de technologie, mais de vitesse commerciale : passer de plusieurs jours à quelques minutes pour la pré-approbation d’un prêt.
L’architecture présentée, basée sur l’intégration étroite entre BigQuery, GCS et Document AI, offre trois avantages compétitifs immédiats :
Pour les institutions financières qui regardent vers 2026 et au-delà, cette convergence entre gestion documentaire et analyse de données représente le standard de facto pour rester compétitif dans un marché de plus en plus guidé par les algorithmes.
Un Data Lakehouse sur Google Cloud est une architecture hybride qui combine la flexibilité de stockage économique des Data Lakes avec les performances d analyse des Data Warehouses. Dans le secteur financier, cette approche permet d éliminer les silos entre les données structurées et les documents non structurés, comme les PDF, permettant des requêtes SQL unifiées. Les principaux avantages incluent la réduction de la duplication des données, la baisse des coûts de stockage et la capacité d obtenir des insights en temps réel pour des processus comme l approbation des prêts.
L analyse des PDF dans BigQuery s effectue via l utilisation des Object Tables, qui mappent les fichiers présents dans Google Cloud Storage comme des tables en lecture seule. Pour extraire les données contenues dans les documents, on intègre les Remote Functions qui connectent BigQuery aux services de Document AI. Cela permet d invoquer des modèles d extraction intelligente directement via des requêtes SQL, transformant des informations non structurées, comme le revenu net d une fiche de paie, en données structurées prêtes pour l analyse.
La sécurité des données sensibles et la conformité au RGPD sont gérées via la Row-Level Security (RLS) native de BigQuery. Au lieu de créer de multiples copies des données pour différentes équipes, la RLS permet de définir des politiques d accès granulaires qui filtrent les lignes visibles en fonction de l utilisateur connecté. Par exemple, un analyste de risque peut voir toutes les données, tandis qu un agent commercial ne visualisera que les dossiers de ses propres clients, garantissant la confidentialité sans duplication.
Vertex AI renforce le credit scoring en utilisant les données unifiées du Lakehouse pour entraîner des modèles de Machine Learning avancés. En unissant l historique des paiements présent dans le CRM avec les données de revenus réels extraites des documents via Document AI, il est possible de créer des modèles prédictifs plus précis. Ces algorithmes peuvent calculer la probabilité de défaut et détecter des anomalies entre le revenu déclaré et le revenu réel, automatisant et sécurisant l évaluation du risque.
Les piliers de cette architecture incluent Google Cloud Storage pour l archivage physique des fichiers bruts et BigQuery comme moteur central pour l analyse des données structurées et des métadonnées. S y ajoutent Document AI pour le traitement intelligent des documents (IDP) et l extraction des entités, ainsi que Vertex AI pour l application de modèles prédictifs sur les données consolidées. Cette combinaison transforme une simple archive en une plateforme analytique active et automatisée.