Data Lakehouse Google Cloud : Architecture pour Données Hybrides

Autore: Francesco Zinghinì | Data: 16 Gennaio 2026

Dans le paysage financier actuel, et en particulier dans le secteur des prêts immobiliers, la véritable valeur ne réside pas seulement dans les bases de données structurées, mais dans une mine d’or souvent inexploitée : les documents non structurés. Fiches de paie, expertises immobilières, actes notariés et pièces d’identité constituent ce que l’on appelle souvent le Dark Data. Le défi pour les CTO et les Architectes de Données en 2026 n’est plus seulement d’archiver ces fichiers, mais de les rendre interrogeables en temps réel aux côtés des données transactionnelles.

Dans cet article technique, nous explorerons comment concevoir et implémenter une architecture data lakehouse google cloud capable de briser les silos entre le data lake (où résident les PDF) et le data warehouse (où résident les données CRM). Nous utiliserons la puissance de BigQuery, l’intelligence de Document AI et les capacités prédictives de Vertex AI pour transformer un processus d’instruction manuel en un pipeline automatisé et sécurisé.

Le Paradigme Data Lakehouse dans la Fintech

Traditionnellement, les banques maintenaient deux piles technologiques séparées : un Data Lake (ex. Google Cloud Storage) pour les fichiers bruts et un Data Warehouse (ex. bases de données SQL héritées ou premiers MPP) pour la Business Intelligence. Cette approche entraînait une duplication des données, une latence élevée et un désalignement des informations.

Le Data Lakehouse sur Google Cloud Platform (GCP) résout ce problème en permettant de traiter les fichiers archivés dans le stockage objet comme s’il s’agissait de tables d’une base de données relationnelle, tout en maintenant les coûts de stockage bas et les performances élevées du warehouse.

Composants Clés de l’Architecture

Google Cloud Storage (GCS) : La couche de stockage physique pour les documents (PDF, JPG, TIFF).
BigQuery (BQ) : Le cœur du Lakehouse. Il gère à la fois les données structurées (CRM) et les métadonnées des fichiers non structurés via les Object Tables.
Document AI : Le service de traitement intelligent des documents (IDP) pour extraire les entités clés.
Vertex AI : Pour l’entraînement de modèles de credit scoring basés sur les données unifiées.

Phase 1 : Conception de l’Architecture et Ingestion

La première étape pour construire un data lakehouse google cloud efficace est de structurer correctement la couche d’ingestion. Nous ne faisons pas que charger des fichiers ; nous préparons le terrain pour l’analyse.

Configuration des Object Tables dans BigQuery

Depuis les mises à jour récentes de GCP, BigQuery permet de créer des Object Tables. Ce sont des tables en lecture seule qui mappent les fichiers présents dans un bucket GCS. Cela nous permet de voir les PDF des fiches de paie directement dans BigQuery sans les déplacer.

CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.documents_bruts`
WITH CONNECTION `us.my-connection`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://bucket-docs-prets/*.pdf']
);

Avec cette seule instruction SQL, nous avons rendu notre archive documentaire accessible via SQL. Nous pouvons interroger les métadonnées (date de création, taille, nom du fichier) comme s’il s’agissait de colonnes structurées.

Phase 2 : Extraction Intelligente avec Document AI et Remote Functions

Avoir les fichiers listés dans BigQuery ne suffit pas. Nous devons lire leur contenu. C’est ici qu’intervient l’intégration entre BigQuery et Document AI via les Remote Functions (Fonctions Distantes).

Au lieu de construire des pipelines ETL complexes avec Dataflow ou des scripts Python externes, nous pouvons invoquer le modèle d’extraction directement depuis une requête SQL. Imaginons devoir extraire le « Revenu Net » et l’« Employeur » des fiches de paie.

1. Création du Processeur Document AI

Dans la console GCP, nous configurons un processeur Lending Document Splitter & Parser (spécifique au secteur des prêts) ou un processeur Custom Extractor entraîné sur les spécificités des fiches de paie locales.

2. Implémentation de la Remote Function

Nous créons une Cloud Function (Gen 2) qui sert de pont. Cette fonction reçoit l’URI du fichier depuis BigQuery, appelle l’API de Document AI et renvoie un objet JSON avec les entités extraites.

3. Extraction via SQL

Nous pouvons maintenant enrichir nos données brutes en les transformant en informations structurées :

CREATE OR REPLACE TABLE `fintech_lakehouse.donnees_revenus_extraites` AS
SELECT
  uri,
  remote_functions.extract_entities(uri) AS json_data
FROM
  `fintech_lakehouse.documents_bruts`
WHERE
  content_type = 'application/pdf';

Le résultat est une table contenant le lien vers le document original et une colonne JSON avec les données extraites. C’est le véritable pouvoir du data lakehouse google cloud : des données non structurées converties en structurées à la volée.

Phase 3 : Modélisation des Données et Optimisation du Schéma

Une fois les données extraites, comment devons-nous les stocker ? Dans le contexte des prêts immobiliers, la flexibilité est fondamentale, mais les performances des requêtes sont prioritaires.

Approche Hybride : Colonnes Structurées + JSON

Nous déconseillons d’aplatir complètement chaque champ extrait dans une colonne dédiée, car les formats documentaires changent. La meilleure approche est :

Colonnes Core (Structurées) : ID Dossier, Code Fiscal, Revenu Mensuel, Date d’Embauche. Ces colonnes doivent être typées (INT64, STRING, DATE) pour permettre des jointures rapides avec les tables du CRM et optimiser les coûts de stockage (format BigQuery Capacitor).
Colonne Payload (JSON) : Tout le reste de l’extraction (détails mineurs, notes en marge) reste dans une colonne de type JSON. BigQuery supporte nativement l’accès aux champs JSON avec une syntaxe efficace.

Exemple de requête analytique unifiée :

SELECT
  crm.customer_id,
  crm.risk_score_preliminaire,
  docs.revenu_mensuel,
  SAFE_CAST(docs.json_payload.details_supp.bonus_production AS FLOAT64) as bonus
FROM
  `fintech_lakehouse.crm_customers` crm
JOIN
  `fintech_lakehouse.donnees_revenus_extraites` docs
ON
  crm.tax_code = docs.code_fiscal
WHERE
  docs.revenu_mensuel > 2000;

Phase 4 : Sécurité et Conformité RGPD (Row-Level Security)

En traitant des données sensibles comme les revenus et les expertises, la sécurité n’est pas optionnelle. Le RGPD impose que l’accès aux données personnelles soit limité au personnel strictement nécessaire.

Dans un data lakehouse google cloud, il n’est pas nécessaire de créer des vues séparées pour chaque groupe d’utilisateurs. Nous utilisons la Row-Level Security (RLS) de BigQuery.

Implémentation des Politiques d’Accès

Supposons que nous ayons deux groupes d’utilisateurs : Analystes Risque (accès complet) et Agents Commerciaux (accès limité uniquement à leurs propres dossiers).

CREATE ROW ACCESS POLICY filtre_commercial
ON `fintech_lakehouse.donnees_revenus_extraites`
GRANT TO ('group:agents-commerciaux@banque.fr')
FILTER USING (id_agent = SESSION_USER());

Avec cette politique, lorsqu’un agent exécute un SELECT *, BigQuery filtrera automatiquement les résultats, ne montrant que les lignes où l’id_agent correspond à l’utilisateur connecté. Les données sensibles des autres clients restent invisibles, garantissant la conformité réglementaire sans dupliquer les données.

Phase 5 : Credit Scoring Prédictif avec Vertex AI

Le dernier kilomètre de notre Lakehouse est l’activation de la donnée. Maintenant que nous avons uni les données comportementales (historique des paiements du CRM) avec les données de revenus réels (extraites des fiches de paie), nous pouvons entraîner des modèles de Machine Learning supérieurs.

En utilisant Vertex AI intégré avec BigQuery, nous pouvons créer un modèle de régression logistique ou un réseau de neurones pour prédire la probabilité de défaut (PD).

Feature Engineering : Nous créons une vue dans BigQuery qui unit les tables CRM et Documentaires.
Entraînement : Nous utilisons CREATE MODEL directement en SQL (BigQuery ML) ou exportons le dataset sur Vertex AI pour l’AutoML.
Prédiction : Le modèle entraîné peut être appelé en batch chaque nuit pour recalculer le score de risque de tous les dossiers ouverts, signalant les anomalies entre le revenu déclaré et celui extrait des documents.

Conclusion

Implémenter un data lakehouse google cloud dans le secteur des prêts immobiliers transforme radicalement l’opérationnel. Il ne s’agit pas seulement de technologie, mais de vitesse commerciale : passer de plusieurs jours à quelques minutes pour la pré-approbation d’un prêt.

L’architecture présentée, basée sur l’intégration étroite entre BigQuery, GCS et Document AI, offre trois avantages compétitifs immédiats :

Unification : Une source unique de vérité pour les données structurées et non structurées.
Automatisation : Réduction de l’intervention humaine dans l’extraction de données (Saisie de données).
Conformité : Contrôle granulaire des accès natif dans la base de données.

Pour les institutions financières qui regardent vers 2026 et au-delà, cette convergence entre gestion documentaire et analyse de données représente le standard de facto pour rester compétitif dans un marché de plus en plus guidé par les algorithmes.

Foire aux questions

Qu est-ce qu un Data Lakehouse sur Google Cloud et quels avantages offre-t-il ?

Un Data Lakehouse sur Google Cloud est une architecture hybride qui combine la flexibilité de stockage économique des Data Lakes avec les performances d analyse des Data Warehouses. Dans le secteur financier, cette approche permet d éliminer les silos entre les données structurées et les documents non structurés, comme les PDF, permettant des requêtes SQL unifiées. Les principaux avantages incluent la réduction de la duplication des données, la baisse des coûts de stockage et la capacité d obtenir des insights en temps réel pour des processus comme l approbation des prêts.

Comment analyser des documents PDF directement dans BigQuery ?

L analyse des PDF dans BigQuery s effectue via l utilisation des Object Tables, qui mappent les fichiers présents dans Google Cloud Storage comme des tables en lecture seule. Pour extraire les données contenues dans les documents, on intègre les Remote Functions qui connectent BigQuery aux services de Document AI. Cela permet d invoquer des modèles d extraction intelligente directement via des requêtes SQL, transformant des informations non structurées, comme le revenu net d une fiche de paie, en données structurées prêtes pour l analyse.

Comment la sécurité et la conformité RGPD sont-elles garanties dans le Data Lakehouse ?

La sécurité des données sensibles et la conformité au RGPD sont gérées via la Row-Level Security (RLS) native de BigQuery. Au lieu de créer de multiples copies des données pour différentes équipes, la RLS permet de définir des politiques d accès granulaires qui filtrent les lignes visibles en fonction de l utilisateur connecté. Par exemple, un analyste de risque peut voir toutes les données, tandis qu un agent commercial ne visualisera que les dossiers de ses propres clients, garantissant la confidentialité sans duplication.

Comment Vertex AI améliore-t-il le processus de credit scoring ?

Vertex AI renforce le credit scoring en utilisant les données unifiées du Lakehouse pour entraîner des modèles de Machine Learning avancés. En unissant l historique des paiements présent dans le CRM avec les données de revenus réels extraites des documents via Document AI, il est possible de créer des modèles prédictifs plus précis. Ces algorithmes peuvent calculer la probabilité de défaut et détecter des anomalies entre le revenu déclaré et le revenu réel, automatisant et sécurisant l évaluation du risque.

Quels sont les composants fondamentaux d une architecture Data Lakehouse sur GCP ?

Les piliers de cette architecture incluent Google Cloud Storage pour l archivage physique des fichiers bruts et BigQuery comme moteur central pour l analyse des données structurées et des métadonnées. S y ajoutent Document AI pour le traitement intelligent des documents (IDP) et l extraction des entités, ainsi que Vertex AI pour l application de modèles prédictifs sur les données consolidées. Cette combinaison transforme une simple archive en une plateforme analytique active et automatisée.