Cos è un Data Lakehouse su Google Cloud e quali vantaggi offre?

Un Data Lakehouse su Google Cloud è un architettura ibrida che combina la flessibilità di archiviazione economica dei Data Lake con le prestazioni di analisi dei Data Warehouse. Nel settore finanziario, questo approccio permette di eliminare i silos tra dati strutturati e documenti non strutturati, come i PDF, consentendo interrogazioni SQL unificate. I vantaggi principali includono la riduzione della duplicazione dei dati, l abbattimento dei costi di storage e la capacità di ottenere insight in tempo reale per processi come l approvazione dei mutui.

Come si possono analizzare documenti PDF direttamente in BigQuery?

L analisi dei PDF in BigQuery avviene tramite l utilizzo delle Object Tables, che mappano i file presenti in Google Cloud Storage come tabelle di sola lettura. Per estrarre i dati contenuti nei documenti, si integrano le Remote Functions che collegano BigQuery ai servizi di Document AI. Questo permette di invocare modelli di estrazione intelligente direttamente tramite query SQL, trasformando informazioni non strutturate, come il reddito netto di una busta paga, in dati strutturati pronti per l analisi.

Come viene garantita la sicurezza e la compliance GDPR nel Data Lakehouse?

La sicurezza dei dati sensibili e la conformità al GDPR sono gestite attraverso la Row-Level Security (RLS) nativa di BigQuery. Invece di creare copie multiple dei dati per diversi team, la RLS permette di definire policy di accesso granulari che filtrano le righe visibili in base all utente connesso. Ad esempio, un analista del rischio può vedere tutti i dati, mentre un agente commerciale visualizzerà solo le pratiche dei propri clienti, garantendo la privacy senza duplicazioni.

In che modo Vertex AI migliora il processo di credit scoring?

Vertex AI potenzia il credit scoring utilizzando i dati unificati del Lakehouse per addestrare modelli di Machine Learning avanzati. Unendo lo storico dei pagamenti presente nel CRM con i dati reddituali reali estratti dai documenti tramite Document AI, è possibile creare modelli predittivi più accurati. Questi algoritmi possono calcolare la probabilità di default e rilevare anomalie tra il reddito dichiarato e quello effettivo, automatizzando e rendendo più sicura la valutazione del rischio.

Quali sono i componenti fondamentali di un architettura Data Lakehouse su GCP?

I pilastri di questa architettura includono Google Cloud Storage per l archiviazione fisica dei file grezzi e BigQuery come motore centrale per l analisi di dati strutturati e metadati. A questi si aggiungono Document AI per l elaborazione intelligente dei documenti (IDP) e l estrazione delle entità, e Vertex AI per l applicazione di modelli predittivi sui dati consolidati. Questa combinazione trasforma un semplice archivio in una piattaforma analitica attiva e automatizzata.

Google Cloud Data Lakehouse: Architektur für hybride Daten

von Francesco Zinghinì

Veröffentlicht am 16. Jan 2026

Aktualisiert am 16. Jan 2026

8 Minuten Lesezeit

Künstliche Intelligenz pdf cloud storage Sicherheit

Diagramm der Google Cloud Data Lakehouse Architektur mit BigQuery und Document AI

Im heutigen Finanzumfeld, und insbesondere im Hypothekensektor, liegt der wahre Wert nicht nur in strukturierten Datenbanken, sondern in einer oft ungenutzten Goldgrube: unstrukturierten Dokumenten. Gehaltsabrechnungen, Immobiliengutachten, Notarverträge und Ausweisdokumente bilden das, was oft als Dark Data bezeichnet wird. Die Herausforderung für CTOs und Datenarchitekten im Jahr 2026 besteht nicht mehr nur darin, diese Dateien zu archivieren, sondern sie in Echtzeit zusammen mit Transaktionsdaten abfragbar zu machen.

In diesem technischen Artikel untersuchen wir, wie man eine Google Cloud Data Lakehouse-Architektur entwirft und implementiert, die in der Lage ist, die Silos zwischen dem Data Lake (wo die PDFs liegen) und dem Data Warehouse (wo die CRM-Daten liegen) aufzubrechen. Wir nutzen die Leistung von BigQuery, die Intelligenz von Document AI und die prädiktiven Fähigkeiten von Vertex AI, um einen manuellen Prüfungsprozess in eine automatisierte und sichere Pipeline zu verwandeln.

Das Data-Lakehouse-Paradigma im Fintech

Traditionell unterhielten Banken zwei getrennte Stacks: einen Data Lake (z. B. Google Cloud Storage) für Rohdateien und ein Data Warehouse (z. B. Legacy-SQL-Datenbanken oder frühe MPPs) für Business Intelligence. Dieser Ansatz führte zu Datenduplizierung, hoher Latenz und Informationsdiskrepanzen.

Das Data Lakehouse auf der Google Cloud Platform (GCP) löst dieses Problem, indem es ermöglicht, im Objektspeicher archivierte Dateien so zu behandeln, als wären sie Tabellen einer relationalen Datenbank, wobei jedoch die niedrigen Speicherkosten und die hohe Leistung des Warehouse erhalten bleiben.

Schlüsselkomponenten der Architektur

Google Cloud Storage (GCS): Die physische Speicherebene für Dokumente (PDF, JPG, TIFF).
BigQuery (BQ): Das Herzstück des Lakehouse. Verwaltet sowohl strukturierte Daten (CRM) als auch Metadaten unstrukturierter Dateien über Object Tables.
Document AI: Der Dienst für intelligente Dokumentenverarbeitung (IDP) zum Extrahieren von Schlüsselentitäten.
Vertex AI: Für das Training von Kredit-Scoring-Modellen auf Basis vereinheitlichter Daten.

Phase 1: Architekturdesign und Ingestion

Google Cloud Data Lakehouse: Architektur für hybride Daten - Zusammenfassende Infografik — Zusammenfassende Infografik des Artikels “Google Cloud Data Lakehouse: Architektur für hybride Daten” (Visual Hub)

Der erste Schritt zum Aufbau eines effektiven Google Cloud Data Lakehouse besteht darin, die Ingestion-Ebene korrekt zu strukturieren. Wir laden nicht einfach nur Dateien hoch; wir bereiten den Boden für die Analyse vor.

Konfiguration der Object Tables in BigQuery

Seit den jüngsten GCP-Updates ermöglicht BigQuery das Erstellen von Object Tables. Dies sind schreibgeschützte Tabellen, die Dateien in einem GCS-Bucket abbilden. So können wir PDF-Gehaltsabrechnungen direkt in BigQuery sehen, ohne sie zu verschieben.

CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.raw_documents`
WITH CONNECTION `us.my-connection`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://mutui-docs-bucket/*.pdf']
);

Mit dieser einzigen SQL-Anweisung haben wir unser Dokumentenarchiv per SQL zugänglich gemacht. Wir können Metadaten (Erstellungsdatum, Größe, Dateiname) abfragen, als wären es strukturierte Spalten.

Phase 2: Intelligente Extraktion mit Document AI und Remote Functions

Schema einer Cloud-Architektur mit Servern und Symbolen digitaler Dokumente — Moderne Data-Lakehouse-Architekturen vereinheitlichen die Analyse komplexer Bankdaten.

Es reicht nicht, die Dateien in BigQuery aufzulisten. Wir müssen ihren Inhalt lesen. Hier kommt die Integration zwischen BigQuery und Document AI über Remote Functions ins Spiel.

Anstatt komplexe ETL-Pipelines mit Dataflow oder externen Python-Skripten zu erstellen, können wir das Extraktionsmodell direkt aus einer SQL-Abfrage aufrufen. Stellen wir uns vor, wir müssten das “Nettoeinkommen” und den “Arbeitgeber” aus Gehaltsabrechnungen extrahieren.

1. Erstellung des Document AI Prozessors

In der GCP-Konsole konfigurieren wir einen Lending Document Splitter & Parser (spezifisch für den Hypothekensektor) oder einen Custom Extractor, der auf spezifische Gehaltsabrechnungen trainiert ist.

2. Implementierung der Remote Function

Wir erstellen eine Cloud Function (Gen 2), die als Brücke fungiert. Diese Funktion empfängt den Datei-URI von BigQuery, ruft die Document AI API auf und gibt ein JSON-Objekt mit den extrahierten Entitäten zurück.

3. Extraktion via SQL

Jetzt können wir unsere Rohdaten anreichern, indem wir sie in strukturierte Informationen umwandeln:

CREATE OR REPLACE TABLE `fintech_lakehouse.extracted_income_data` AS
SELECT
  uri,
  remote_functions.extract_entities(uri) AS json_data
FROM
  `fintech_lakehouse.raw_documents`
WHERE
  content_type = 'application/pdf';

Das Ergebnis ist eine Tabelle, die den Link zum Originaldokument und eine Spalte JSON mit den extrahierten Daten enthält. Das ist die wahre Stärke des Google Cloud Data Lakehouse: unstrukturierte Daten werden on-the-fly in strukturierte Daten umgewandelt.

Phase 3: Datenmodellierung und Schema-Optimierung

Wie sollen wir die Daten speichern, sobald sie extrahiert sind? Im Hypothekenkontext ist Flexibilität entscheidend, aber die Abfrageleistung hat Priorität.

Hybrider Ansatz: Strukturierte Spalten + JSON

Wir raten davon ab, jedes einzelne extrahierte Feld vollständig in eine eigene Spalte zu überführen, da sich Dokumentformate ändern. Der beste Ansatz ist:

Core-Spalten (Strukturiert): Akten-ID, Steuernummer, Monatseinkommen, Einstellungsdatum. Diese Spalten müssen typisiert sein (INT64, STRING, DATE), um schnelle Joins mit CRM-Tabellen zu ermöglichen und Speicherkosten zu optimieren (BigQuery Capacitor-Format).
Payload-Spalte (JSON): Der gesamte Rest der Extraktion (kleinere Details, Randnotizen) verbleibt in einer Spalte vom Typ JSON. BigQuery unterstützt nativ den Zugriff auf JSON-Felder mit einer effizienten Syntax.

Beispiel einer vereinheitlichten analytischen Abfrage:

SELECT
  crm.customer_id,
  crm.risk_score_preliminare,
  docs.reddito_mensile,
  SAFE_CAST(docs.json_payload.dettagli_extra.bonus_produzione AS FLOAT64) as bonus
FROM
  `fintech_lakehouse.crm_customers` crm
JOIN
  `fintech_lakehouse.extracted_income_data` docs
ON
  crm.tax_code = docs.codice_fiscale
WHERE
  docs.reddito_mensile > 2000;

Phase 4: Sicherheit und DSGVO-Compliance (Row-Level Security)

Da wir sensible Daten wie Einkommen und Gutachten verarbeiten, ist Sicherheit keine Option. Die DSGVO schreibt vor, dass der Zugriff auf personenbezogene Daten auf das unbedingt notwendige Personal beschränkt sein muss.

In einem Google Cloud Data Lakehouse ist es nicht notwendig, separate Views für jede Benutzergruppe zu erstellen. Wir nutzen die Row-Level Security (RLS) von BigQuery.

Implementierung der Zugriffsrichtlinien

Nehmen wir an, wir haben zwei Benutzergruppen: Risikoanalysten (vollständiger Zugriff) und Handelsvertreter (Zugriff beschränkt auf eigene Akten).

CREATE ROW ACCESS POLICY commercial_filter
ON `fintech_lakehouse.extracted_income_data`
GRANT TO ('group:agenti-commerciali@banca.it')
FILTER USING (agente_id = SESSION_USER());

Mit dieser Richtlinie filtert BigQuery bei Ausführung eines SELECT * durch einen Vertreter automatisch die Ergebnisse und zeigt nur die Zeilen an, bei denen die agente_id dem eingeloggten Benutzer entspricht. Die sensiblen Daten anderer Kunden bleiben unsichtbar, was die Einhaltung der Vorschriften ohne Datenduplizierung gewährleistet.

Phase 5: Prädiktives Credit Scoring mit Vertex AI

Die letzte Meile unseres Lakehouse ist die Aktivierung der Daten. Jetzt, da wir Verhaltensdaten (Zahlungshistorie aus dem CRM) mit realen Einkommensdaten (aus Gehaltsabrechnungen extrahiert) verknüpft haben, können wir überlegene Machine-Learning-Modelle trainieren.

Durch die Nutzung von Vertex AI integriert mit BigQuery können wir ein logistisches Regressionsmodell oder ein neuronales Netz erstellen, um die Ausfallwahrscheinlichkeit (PD) vorherzusagen.

Feature Engineering: Wir erstellen einen View in BigQuery, der CRM- und Dokumententabellen verbindet.
Training: Wir nutzen CREATE MODEL direkt in SQL (BigQuery ML) oder exportieren das Dataset für AutoML nach Vertex AI.
Prediction: Das trainierte Modell kann jede Nacht im Batch-Verfahren aufgerufen werden, um den Risikoscore aller offenen Akten neu zu berechnen und Anomalien zwischen dem erklärten Einkommen und dem aus Dokumenten extrahierten Einkommen zu melden.

Kurz gesagt (TL;DR)

Die Data-Lakehouse-Architektur vereint strukturierte Daten und komplexe Dokumente wie PDFs in einer einzigen leistungsstarken und kostengünstigen Cloud-Umgebung.

BigQuery und Document AI ermöglichen die Abfrage von Rohdateien via SQL und verwandeln manuelle Prozesse in automatisierte und intelligente Pipelines.

Diese Strategie wertet finanzielle Dark Data auf und bietet CTOs eine einheitliche Verwaltung für prädiktive Analysen und operative Abläufe in Echtzeit.

(adsbygoogle = window.adsbygoogle || []).push({});

Fazit

disegno di un ragazzo seduto a gambe incrociate con un laptop sulle gambe che trae le conclusioni di tutto quello che si è scritto finora

Die Implementierung eines Google Cloud Data Lakehouse im Hypothekensektor verändert die Arbeitsweise radikal. Es geht nicht nur um Technologie, sondern um Geschäftsgeschwindigkeit: von Tagen zu Minuten für die Vorabgenehmigung einer Hypothek.

Die vorgestellte Architektur, basierend auf der engen Integration von BigQuery, GCS und Document AI, bietet drei unmittelbare Wettbewerbsvorteile:

Vereinheitlichung: Eine einzige Quelle der Wahrheit für strukturierte und unstrukturierte Daten.
Automatisierung: Reduzierung menschlicher Eingriffe bei der Datenextraktion (Data Entry).
Compliance: Granulare Zugriffskontrolle nativ in der Datenbank.

Für Finanzinstitute, die auf das Jahr 2026 und darüber hinaus blicken, stellt diese Konvergenz zwischen Dokumentenmanagement und Datenanalyse den De-facto-Standard dar, um in einem zunehmend von Algorithmen gesteuerten Markt wettbewerbsfähig zu bleiben.

Häufig gestellte Fragen

disegno di un ragazzo seduto con nuvolette di testo con dentro la parola FAQ

Was ist ein Data Lakehouse auf Google Cloud und welche Vorteile bietet es?

Ein Data Lakehouse auf Google Cloud ist eine hybride Architektur, die die kostengünstige Speicherflexibilität von Data Lakes mit der Analyseleistung von Data Warehouses kombiniert. Im Finanzsektor ermöglicht dieser Ansatz die Beseitigung von Silos zwischen strukturierten Daten und unstrukturierten Dokumenten wie PDFs, was vereinheitlichte SQL-Abfragen erlaubt. Die Hauptvorteile umfassen die Reduzierung von Datenduplizierung, die Senkung der Speicherkosten und die Fähigkeit, Echtzeit-Einblicke für Prozesse wie die Hypothekengenehmigung zu gewinnen.

Wie können PDF-Dokumente direkt in BigQuery analysiert werden?

Die Analyse von PDFs in BigQuery erfolgt über die Nutzung von Object Tables, die Dateien in Google Cloud Storage als schreibgeschützte Tabellen abbilden. Um die in den Dokumenten enthaltenen Daten zu extrahieren, integriert man Remote Functions, die BigQuery mit Document-AI-Diensten verbinden. Dies ermöglicht den Aufruf intelligenter Extraktionsmodelle direkt über SQL-Abfragen, wodurch unstrukturierte Informationen, wie das Nettoeinkommen einer Gehaltsabrechnung, in strukturierte, analysebereite Daten umgewandelt werden.

Wie werden Sicherheit und DSGVO-Compliance im Data Lakehouse gewährleistet?

Die Sicherheit sensibler Daten und die DSGVO-Konformität werden durch die native Row-Level Security (RLS) von BigQuery verwaltet. Anstatt mehrere Datenkopien für verschiedene Teams zu erstellen, ermöglicht RLS die Definition granularer Zugriffsrichtlinien, die sichtbare Zeilen basierend auf dem verbundenen Benutzer filtern. Beispielsweise kann ein Risikoanalyst alle Daten sehen, während ein Handelsvertreter nur die Akten seiner eigenen Kunden sieht, was den Datenschutz ohne Duplizierung garantiert.

Wie verbessert Vertex AI den Prozess des Credit Scoring?

Vertex AI verbessert das Credit Scoring, indem es die vereinheitlichten Daten des Lakehouse nutzt, um fortgeschrittene Machine-Learning-Modelle zu trainieren. Durch die Zusammenführung der im CRM vorhandenen Zahlungshistorie mit den realen, über Document AI aus Dokumenten extrahierten Einkommensdaten können präzisere Vorhersagemodelle erstellt werden. Diese Algorithmen können die Ausfallwahrscheinlichkeit berechnen und Anomalien zwischen dem erklärten und dem tatsächlichen Einkommen erkennen, was die Risikobewertung automatisiert und sicherer macht.

Was sind die grundlegenden Komponenten einer Data-Lakehouse-Architektur auf GCP?

Die Säulen dieser Architektur umfassen Google Cloud Storage für die physische Speicherung von Rohdateien und BigQuery als zentrale Engine für die Analyse strukturierter Daten und Metadaten. Hinzu kommen Document AI für die intelligente Dokumentenverarbeitung (IDP) und Entitätsextraktion sowie Vertex AI für die Anwendung prädiktiver Modelle auf die konsolidierten Daten. Diese Kombination verwandelt ein einfaches Archiv in eine aktive und automatisierte Analyseplattform.

Quellen und Vertiefung

disegno di un ragazzo seduto con un laptop sulle gambe che ricerca dal web le fonti per scrivere un post

Francesco Zinghinì

Elektronikingenieur mit der Mission, die digitale Welt zu vereinfachen. Dank seines technischen Hintergrunds in Systemtheorie analysiert er Software, Hardware und Netzwerkinfrastrukturen, um praktische Leitfäden zu IT und Telekommunikation anzubieten. Er verwandelt technische Komplexität in für alle zugängliche Lösungen.

Fanden Sie diesen Artikel hilfreich? Gibt es ein anderes Thema, das Sie von mir behandelt sehen möchten?
Schreiben Sie es in die Kommentare unten! Ich lasse mich direkt von Ihren Vorschlägen inspirieren.