Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:
https://blog.tuttosemplice.com/data-lakehouse-google-cloud-architettura-per-dati-ibridi/
Verrai reindirizzato automaticamente...
Nel panorama finanziario odierno, e in particolare nel settore dei mutui, il vero valore non risiede solo nei database strutturati, ma in una miniera d’oro spesso inutilizzata: i documenti non strutturati. Buste paga, perizie immobiliari, rogiti notarili e documenti d’identità costituiscono quello che viene spesso definito Dark Data. La sfida per i CTO e i Data Architect nel 2026 non è più solo archiviare questi file, ma renderli interrogabili in tempo reale insieme ai dati transazionali.
In questo articolo tecnico, esploreremo come progettare e implementare un’architettura data lakehouse google cloud capace di abbattere i silos tra il data lake (dove risiedono i PDF) e il data warehouse (dove risiedono i dati CRM). Utilizzeremo la potenza di BigQuery, l’intelligenza di Document AI e le capacità predittive di Vertex AI per trasformare un processo di istruttoria manuale in una pipeline automatizzata e sicura.
Tradizionalmente, le banche mantenevano due stack separati: un Data Lake (es. Google Cloud Storage) per i file grezzi e un Data Warehouse (es. database SQL legacy o primi MPP) per la Business Intelligence. Questo approccio comportava duplicazione dei dati, latenza elevata e disallineamento delle informazioni.
Il Data Lakehouse su Google Cloud Platform (GCP) risolve questo problema permettendo di trattare i file archiviati nello storage a oggetti come se fossero tabelle di un database relazionale, mantenendo però i costi bassi dello storage e le performance elevate del warehouse.
Il primo passo per costruire un data lakehouse google cloud efficace è strutturare correttamente il livello di ingestione. Non stiamo semplicemente caricando file; stiamo preparando il terreno per l’analisi.
A partire dagli aggiornamenti recenti di GCP, BigQuery permette di creare Object Tables. Queste sono tabelle di sola lettura che mappano i file presenti in un bucket GCS. Questo ci permette di vedere i PDF delle buste paga direttamente dentro BigQuery senza spostarli.
CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.raw_documents`
WITH CONNECTION `us.my-connection`
OPTIONS (
object_metadata = 'SIMPLE',
uris = ['gs://mutui-docs-bucket/*.pdf']
);Con questa singola istruzione SQL, abbiamo reso il nostro archivio documentale accessibile via SQL. Possiamo interrogare i metadati (data creazione, dimensione, nome file) come se fossero colonne strutturate.
Avere i file listati in BigQuery non basta. Dobbiamo leggerne il contenuto. Qui entra in gioco l’integrazione tra BigQuery e Document AI tramite le Remote Functions (Funzioni Remote).
Invece di costruire complesse pipeline ETL con Dataflow o script Python esterni, possiamo invocare il modello di estrazione direttamente da una query SQL. Immaginiamo di dover estrarre il “Reddito Netto” e il “Datore di Lavoro” dalle buste paga.
Nella console GCP, configuriamo un processore Lending Document Splitter & Parser (specifico per il settore mutui) o un processore Custom Extractor addestrato sulle specifiche buste paga italiane.
Creiamo una Cloud Function (Gen 2) che funge da ponte. Questa funzione riceve l’URI del file da BigQuery, chiama l’API di Document AI e restituisce un oggetto JSON con le entità estratte.
Ora possiamo arricchire i nostri dati grezzi trasformandoli in informazioni strutturate:
CREATE OR REPLACE TABLE `fintech_lakehouse.extracted_income_data` AS
SELECT
uri,
remote_functions.extract_entities(uri) AS json_data
FROM
`fintech_lakehouse.raw_documents`
WHERE
content_type = 'application/pdf';Il risultato è una tabella che contiene il link al documento originale e una colonna JSON con i dati estratti. Questo è il vero potere del data lakehouse google cloud: dati non strutturati convertiti in strutturati on-the-fly.
Una volta estratti i dati, come dobbiamo memorizzarli? Nel contesto dei mutui, la flessibilità è fondamentale, ma le performance delle query sono prioritarie.
Sconsigliamo di appiattire completamente ogni singolo campo estratto in una colonna dedicata, poiché i formati documentali cambiano. L’approccio migliore è:
JSON. BigQuery supporta nativamente l’accesso ai campi JSON con una sintassi efficiente.Esempio di query analitica unificata:
SELECT
crm.customer_id,
crm.risk_score_preliminare,
docs.reddito_mensile,
SAFE_CAST(docs.json_payload.dettagli_extra.bonus_produzione AS FLOAT64) as bonus
FROM
`fintech_lakehouse.crm_customers` crm
JOIN
`fintech_lakehouse.extracted_income_data` docs
ON
crm.tax_code = docs.codice_fiscale
WHERE
docs.reddito_mensile > 2000;Trattando dati sensibili come redditi e perizie, la sicurezza non è opzionale. Il GDPR impone che l’accesso ai dati personali sia limitato al personale strettamente necessario.
In un data lakehouse google cloud, non è necessario creare viste separate per ogni gruppo di utenti. Utilizziamo la Row-Level Security (RLS) di BigQuery.
Supponiamo di avere due gruppi di utenti: Analisti Rischio (accesso completo) e Agenti Commerciali (accesso limitato solo alle proprie pratiche).
CREATE ROW ACCESS POLICY commercial_filter
ON `fintech_lakehouse.extracted_income_data`
GRANT TO ('group:agenti-commerciali@banca.it')
FILTER USING (agente_id = SESSION_USER());Con questa policy, quando un agente esegue una SELECT *, BigQuery filtrerà automaticamente i risultati, mostrando solo le righe dove l’agente_id corrisponde all’utente loggato. I dati sensibili degli altri clienti rimangono invisibili, garantendo la compliance normativa senza duplicare i dati.
L’ultimo miglio del nostro Lakehouse è l’attivazione del dato. Ora che abbiamo unito i dati comportamentali (storico pagamenti dal CRM) con i dati reddituali reali (estratti dalle buste paga), possiamo addestrare modelli di Machine Learning superiori.
Utilizzando Vertex AI integrato con BigQuery, possiamo creare un modello di regressione logistica o una rete neurale per predire la probabilità di default (PD).
CREATE MODEL direttamente in SQL (BigQuery ML) o esportiamo il dataset su Vertex AI per l’AutoML.Implementare un data lakehouse google cloud nel settore dei mutui trasforma radicalmente l’operatività. Non si tratta solo di tecnologia, ma di velocità di business: passare da giorni a minuti per la pre-approvazione di un mutuo.
L’architettura presentata, basata sull’integrazione stretta tra BigQuery, GCS e Document AI, offre tre vantaggi competitivi immediati:
Per le istituzioni finanziarie che guardano al 2026 e oltre, questa convergenza tra gestione documentale e analisi dati rappresenta lo standard de facto per rimanere competitivi in un mercato sempre più guidato dagli algoritmi.
Un Data Lakehouse su Google Cloud è un architettura ibrida che combina la flessibilità di archiviazione economica dei Data Lake con le prestazioni di analisi dei Data Warehouse. Nel settore finanziario, questo approccio permette di eliminare i silos tra dati strutturati e documenti non strutturati, come i PDF, consentendo interrogazioni SQL unificate. I vantaggi principali includono la riduzione della duplicazione dei dati, l abbattimento dei costi di storage e la capacità di ottenere insight in tempo reale per processi come l approvazione dei mutui.
L analisi dei PDF in BigQuery avviene tramite l utilizzo delle Object Tables, che mappano i file presenti in Google Cloud Storage come tabelle di sola lettura. Per estrarre i dati contenuti nei documenti, si integrano le Remote Functions che collegano BigQuery ai servizi di Document AI. Questo permette di invocare modelli di estrazione intelligente direttamente tramite query SQL, trasformando informazioni non strutturate, come il reddito netto di una busta paga, in dati strutturati pronti per l analisi.
La sicurezza dei dati sensibili e la conformità al GDPR sono gestite attraverso la Row-Level Security (RLS) nativa di BigQuery. Invece di creare copie multiple dei dati per diversi team, la RLS permette di definire policy di accesso granulari che filtrano le righe visibili in base all utente connesso. Ad esempio, un analista del rischio può vedere tutti i dati, mentre un agente commerciale visualizzerà solo le pratiche dei propri clienti, garantendo la privacy senza duplicazioni.
Vertex AI potenzia il credit scoring utilizzando i dati unificati del Lakehouse per addestrare modelli di Machine Learning avanzati. Unendo lo storico dei pagamenti presente nel CRM con i dati reddituali reali estratti dai documenti tramite Document AI, è possibile creare modelli predittivi più accurati. Questi algoritmi possono calcolare la probabilità di default e rilevare anomalie tra il reddito dichiarato e quello effettivo, automatizzando e rendendo più sicura la valutazione del rischio.
I pilastri di questa architettura includono Google Cloud Storage per l archiviazione fisica dei file grezzi e BigQuery come motore centrale per l analisi di dati strutturati e metadati. A questi si aggiungono Document AI per l elaborazione intelligente dei documenti (IDP) e l estrazione delle entità, e Vertex AI per l applicazione di modelli predittivi sui dati consolidati. Questa combinazione trasforma un semplice archivio in una piattaforma analitica attiva e automatizzata.