Data Lakehouse Google Cloud: Arquitetura para Dados Híbridos

Autore: Francesco Zinghinì | Data: 16 Gennaio 2026

No panorama financeiro atual, e em particular no setor do crédito habitação, o verdadeiro valor não reside apenas nas bases de dados estruturadas, mas numa mina de ouro frequentemente inutilizada: os documentos não estruturados. Recibos de vencimento, avaliações imobiliárias, escrituras notariais e documentos de identificação constituem aquilo que é frequentemente definido como Dark Data. O desafio para os CTOs e Arquitetos de Dados em 2026 já não é apenas arquivar estes ficheiros, mas torná-los consultáveis em tempo real juntamente com os dados transacionais.

Neste artigo técnico, exploraremos como projetar e implementar uma arquitetura data lakehouse google cloud capaz de derrubar os silos entre o data lake (onde residem os PDFs) e o data warehouse (onde residem os dados de CRM). Utilizaremos a potência do BigQuery, a inteligência da Document AI e as capacidades preditivas da Vertex AI para transformar um processo de análise de crédito manual numa pipeline automatizada e segura.

O Paradigma Data Lakehouse na Fintech

Tradicionalmente, os bancos mantinham duas stacks separadas: um Data Lake (ex. Google Cloud Storage) para os ficheiros brutos e um Data Warehouse (ex. bases de dados SQL legacy ou os primeiros MPP) para a Business Intelligence. Esta abordagem implicava duplicação de dados, latência elevada e desalinhamento da informação.

O Data Lakehouse na Google Cloud Platform (GCP) resolve este problema permitindo tratar os ficheiros arquivados no armazenamento de objetos como se fossem tabelas de uma base de dados relacional, mantendo, no entanto, os custos baixos do armazenamento e o desempenho elevado do warehouse.

Componentes Chave da Arquitetura

Google Cloud Storage (GCS): O nível de armazenamento físico para os documentos (PDF, JPG, TIFF).
BigQuery (BQ): O coração do Lakehouse. Gere tanto os dados estruturados (CRM) como os metadados dos ficheiros não estruturados através de Object Tables.
Document AI: O serviço de processamento inteligente de documentos (IDP) para extrair entidades chave.
Vertex AI: Para o treino de modelos de credit scoring baseados nos dados unificados.

Fase 1: Design da Arquitetura e Ingestão

O primeiro passo para construir um data lakehouse google cloud eficaz é estruturar corretamente o nível de ingestão. Não estamos simplesmente a carregar ficheiros; estamos a preparar o terreno para a análise.

Configuração das Object Tables no BigQuery

A partir das atualizações recentes da GCP, o BigQuery permite criar Object Tables. Estas são tabelas de apenas leitura que mapeiam os ficheiros presentes num bucket GCS. Isto permite-nos ver os PDFs dos recibos de vencimento diretamente dentro do BigQuery sem os mover.

CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.raw_documents`
WITH CONNECTION `us.my-connection`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://mutui-docs-bucket/*.pdf']
);

Com esta única instrução SQL, tornámos o nosso arquivo documental acessível via SQL. Podemos consultar os metadados (data de criação, dimensão, nome do ficheiro) como se fossem colunas estruturadas.

Fase 2: Extração Inteligente com Document AI e Remote Functions

Ter os ficheiros listados no BigQuery não basta. Precisamos de ler o seu conteúdo. Aqui entra em jogo a integração entre o BigQuery e a Document AI através das Remote Functions (Funções Remotas).

Em vez de construir pipelines ETL complexas com Dataflow ou scripts Python externos, podemos invocar o modelo de extração diretamente a partir de uma query SQL. Imaginemos que temos de extrair o “Rendimento Líquido” e a “Entidade Patronal” dos recibos de vencimento.

1. Criação do Processador Document AI

Na consola GCP, configuramos um processador Lending Document Splitter & Parser (específico para o setor de crédito) ou um processador Custom Extractor treinado nos recibos de vencimento específicos.

2. Implementação da Remote Function

Criamos uma Cloud Function (Gen 2) que serve de ponte. Esta função recebe o URI do ficheiro do BigQuery, chama a API da Document AI e devolve um objeto JSON com as entidades extraídas.

3. Extração via SQL

Agora podemos enriquecer os nossos dados brutos transformando-os em informações estruturadas:

CREATE OR REPLACE TABLE `fintech_lakehouse.extracted_income_data` AS
SELECT
  uri,
  remote_functions.extract_entities(uri) AS json_data
FROM
  `fintech_lakehouse.raw_documents`
WHERE
  content_type = 'application/pdf';

O resultado é uma tabela que contém o link para o documento original e uma coluna JSON com os dados extraídos. Este é o verdadeiro poder do data lakehouse google cloud: dados não estruturados convertidos em estruturados on-the-fly.

Fase 3: Modelação de Dados e Otimização de Esquema

Uma vez extraídos os dados, como devemos armazená-los? No contexto do crédito habitação, a flexibilidade é fundamental, mas o desempenho das queries é prioritário.

Abordagem Híbrida: Colunas Estruturadas + JSON

Desaconselhamos “achatar” completamente cada campo extraído numa coluna dedicada, pois os formatos documentais mudam. A melhor abordagem é:

Colunas Core (Estruturadas): ID do Processo, NIF (Código Fiscal), Rendimento Mensal, Data de Admissão. Estas colunas devem ser tipificadas (INT64, STRING, DATE) para permitir joins rápidos com as tabelas do CRM e otimizar os custos de armazenamento (formato BigQuery Capacitor).
Coluna Payload (JSON): Todo o resto da extração (detalhes menores, notas à margem) permanece numa coluna do tipo JSON. O BigQuery suporta nativamente o acesso aos campos JSON com uma sintaxe eficiente.

Exemplo de query analítica unificada:

SELECT
  crm.customer_id,
  crm.risk_score_preliminare,
  docs.reddito_mensile,
  SAFE_CAST(docs.json_payload.dettagli_extra.bonus_produzione AS FLOAT64) as bonus
FROM
  `fintech_lakehouse.crm_customers` crm
JOIN
  `fintech_lakehouse.extracted_income_data` docs
ON
  crm.tax_code = docs.codice_fiscale
WHERE
  docs.reddito_mensile > 2000;

Fase 4: Segurança e Conformidade RGPD (Row-Level Security)

Ao tratar dados sensíveis como rendimentos e avaliações, a segurança não é opcional. O RGPD impõe que o acesso aos dados pessoais seja limitado ao pessoal estritamente necessário.

Num data lakehouse google cloud, não é necessário criar vistas separadas para cada grupo de utilizadores. Utilizamos a Row-Level Security (RLS) do BigQuery.

Implementação das Políticas de Acesso

Suponhamos que temos dois grupos de utilizadores: Analistas de Risco (acesso completo) e Agentes Comerciais (acesso limitado apenas aos seus próprios processos).

CREATE ROW ACCESS POLICY commercial_filter
ON `fintech_lakehouse.extracted_income_data`
GRANT TO ('group:agenti-commerciali@banca.it')
FILTER USING (agente_id = SESSION_USER());

Com esta política, quando um agente executa um SELECT *, o BigQuery filtrará automaticamente os resultados, mostrando apenas as linhas onde o agente_id corresponde ao utilizador com login efetuado. Os dados sensíveis dos outros clientes permanecem invisíveis, garantindo a conformidade normativa sem duplicar os dados.

Fase 5: Credit Scoring Preditivo com Vertex AI

A última milha do nosso Lakehouse é a ativação do dado. Agora que unimos os dados comportamentais (histórico de pagamentos do CRM) com os dados de rendimento reais (extraídos dos recibos de vencimento), podemos treinar modelos de Machine Learning superiores.

Utilizando a Vertex AI integrada com o BigQuery, podemos criar um modelo de regressão logística ou uma rede neuronal para prever a probabilidade de incumprimento (PD).

Feature Engineering: Criamos uma vista no BigQuery que une as tabelas CRM e Documentais.
Training: Usamos CREATE MODEL diretamente em SQL (BigQuery ML) ou exportamos o dataset para a Vertex AI para o AutoML.
Prediction: O modelo treinado pode ser invocado em batch todas as noites para recalcular a pontuação de risco de todos os processos abertos, sinalizando anomalias entre o rendimento declarado e o extraído dos documentos.

Conclusões

Implementar um data lakehouse google cloud no setor do crédito habitação transforma radicalmente a operacionalidade. Não se trata apenas de tecnologia, mas de velocidade de negócio: passar de dias para minutos na pré-aprovação de um crédito.

A arquitetura apresentada, baseada na integração estreita entre BigQuery, GCS e Document AI, oferece três vantagens competitivas imediatas:

Unificação: Uma única fonte de verdade para dados estruturados e não estruturados.
Automação: Redução da intervenção humana na extração de dados (Data Entry).
Conformidade: Controlo granular dos acessos nativo na base de dados.

Para as instituições financeiras que olham para 2026 e mais além, esta convergência entre gestão documental e análise de dados representa o padrão de facto para permanecerem competitivas num mercado cada vez mais guiado pelos algoritmos.

Perguntas frequentes

O que é um Data Lakehouse na Google Cloud e quais as vantagens que oferece?

Um Data Lakehouse na Google Cloud é uma arquitetura híbrida que combina a flexibilidade de armazenamento económico dos Data Lakes com o desempenho de análise dos Data Warehouses. No setor financeiro, esta abordagem permite eliminar os silos entre dados estruturados e documentos não estruturados, como os PDFs, permitindo consultas SQL unificadas. As principais vantagens incluem a redução da duplicação de dados, a diminuição dos custos de armazenamento e a capacidade de obter insights em tempo real para processos como a aprovação de crédito habitação.

Como se podem analisar documentos PDF diretamente no BigQuery?

A análise de PDFs no BigQuery ocorre através da utilização das Object Tables, que mapeiam os ficheiros presentes no Google Cloud Storage como tabelas de apenas leitura. Para extrair os dados contidos nos documentos, integram-se as Remote Functions que ligam o BigQuery aos serviços da Document AI. Isto permite invocar modelos de extração inteligente diretamente através de queries SQL, transformando informações não estruturadas, como o rendimento líquido de um recibo de vencimento, em dados estruturados prontos para análise.

Como é garantida a segurança e a conformidade com o RGPD no Data Lakehouse?

A segurança dos dados sensíveis e a conformidade com o RGPD são geridas através da Row-Level Security (RLS) nativa do BigQuery. Em vez de criar cópias múltiplas dos dados para diferentes equipas, a RLS permite definir políticas de acesso granulares que filtram as linhas visíveis com base no utilizador ligado. Por exemplo, um analista de risco pode ver todos os dados, enquanto um agente comercial visualizará apenas os processos dos seus próprios clientes, garantindo a privacidade sem duplicações.

De que forma a Vertex AI melhora o processo de credit scoring?

A Vertex AI potencia o credit scoring utilizando os dados unificados do Lakehouse para treinar modelos de Machine Learning avançados. Unindo o histórico de pagamentos presente no CRM com os dados de rendimento reais extraídos dos documentos através da Document AI, é possível criar modelos preditivos mais precisos. Estes algoritmos podem calcular a probabilidade de incumprimento e detetar anomalias entre o rendimento declarado e o efetivo, automatizando e tornando mais segura a avaliação do risco.

Quais são os componentes fundamentais de uma arquitetura Data Lakehouse na GCP?

Os pilares desta arquitetura incluem o Google Cloud Storage para o armazenamento físico dos ficheiros brutos e o BigQuery como motor central para a análise de dados estruturados e metadados. A estes juntam-se a Document AI para o processamento inteligente de documentos (IDP) e a extração de entidades, e a Vertex AI para a aplicação de modelos preditivos sobre os dados consolidados. Esta combinação transforma um simples arquivo numa plataforma analítica ativa e automatizada.