Questa è una versione PDF del contenuto. Per la versione completa e aggiornata, visita:
https://blog.tuttosemplice.com/pt/data-lakehouse-google-cloud-arquitetura-para-dados-hibridos/
Verrai reindirizzato automaticamente...
No panorama financeiro atual, e em particular no setor do crédito habitação, o verdadeiro valor não reside apenas nas bases de dados estruturadas, mas numa mina de ouro frequentemente inutilizada: os documentos não estruturados. Recibos de vencimento, avaliações imobiliárias, escrituras notariais e documentos de identificação constituem aquilo que é frequentemente definido como Dark Data. O desafio para os CTOs e Arquitetos de Dados em 2026 já não é apenas arquivar estes ficheiros, mas torná-los consultáveis em tempo real juntamente com os dados transacionais.
Neste artigo técnico, exploraremos como projetar e implementar uma arquitetura data lakehouse google cloud capaz de derrubar os silos entre o data lake (onde residem os PDFs) e o data warehouse (onde residem os dados de CRM). Utilizaremos a potência do BigQuery, a inteligência da Document AI e as capacidades preditivas da Vertex AI para transformar um processo de análise de crédito manual numa pipeline automatizada e segura.
Tradicionalmente, os bancos mantinham duas stacks separadas: um Data Lake (ex. Google Cloud Storage) para os ficheiros brutos e um Data Warehouse (ex. bases de dados SQL legacy ou os primeiros MPP) para a Business Intelligence. Esta abordagem implicava duplicação de dados, latência elevada e desalinhamento da informação.
O Data Lakehouse na Google Cloud Platform (GCP) resolve este problema permitindo tratar os ficheiros arquivados no armazenamento de objetos como se fossem tabelas de uma base de dados relacional, mantendo, no entanto, os custos baixos do armazenamento e o desempenho elevado do warehouse.
O primeiro passo para construir um data lakehouse google cloud eficaz é estruturar corretamente o nível de ingestão. Não estamos simplesmente a carregar ficheiros; estamos a preparar o terreno para a análise.
A partir das atualizações recentes da GCP, o BigQuery permite criar Object Tables. Estas são tabelas de apenas leitura que mapeiam os ficheiros presentes num bucket GCS. Isto permite-nos ver os PDFs dos recibos de vencimento diretamente dentro do BigQuery sem os mover.
CREATE OR REPLACE EXTERNAL TABLE `fintech_lakehouse.raw_documents`
WITH CONNECTION `us.my-connection`
OPTIONS (
object_metadata = 'SIMPLE',
uris = ['gs://mutui-docs-bucket/*.pdf']
);Com esta única instrução SQL, tornámos o nosso arquivo documental acessível via SQL. Podemos consultar os metadados (data de criação, dimensão, nome do ficheiro) como se fossem colunas estruturadas.
Ter os ficheiros listados no BigQuery não basta. Precisamos de ler o seu conteúdo. Aqui entra em jogo a integração entre o BigQuery e a Document AI através das Remote Functions (Funções Remotas).
Em vez de construir pipelines ETL complexas com Dataflow ou scripts Python externos, podemos invocar o modelo de extração diretamente a partir de uma query SQL. Imaginemos que temos de extrair o “Rendimento Líquido” e a “Entidade Patronal” dos recibos de vencimento.
Na consola GCP, configuramos um processador Lending Document Splitter & Parser (específico para o setor de crédito) ou um processador Custom Extractor treinado nos recibos de vencimento específicos.
Criamos uma Cloud Function (Gen 2) que serve de ponte. Esta função recebe o URI do ficheiro do BigQuery, chama a API da Document AI e devolve um objeto JSON com as entidades extraídas.
Agora podemos enriquecer os nossos dados brutos transformando-os em informações estruturadas:
CREATE OR REPLACE TABLE `fintech_lakehouse.extracted_income_data` AS
SELECT
uri,
remote_functions.extract_entities(uri) AS json_data
FROM
`fintech_lakehouse.raw_documents`
WHERE
content_type = 'application/pdf';O resultado é uma tabela que contém o link para o documento original e uma coluna JSON com os dados extraídos. Este é o verdadeiro poder do data lakehouse google cloud: dados não estruturados convertidos em estruturados on-the-fly.
Uma vez extraídos os dados, como devemos armazená-los? No contexto do crédito habitação, a flexibilidade é fundamental, mas o desempenho das queries é prioritário.
Desaconselhamos “achatar” completamente cada campo extraído numa coluna dedicada, pois os formatos documentais mudam. A melhor abordagem é:
JSON. O BigQuery suporta nativamente o acesso aos campos JSON com uma sintaxe eficiente.Exemplo de query analítica unificada:
SELECT
crm.customer_id,
crm.risk_score_preliminare,
docs.reddito_mensile,
SAFE_CAST(docs.json_payload.dettagli_extra.bonus_produzione AS FLOAT64) as bonus
FROM
`fintech_lakehouse.crm_customers` crm
JOIN
`fintech_lakehouse.extracted_income_data` docs
ON
crm.tax_code = docs.codice_fiscale
WHERE
docs.reddito_mensile > 2000;Ao tratar dados sensíveis como rendimentos e avaliações, a segurança não é opcional. O RGPD impõe que o acesso aos dados pessoais seja limitado ao pessoal estritamente necessário.
Num data lakehouse google cloud, não é necessário criar vistas separadas para cada grupo de utilizadores. Utilizamos a Row-Level Security (RLS) do BigQuery.
Suponhamos que temos dois grupos de utilizadores: Analistas de Risco (acesso completo) e Agentes Comerciais (acesso limitado apenas aos seus próprios processos).
CREATE ROW ACCESS POLICY commercial_filter
ON `fintech_lakehouse.extracted_income_data`
GRANT TO ('group:agenti-commerciali@banca.it')
FILTER USING (agente_id = SESSION_USER());Com esta política, quando um agente executa um SELECT *, o BigQuery filtrará automaticamente os resultados, mostrando apenas as linhas onde o agente_id corresponde ao utilizador com login efetuado. Os dados sensíveis dos outros clientes permanecem invisíveis, garantindo a conformidade normativa sem duplicar os dados.
A última milha do nosso Lakehouse é a ativação do dado. Agora que unimos os dados comportamentais (histórico de pagamentos do CRM) com os dados de rendimento reais (extraídos dos recibos de vencimento), podemos treinar modelos de Machine Learning superiores.
Utilizando a Vertex AI integrada com o BigQuery, podemos criar um modelo de regressão logística ou uma rede neuronal para prever a probabilidade de incumprimento (PD).
CREATE MODEL diretamente em SQL (BigQuery ML) ou exportamos o dataset para a Vertex AI para o AutoML.Implementar um data lakehouse google cloud no setor do crédito habitação transforma radicalmente a operacionalidade. Não se trata apenas de tecnologia, mas de velocidade de negócio: passar de dias para minutos na pré-aprovação de um crédito.
A arquitetura apresentada, baseada na integração estreita entre BigQuery, GCS e Document AI, oferece três vantagens competitivas imediatas:
Para as instituições financeiras que olham para 2026 e mais além, esta convergência entre gestão documental e análise de dados representa o padrão de facto para permanecerem competitivas num mercado cada vez mais guiado pelos algoritmos.
Um Data Lakehouse na Google Cloud é uma arquitetura híbrida que combina a flexibilidade de armazenamento económico dos Data Lakes com o desempenho de análise dos Data Warehouses. No setor financeiro, esta abordagem permite eliminar os silos entre dados estruturados e documentos não estruturados, como os PDFs, permitindo consultas SQL unificadas. As principais vantagens incluem a redução da duplicação de dados, a diminuição dos custos de armazenamento e a capacidade de obter insights em tempo real para processos como a aprovação de crédito habitação.
A análise de PDFs no BigQuery ocorre através da utilização das Object Tables, que mapeiam os ficheiros presentes no Google Cloud Storage como tabelas de apenas leitura. Para extrair os dados contidos nos documentos, integram-se as Remote Functions que ligam o BigQuery aos serviços da Document AI. Isto permite invocar modelos de extração inteligente diretamente através de queries SQL, transformando informações não estruturadas, como o rendimento líquido de um recibo de vencimento, em dados estruturados prontos para análise.
A segurança dos dados sensíveis e a conformidade com o RGPD são geridas através da Row-Level Security (RLS) nativa do BigQuery. Em vez de criar cópias múltiplas dos dados para diferentes equipas, a RLS permite definir políticas de acesso granulares que filtram as linhas visíveis com base no utilizador ligado. Por exemplo, um analista de risco pode ver todos os dados, enquanto um agente comercial visualizará apenas os processos dos seus próprios clientes, garantindo a privacidade sem duplicações.
A Vertex AI potencia o credit scoring utilizando os dados unificados do Lakehouse para treinar modelos de Machine Learning avançados. Unindo o histórico de pagamentos presente no CRM com os dados de rendimento reais extraídos dos documentos através da Document AI, é possível criar modelos preditivos mais precisos. Estes algoritmos podem calcular a probabilidade de incumprimento e detetar anomalias entre o rendimento declarado e o efetivo, automatizando e tornando mais segura a avaliação do risco.
Os pilares desta arquitetura incluem o Google Cloud Storage para o armazenamento físico dos ficheiros brutos e o BigQuery como motor central para a análise de dados estruturados e metadados. A estes juntam-se a Document AI para o processamento inteligente de documentos (IDP) e a extração de entidades, e a Vertex AI para a aplicação de modelos preditivos sobre os dados consolidados. Esta combinação transforma um simples arquivo numa plataforma analítica ativa e automatizada.