L’instruction d’un prêt immobilier est traditionnellement l’un des processus les plus lents, les plus coûteux et les plus sujets à l’erreur humaine pour les établissements de crédit. En 2026, l’intégration de l’ IA dans le traitement des dossiers de prêt transforme radicalement ce scénario, permettant d’analyser des dizaines de documents complexes en quelques secondes. Les bulletins de salaire, déclarations de revenus, relevés de compte et expertises immobilières ne constituent plus un goulot d’étranglement, mais des données structurées prêtes pour un traitement automatisé.
Dans ce tutoriel technique, guidés par l’ingénieur Francesco Zinghinì — expert en systèmes Fintech et en développement de CRM pour la gestion du crédit — nous explorerons comment le « Prompt Engineering » avancé et les grands modèles de langage (LLM) révolutionnent le back-office financier. Nous concevrons un pipeline de traitement documentaire d’entreprise en utilisant des techniques de génération augmentée par récupération (RAG) sur des plateformes cloud de premier plan telles que Google Cloud Vertex AI et AWS Bedrock . L’objectif ? Réduire les délais de décision, les faisant passer de plusieurs semaines à quelques heures, tout en garantissant une sécurité et une confidentialité maximales pour les données sensibles (PII).
Prérequis et architecture du système
Avant d’écrire la première ligne de code ou le premier prompt, il est essentiel de définir une architecture solide. L’analyse de documents financiers exige une approche déterministe : nous ne pouvons pas nous permettre des hallucinations de la part du modèle d’IA lors de l’évaluation des revenus d’un demandeur.
Les outils et les prérequis pour mettre en œuvre cette solution incluent :
- Plateforme cloud : Google Cloud Platform (GCP) avec Vertex AI RAG Engine, ou AWS avec Amazon Bedrock et Bedrock Data Automation.
- Moteur OCR (Optical Character Recognition) : Google Document AI ou Amazon Textract pour l’extraction du texte brut et de la mise en page à partir de PDF numérisés.
- Base de données vectorielle : AlloyDB pour PostgreSQL (sur GCP) ou Amazon OpenSearch Serverless pour stocker les embeddings des documents.
- Orchestrateur : LangChain ou LlamaIndex (en Python) pour gérer le flux logique, ou des frameworks serverless natifs tels qu’AWS Step Functions.
- CRM cible : Salesforce, Microsoft Dynamics ou un CRM propriétaire exposé via une API REST.
Selon la documentation officielle d’AWS Bedrock, l’utilisation d’ Agents for Amazon Bedrock permet d’orchestrer des flux de travail complexes en appelant de manière sécurisée les API d’entreprise (telles que le CRM) uniquement dopo validation des données extraites. Côté Google, Vertex AI Search sert de backend de recherche optimisé, garantissant que le modèle de langage (comme Gemini 1.5 Pro) fonde ses réponses exclusivement sur les documents téléchargés pour le dossier de prêt spécifique.
Le rôle du Retrieval-Augmented Generation (RAG) dans le back-office financier

Le RAG est le cœur battant de notre pipeline. Les modèles de langage génériques ne connaissent pas les détails du dossier de prêt immobilier de « M. Rossi ». Le RAG résout ce problème en injectant le contexte spécifique directement dans le prompt du modèle.
Dans le cadre de l’instruction des dossiers de prêt, le processus RAG s’articule autour de trois phases critiques :
- Ingestion et découpage (chunking) : les documents (par ex. formulaire 730, Certificazione Unica, expertise) sont traités par OCR. Le texte extrait est subdivisé en « chunks » (fragments) sémantiques. Pour les documents financiers, il est crucial d’utiliser une méthode de découpage qui respecte les tableaux et les sections logiques, en évitant de couper une ligne de bilan en deux.
- Embedding : les segments sont convertis en vecteurs numériques de haute dimension et enregistrés dans la base de données vectorielle.
- Récupération et génération : lorsque le système doit calculer le revenu net, il interroge la base de données vectorielle pour trouver les segments les plus pertinents (par exemple, la section RN du formulaire 730) et les transmet au LLM avec un prompt structuré pour l’extraction.
« L’erreur la plus courante lors de la mise en œuvre de l’IA pour les prêts immobiliers consiste à traiter les documents financiers come du simple texte continu. Les tableaux, les cellules fusionnées et les hiérarchies de données nécessitent un OCR avancé ainsi qu’un système RAG capable de prendre en compte la structure spatiale du document. » – Francesco Zinghinì
Pipeline de traitement documentaire : étape par étape

Voyons comment construire le pipeline étape par étape, en simulant une architecture basée sur AWS Bedrock et des fonctions Lambda (ou leurs équivalents Cloud Run sur GCP).
Étape 1 : Acquisition et classification
Le client télécharge un lot de PDF en vrac via le portail web. La première tâche de l’IA est la classification des documents . Nous utilisons un modèle LLM rapide (tel que Claude 3 Haiku sur Bedrock ou Gemini 1.5 Flash) pour analyser la première page de chaque document et le classer.
Le système étiquettera les fichiers comme suit : BUSTA_PAGA , ESTRATTO_CONTO , CARTA_IDENTITA , COMPROMESSO . Si un document obligatoire est manquant, le système envoie immédiatement une notification au client, éliminant ainsi les temps morts du back-office.
Étape 2 : Extraction des données (Data Extraction)
Une fois classés, les documents sont transmis au module d’extraction. Nous y utilisons des modèles plus performants (Claude 3.5 Sonnet ou Gemini 1.5 Pro), configurés avec une température de 0 afin de garantir une prévisibilité maximale et de réduire la créativité (et donc les hallucinations) à zéro.
Étape 3 : Recoupement et validation
L’IA ne se limite pas à lire les documents un par un. Sa véritable valeur ajoutée réside dans le croisement des données . Le système vérifie que le salaire net crédité sur le relevé de compte (par ex. 2 150 € le 27/04) correspond exactement au montant net figurant sur le bulletin de paie du même mois. Toute incohérence déclenche une alerte pour l’analyste humain.
Ingénierie de prompts avancée : exemples pratiques pour les données financières
Le secret d’une extraction parfaite réside dans le prompt engineering . Il ne suffit pas de demander à l’LLM « Quel est le revenu ? ». Il faut fournir des instructions système rigoureuses, définir le format de sortie (schéma JSON) et donner des exemples (few-shot prompting).
Voici un exemple de System Prompt optimisé pour l’extraction de données à partir d’une fiche de paie italienne :
Sei un analista del credito senior specializzato in mutui ipotecari italiani. Il tuo compito è estrarre dati finanziari chiave dal testo OCR di una busta paga fornita nel tag <document>. REGOLE TASSATIVE: 1. Estrai SOLO i dati esplicitamente presenti nel documento. 2. Se un dato non è presente o è illeggibile, restituisci null. NON indovinare o calcolare valori mancanti. 3. Formatta tutti gli importi monetari come numeri decimali (es. 2150.50), rimuovendo il simbolo dell'Euro ei separatori delle migliaia. 4. L'output DEVE essere un JSON valido conforme al seguente schema: { "mese_competenza": "MM/YYYY", "datore_di_lavoro": "Nome Azienda", "tipo_contratto": "Indeterminato | Determinato | Apprendistato | Altro", "netto_in_busta": 0.00, "trattenute_cessione_quinto": 0.00 }#Sei un analista del credito senior specializzato in mutui ipotecari italiani. Il tuo compito è estrarre dati finanziari chiave dal testo OCR di una busta paga fornita nel tag <document>. REGOLE TASSATIVE: 1. Estrai SOLO i dati esplicitamente presenti nel documento. 2. Se un dato non è presente o è illeggibile, restituisci null. NON indovinare o calcolare valori mancanti. 3. Formatta tutti gli importi monetari come numeri decimali (es. 2150.50), rimuovendo il simbolo dell'Euro ei separatori delle migliaia. 4. L'output DEVE essere un JSON valido conforme al seguente schema: { "mese_competenza": "MM/YYYY", "datore_di_lavoro": "Nome Azienda", "tipo_contratto": "Indeterminato | Determinato | Apprendistato | Altro", "netto_in_busta": 0.00, "trattenute_cessione_quinto": 0.00 }
En fournissant ce prompt à un modèle prenant en charge le mode JSON (tel que les API de Vertex AI ou de Bedrock), nous obtenons une charge utile structurée, prête à être injectée dans la base de données relationnelle du CRM.
Calcul du ratio mensualité/revenu (DTI) et identification des anomalies
L’un des paramètres fondamentaux pour l’approbation d’un prêt immobilier est le ratio d’endettement (ou DTI – *Debt-to-Income*) , c’est-à-dire le rapport entre le total des mensualités (y compris celle du nouveau prêt) et le revenu mensuel net. Les politiques des banques italiennes fixent généralement le seuil maximal de soutenabilité autour de 30 à 35 %.
L’IA peut calculer cette valeur automatiquement en agrégeant les données extraites des bulletins de salaire et des rapports CRIF (Centrale des risques). Vous trouverez ci-dessous un widget interactif simulant la logique de calcul implémentée dans l’interface (frontend) du CRM destinée aux analystes :
Au-delà des calculs mathématiques, l’IA excelle dans l’ identification des anomalies (détection de la fraude). Un prompt spécifique peut être configuré pour comparer la date d’embauche déclarée par le client avec celle figurant sur le bulletin de salaire, ou pour signaler des virements sortants récurrents sur le relevé de compte pouvant indiquer un prêt non déclaré auprès de la centrale des risques.
Intégration au CRM et automatisation des flux de travail
L’extraction de données est inutile si elle n’est pas parfaitement intégrée aux processus métier. L’architecture moderne prévoit que la sortie JSON générée par le LLM soit transmise directement au CRM bancaire via un webhook ou une API REST.
Toutefois, l’automatisation totale (Straight-Through Processing) pour l’approbation des prêts immobiliers est encore déconseillée pour des raisons réglementaires et de gestion des risques. L’approche adéquate est celle de l’ « Human-in-the-Loop » (HITL) :
- Si le LLM extrait toutes les données avec un score de confiance élevé et que le DTI est inférieur à 30 %, le dossier est pré-approuvé et transmis à l’analyste uniquement pour une signature finale.
- Si le LLM détecte des anomalies, des documents illisibles ou un ratio dette/revenu (DTI) limite, le dossier est transmis à un opérateur expérimenté, accompagné d’un résumé généré par l’IA qui met en évidence l’emplacement exact du problème (par ex. « Attention : écart entre le revenu déclaré et le CUD »).
Dépannage et gestion des hallucinations
Travailler avec des grands modèles de langage dans le secteur financier exige une gestion rigoureuse des erreurs. Les « hallucinations » (lorsque le modèle invente des données) constituent l’ennemi numéro un.
Comment atténuer ces risques selon les bonnes pratiques de Google Cloud et d’AWS ?
- Grounding rigoureux : utiliser les API de grounding (telles que Vertex AI Grounding) pour contraindre le modèle à citer la source exacte (page et paragraphe du PDF) pour chaque chiffre extrait.
- Validation en aval : ne pas se fier aveuglément au JSON. Mettre en œuvre des scripts Python pour vérifier les types de données (par exemple, s’assurer que le champ « revenu » est un nombre à virgule flottante et non une chaîne de caractères) avant de les envoyer au CRM.
- Gestion de la fenêtre de contexte : les dossiers de prêt immobilier peuvent dépasser 500 pages. Bien que des modèles comme Gemini 1.5 Pro prennent en charge des millions de jetons, l’introduction d’un excès de « bruit » dégrade les performances. Il est essentiel de filtrer les documents non pertinents (par exemple, les pages publicitaires dans les relevés de compte) avant de les transmettre au LLM.
En Bref (TL;DR)
L’intelligence artificielle et le « prompt engineering » transforment l’instruction des dossiers de prêt, réduisant les délais de décision de plusieurs semaines à quelques heures.
L’intégration d’architectures RAG et de modèles linguistiques avancés sur des plateformes cloud garantit une analyse précise et sécurisée de documents financiers complexes.
Le système automatise la classification et l’extraction des données tout en respectant la structure spatiale des fichiers, éliminant ainsi les goulots d’étranglement du back-office.

Conclusions

L’application du *prompt engineering* et de l’intelligence artificielle générative à l’analyse des dossiers de prêt immobilier représente un saut quantique pour le secteur bancaire. Comme nous l’avons vu dans ce guide technique, l’utilisation combinée d’une technologie OCR avancée, d’architectures RAG sur AWS Bedrock ou Google Cloud Vertex AI et de *prompts* rigoureusement structurés permet de transformer un processus manuel de plusieurs semaines en un flux numérique de quelques heures.
L’objectif n’est pas de remplacer l’analyste crédit, mais de renforcer ses capacités. En s’affranchissant des tâches fastidieuses de saisie de données et de vérification de documents, les professionnels du crédit peuvent se concentrer sur l’ analyse complexe des risques et le conseil aux clients. Les banques et les courtiers en crédit qui adopteront ces technologies en 2026 réduiront non seulement leurs coûts opérationnels, mais offriront également une expérience client inédite, garantissant des approbations rapides, transparentes et sécurisées.
Questions fréquentes

L’utilisation de modèles linguistiques avancés et de systèmes de reconnaissance optique permet d’analyser des dizaines de documents complexes en quelques secondes. Cette technologie automatise l’extraction de données à partir de bulletins de salaire et de déclarations de revenus, réduisant ainsi les délais de décision de plusieurs semaines à quelques heures tout en minimisant les erreurs humaines.
La génération augmentée par la récupération (RAG) est une technique qui fournit aux modèles génératifs le contexte spécifique d’un dossier. Dans le secteur du crédit, les documents sont fragmentés et stockés dans des bases de données vectorielles, ce qui permet au système de récupérer uniquement les informations pertinentes pour calculer le revenu net, sans inventer de données.
Les architectures d’entreprise modernes s’appuient principalement sur des services de premier plan tels que Google Cloud Platform, via Vertex AI, et Amazon Web Services, avec Bedrock. Ces environnements proposent des moteurs de traitement documentaire sécurisés et permettent d’orchestrer des flux de travail complexes tout en garantissant une confidentialité maximale des données sensibles des demandeurs.
Malgré une automatisation poussée, le contrôle humain demeure indispensable pour des raisons réglementaires et de gestion des risques. Le système pré-approuve les dossiers conformes, mais en cas d’anomalies ou de documents illisibles, la décision finale est toujours confiée à un analyste senior qui évalue les écarts signalés par la technologie.
Pour éviter que les modèles ne génèrent des informations inexactes, les développeurs règlent les paramètres de créativité sur zéro et utilisent des techniques d’ancrage aux données réelles. Par ailleurs, des scripts de validation sont mis en œuvre pour vérifier la cohérence mathématique des chiffres extraits avant de les transmettre au système de gestion de la banque.
Sources et Approfondissements






Avez-vous trouvé cet article utile ? Y a-t-il un autre sujet que vous aimeriez que je traite ?
Écrivez-le dans les commentaires ci-dessous ! Je m’inspire directement de vos suggestions.