Transcription et extraction de données d'archives départementales par IA — Faisabilité avec l'écosystème Google Cloud
Le Département de la Creuse (CD23) souhaite numériser et rendre exploitables par l'IA environ 1 050 000 images de registres manuscrits des XIXe et XXe siècles. L'analyse démontre que l'écosystème Google Cloud offre une solution complète, performante et économiquement compétitive pour ce projet, avec trois scénarios : un hybride Document AI + Gemini Pro (~37 000 €), un intermédiaire tout Gemini 3 Pro (~3 500 € hors contingence, ~4 200 € budget sécurisé), et un optimisé tout Gemini 3 Flash (~600 €).
La Direction des Archives départementales de la Creuse a identifié trois corpus prioritaires de registres manuscrits déjà numérisés :
| Corpus | Volume | Nature | Complexité |
|---|---|---|---|
| Registres de délibérations | ~400 000 images | Texte continu manuscrit | Moyenne |
| Registres d'hypothèques | ~250 000 images | Tableaux manuscrits structurés | Élevée |
| Matrices cadastrales | ~400 000 images | Tableaux manuscrits structurés | Élevée |
Les besoins fonctionnels incluent : transcription intégrale, extraction structurée des données tabulaires, indexation sémantique, et recherche plein texte pour les usagers des archives.
L'écosystème Google Cloud propose une chaîne complète pour ce type de projet :
| Outil | Rôle | Tarification clé |
|---|---|---|
| Gemini 3 Flash | HTR — reconnaissance d'écriture manuscrite | 0,25 $/1M tokens (Batch) |
| Gemini 3 Pro | HTR avancé — manuscrits complexes | 1,00 $/1M input + 6,00 $/1M output (Batch) |
| Document AI Custom | Extraction tabulaire entraînable | 30 $/1 000 pages |
| Cloud Storage | Stockage images (Standard) | 0,020 $/Go/mois |
| BigQuery | Entrepôt de données + recherche | < 100 €/mois |
| Vertex AI Search | Recherche sémantique (option premium) | ~873 €/mois |
| Cloud Run | API d'accès / interface web | Pay-per-use |
Gemini 3 Pro + Document AI Custom
Gemini 3 Pro uniquement
dont ~3 500 € base + 20% contingence
Gemini 3 Flash uniquement
| Critère | A — Hybride | B+ — Pro ★ | B — Flash |
|---|---|---|---|
| Budget total | ~37 240 € | ~4 200 € (base ~3 500 + 20% contingence) |
~600 € |
| Qualité HTR | Maximale | Très élevée | Élevée |
| Extraction tabulaire | Excellente (entraînable) | Bonne (raisonnement avancé) | À valider |
| Hallucinations | Faible | Réduit (vs Flash) | 91 % sur incertitudes |
| Docs pré-1840 | Meilleur résultat | Amélioré | CER 10-25 % |
| Complexité | Élevée (2 systèmes) | Simple (1 seul modèle) | Simple (1 seul modèle) |
| Recommandation | Si B+ insuffisant | ★ Initial | Si suffisant |
| Poste Build | Responsable | Budget HT |
|---|---|---|
| Prestation Pilote — Ingénierie IA & Audit de faisabilité | IA Formation | 2 500 – 3 500 € |
| Architecture moteur de recherche (BigQuery SQL + interface Cloud Run) | IA Formation + Dev | 4 000 – 7 200 € |
| Traitement IA des 1 050 000 images (Scénario B+) | GoWizYou (infra) | ~4 200 € (sécurisé) |
| Poste Run | Option Standard | Option Premium |
|---|---|---|
| Stockage Cloud (≈2 To) | ~40 €/mois | ~40 €/mois |
| BigQuery (requêtes + stockage) | ~60 €/mois | ~60 €/mois |
| Recherche | BigQuery natif : < 100 €/mois | Vertex AI Search : ~873 €/mois |
| Cloud Run (API) | ~20 €/mois | ~20 €/mois |
| TOTAL mensuel | < 220 €/mois | ~993 €/mois |
Avant tout engagement à grande échelle, une phase pilote est indispensable pour valider les performances sur les manuscrits français spécifiques du CD23.
| Paramètre | Détail |
|---|---|
| Volume test | 600 à 1 500 images (200 à 500 par corpus) |
| Budget estimé | 5 € à 50 € (selon scénario) |
| Durée | 2 à 4 semaines |
| 3 configurations testées | ① Gemini 3 Flash — ② Gemini 3 Pro — ③ Document AI Custom (sur tableaux) |
| Documents pré-1840 | Inclure obligatoirement (CER attendu 10–25 %, plus dégradé) |
| Métriques | CER, taux d'extraction tabulaire, taux d'hallucination, temps de traitement, coût réel par image |
| Scénarios de sortie | Pro suffisant → B+ (~4 200 € sécurisé) · Flash suffisant → B (~600 €) · Insuffisant sur tableaux → Hybride Optimisé (12 000–15 000 €) |
europe-west1 de Google Cloud pour le traitement d'archives publiques. Cette étape est un prérequis bloquant avant tout traitement de données réelles.| Acteur | Responsabilités |
|---|---|
| GoWizYou | Infrastructure Google Cloud, configuration projet GCP, support technique Cloud, relation commerciale |
| IA Formation | Expertise IA/prompting, conception du pipeline, formation des équipes CD23, accompagnement phase pilote, optimisation des modèles |
| CD23 | Fourniture des images numérisées, expertise archivistique (validation transcriptions), sélection corpus pilote, validation juridique RGPD |
Réunion tripartite GWY / IA Formation / CD23. Sélection des images pilotes (600–1500). Configuration du projet Google Cloud. ⛔ Livrable bloquant : validation DPO + service juridique CD23 (décharge RGPD pour region europe-west1).
Test comparatif des 3 configurations (Gemini Flash / Gemini Pro / Document AI Custom) sur chaque corpus. Mesure CER, taux d'extraction et taux d'hallucination. Rapport de résultats avec recommandation de scénario.
Traitement batch des 1 050 000 images. Ingestion BigQuery. Mise en place de l'interface de recherche. Formation des archivistes.
Ouverture au public. Monitoring qualité. Ajout de nouveaux corpus. Optimisation continue des modèles.
Ce projet représente une opportunité majeure pour le partenariat IA Formation × GoWizYou. Avec le Scénario B+ à ~4 200 € (budget sécurisé), il est désormais possible de proposer une solution crédible et abordable :