Transcription et extraction de donnees d'archives departementales par IA -- Faisabilite avec l'ecosysteme Google Cloud
Le Departement de la Creuse (CD23) souhaite numeriser et rendre exploitables par l'IA environ 1 050 000 images de registres manuscrits des XIXe et XXe siecles. L'analyse demontre que l'ecosysteme Google Cloud offre une solution complete, performante et economiquement competitive pour ce projet, avec le Scenario B+ (Gemini 3.1 Pro) recommande (~7 400 € enveloppe prudente). Le livrable final est constitue de fichiers CSV structures par corpus/annee, injectes dans le portail existant du CD23. Apres livraison et purge des images, le budget Run est de ~0 €/mois.
La Direction des Archives departementales de la Creuse a identifie trois corpus prioritaires de registres manuscrits deja numerises :
| Corpus | Volume | Nature | Complexite |
|---|---|---|---|
| Registres de deliberations | ~400 000 images | Texte continu manuscrit | Moyenne |
| Registres d'hypotheques | ~250 000 images | Tableaux manuscrits structures | Elevee |
| Matrices cadastrales | ~400 000 images | Tableaux manuscrits structures | Elevee |
Stock total : ~4 millions d'images, dont ~1 050 000 seront traitees (3 corpus prioritaires). Les besoins fonctionnels incluent : transcription integrale, extraction structuree des donnees tabulaires. Le livrable final est constitue de fichiers CSV structures, injectes dans le portail existant du CD23.
L'ecosysteme Google Cloud propose une chaine complete pour ce type de projet :
| Outil | Role | Tarification cle |
|---|---|---|
| Gemini 3.1 Pro | HTR -- reconnaissance d'ecriture manuscrite (modele principal) | 1,00 $/1M input + 6,00 $/1M output (Batch) |
| Cloud Storage | Sas de transit (images purgees apres livraison) | 0,020 $/Go/mois |
| BigQuery | Structuration et nettoyage des donnees (SQL) | < 100 €/mois |
| Export CSV | Livrable final -- fichiers CSV par corpus/annee | Inclus |
Gemini 3.1 Pro
Budget securise : ~7 400 € (estimation prudente Gemini 3.1 Pro).
| Critere | B+ -- Gemini 3.1 Pro ★ |
|---|---|
| Budget total | ~7 400 € Enveloppe prudente Gemini 3.1 Pro |
| Qualite HTR | Tres elevee |
| Extraction tabulaire | Bonne (raisonnement avance) |
| Hallucinations | Reduit |
| Docs pre-1840 | Ameliore |
| Complexite | Simple (1 seul modele) |
| Budget Run | ~0 €/mois |
| Recommandation | ★ Recommande |
| Poste Build | Responsable | Budget HT |
|---|---|---|
| Prestation Pilote -- Ingenierie IA & Audit de faisabilite | IA Formation | 3 500 -- 4 500 € HT |
| Pipeline Data Only + scripts Python (orchestration, nettoyage, CSV, purge) | IA Formation + Dev | 4 000 -- 7 200 € |
| Traitement IA des 1 050 000 images (Scenario B+) | GoWizYou (infra) | ~7 400 € GCP (enveloppe prudente Gemini 3.1 Pro) |
| Poste Run | Cout mensuel |
|---|---|
| Budget Run post-livraison | ~0 €/mois (images purgees, pas d'interface) |
Avant tout engagement a grande echelle, une phase pilote est indispensable pour valider les performances sur les manuscrits francais specifiques du CD23.
| Parametre | Detail |
|---|---|
| Volume test | 600 a 1 500 images (200 a 500 par corpus) |
| Budget estime | ~20 € (fourchette max 50 € selon les modeles testes) |
| Duree | 4 a 6 semaines |
| Configuration testee | Gemini 3.1 Pro |
| Documents pre-1840 | Inclure obligatoirement (CER attendu 10--25 %, plus degrade) |
| Metriques | CER, taux d'extraction tabulaire, taux d'hallucination, temps de traitement, cout reel par image |
| Scenarios de sortie | Pro suffisant → B+ (securise ~7 400 €) -- Insuffisant → No-Go (rapport argumente) |
| Acteur | Responsabilites |
|---|---|
| GoWizYou | Infrastructure Google Cloud, configuration projet GCP, support technique Cloud, relation commerciale |
| IA Formation | Expertise IA/prompting, conception du pipeline Data Only, scripts Python (orchestration, nettoyage, CSV, purge), formation des equipes CD23, accompagnement phase pilote, optimisation des modeles |
| CD23 | Fourniture des images numerisees, expertise archivistique (validation transcriptions), selection corpus pilote, validation juridique RGPD, integration des CSV dans le portail existant |
Reunion tripartite GWY / IA Formation / CD23. Selection des images pilotes (600--1500). Configuration du projet Google Cloud. ⛔ Livrable bloquant : validation DPO + service juridique CD23 (RGPD -- serveurs Europe/Belgique, droit europeen).
Test de Gemini 3.1 Pro sur chaque corpus. Mesure CER, taux d'extraction et taux d'hallucination. Rapport de resultats avec validation du scenario.
Traitement batch des 1 050 000 images. Structuration BigQuery. Generation et livraison des fichiers CSV.
Integration des CSV dans le portail existant du CD23. Formation des archivistes. Ajout de nouveaux corpus.
Ce projet represente une opportunite majeure pour le partenariat IA Formation x GoWizYou. Avec le Scenario B+ Gemini 3.1 Pro (budget securise ~7 400 €) et une architecture Data Only (budget Run ~0 €/mois), il est desormais possible de proposer une solution credible et abordable :