Rapport d'Analyse — Archives CD23 × Google IA
IA Formation x GoWizYou -- Partenariat Google
Post CR 02/03/2026 -- Architecture Data Only

Rapport d'Analyse -- Archives CD23

Transcription et extraction de donnees d'archives departementales par IA -- Faisabilite avec l'ecosysteme Google Cloud

~1,05M
Images a traiter
3
Corpus manuscrits
~7 400 €
Budget recommande (B+ enveloppe prudente Gemini 3.1 Pro)
~0 €/mois
Budget Run post-livraison

📋 Synthese executive

Le Departement de la Creuse (CD23) souhaite numeriser et rendre exploitables par l'IA environ 1 050 000 images de registres manuscrits des XIXe et XXe siecles. L'analyse demontre que l'ecosysteme Google Cloud offre une solution complete, performante et economiquement competitive pour ce projet, avec le Scenario B+ (Gemini 3.1 Pro) recommande (~7 400 € enveloppe prudente). Le livrable final est constitue de fichiers CSV structures par corpus/annee, injectes dans le portail existant du CD23. Apres livraison et purge des images, le budget Run est de ~0 €/mois.

💡
Le Scenario B+ (Gemini 3.1 Pro) offre le meilleur compromis qualite/prix -- avec un raisonnement profond et un taux d'hallucination reduit. Une phase pilote est indispensable pour valider les performances sur les manuscrits francais du XIXe siecle.

🏛️ Contexte du projet

La Direction des Archives departementales de la Creuse a identifie trois corpus prioritaires de registres manuscrits deja numerises :

Corpus Volume Nature Complexite
Registres de deliberations ~400 000 images Texte continu manuscrit Moyenne
Registres d'hypotheques ~250 000 images Tableaux manuscrits structures Elevee
Matrices cadastrales ~400 000 images Tableaux manuscrits structures Elevee

Stock total : ~4 millions d'images, dont ~1 050 000 seront traitees (3 corpus prioritaires). Les besoins fonctionnels incluent : transcription integrale, extraction structuree des donnees tabulaires. Le livrable final est constitue de fichiers CSV structures, injectes dans le portail existant du CD23.

🔧 Faisabilite avec les outils Google

L'ecosysteme Google Cloud propose une chaine complete pour ce type de projet :

Outil Role Tarification cle
Gemini 3.1 Pro HTR -- reconnaissance d'ecriture manuscrite (modele principal) 1,00 $/1M input + 6,00 $/1M output (Batch)
Cloud Storage Sas de transit (images purgees apres livraison) 0,020 $/Go/mois
BigQuery Structuration et nettoyage des donnees (SQL) < 100 €/mois
Export CSV Livrable final -- fichiers CSV par corpus/annee Inclus
🔗
Pipeline type : Cloud Storage (transit) → Gemini 3.1 Pro (Batch) → BigQuery (structuration) → CSV (livrable final)

⚖️ Comparaison des scenarios

★ RECOMMANDE

Scenario B+ -- Tout Pro

Gemini 3.1 Pro

~5 100 -- 7 300 €

Budget securise : ~7 400 € (estimation prudente Gemini 3.1 Pro).

  • Meilleur compromis qualite/prix
  • GPQA Diamond 91,9 %
  • Taux d'hallucination reduit
  • Meilleure gestion des manuscrits pre-1840
  • Pipeline Data Only (pas d'interface)
  • Livrable : CSV structures par corpus/annee
Critere B+ -- Gemini 3.1 Pro ★
Budget total ~7 400 €
Enveloppe prudente Gemini 3.1 Pro
Qualite HTR Tres elevee
Extraction tabulaire Bonne (raisonnement avance)
Hallucinations Reduit
Docs pre-1840 Ameliore
Complexite Simple (1 seul modele)
Budget Run ~0 €/mois
Recommandation ★ Recommande
⚠️
Recommandation : Le Scenario B+ (Gemini 3.1 Pro) est notre recommandation. Budget securise : ~7 400 € (estimation prudente Gemini 3.1 Pro). La phase pilote validera les performances sur les corpus du CD23.
📌
Architecture Data Only : Pas d'interface web, pas de moteur de recherche. Le livrable final est constitue de fichiers CSV structures par corpus/annee, injectes dans le portail existant du CD23. Apres livraison des CSV et purge des images sources, le budget Run est de ~0 €/mois.

💰 Couts : Build (one-shot) vs Run (recurrents)

⚠️
Distinction essentielle -- Build = Run : Les estimations ci-dessous separent clairement l'investissement initial (pipeline Data Only et scripts Python) des couts post-livraison. Apres livraison des CSV et purge des images, le budget Run est de ~0 €/mois.

Investissement initial « Build » (prestation d'ingenierie)

Poste Build Responsable Budget HT
Prestation Pilote -- Ingenierie IA & Audit de faisabilite IA Formation 3 500 -- 4 500 € HT
Pipeline Data Only + scripts Python (orchestration, nettoyage, CSV, purge) IA Formation + Dev 4 000 -- 7 200 €
Traitement IA des 1 050 000 images (Scenario B+) GoWizYou (infra) ~7 400 € GCP (enveloppe prudente Gemini 3.1 Pro)

Couts recurrents « Run » (post-livraison)

Poste Run Cout mensuel
Budget Run post-livraison ~0 €/mois (images purgees, pas d'interface)
💡
Qui facture quoi : La consommation Cloud et l'orchestration technique sont portees par GoWizYou. L'ingenierie des prompts, l'evaluation des modeles (pilote), le developpement des scripts Python et le deploiement des modules de formation sont portes par IA Formation. Apres livraison des CSV et purge FinOps, aucun cout recurrent.

🧪 Phase pilote recommandee

Avant tout engagement a grande echelle, une phase pilote est indispensable pour valider les performances sur les manuscrits francais specifiques du CD23.

Parametre Detail
Volume test600 a 1 500 images (200 a 500 par corpus)
Budget estime~20 € (fourchette max 50 € selon les modeles testes)
Duree4 a 6 semaines
Configuration testeeGemini 3.1 Pro
Documents pre-1840Inclure obligatoirement (CER attendu 10--25 %, plus degrade)
MetriquesCER, taux d'extraction tabulaire, taux d'hallucination, temps de traitement, cout reel par image
Scenarios de sortiePro suffisant → B+ (securise ~7 400 €) -- Insuffisant → No-Go (rapport argumente)

🛡️ Points de vigilance

📜
RGPD / Conformite -- Livrable bloquant Phase 1 : Le CD23, en tant que collectivite territoriale, n'est pas juridiquement soumis a la doctrine "Cloud au centre" de l'Etat. Les donnees sont traitees sur les serveurs Google Cloud en Europe (Belgique), sous droit europeen. La conformite RGPD est pleinement assuree (confirmee par Gael Chenard, GoWizYou). Le DPO et le service juridique du Conseil Departemental doivent neanmoins signer une validation formelle avant tout traitement de donnees reelles. Cette etape reste un prerequis bloquant.
✍️
Manuscrits pre-1840 : Les ecritures anciennes, les encres degradees et les supports abimes entraineront des taux d'erreur significativement plus eleves (CER 10--25 %). Ces documents doivent etre isoles et traites avec des parametres specifiques.
🏛️
Contexte francais : Les Archives nationales utilisent Transkribus et Kraken. Aucun projet francais d'envergure n'utilise encore Google Cloud pour la transcription d'archives -- le CD23 serait pionnier en la matiere.

👥 Repartition des roles

Acteur Responsabilites
GoWizYou Infrastructure Google Cloud, configuration projet GCP, support technique Cloud, relation commerciale
IA Formation Expertise IA/prompting, conception du pipeline Data Only, scripts Python (orchestration, nettoyage, CSV, purge), formation des equipes CD23, accompagnement phase pilote, optimisation des modeles
CD23 Fourniture des images numerisees, expertise archivistique (validation transcriptions), selection corpus pilote, validation juridique RGPD, integration des CSV dans le portail existant

📅 Plan d'action en 4 phases

Phase 1 -- Cadrage Semaines 1--2

Reunion tripartite GWY / IA Formation / CD23. Selection des images pilotes (600--1500). Configuration du projet Google Cloud. ⛔ Livrable bloquant : validation DPO + service juridique CD23 (RGPD -- serveurs Europe/Belgique, droit europeen).

Phase 2 -- Pilote Semaines 3--6

Test de Gemini 3.1 Pro sur chaque corpus. Mesure CER, taux d'extraction et taux d'hallucination. Rapport de resultats avec validation du scenario.

Phase 3 -- Deploiement Semaines 7--14

Traitement batch des 1 050 000 images. Structuration BigQuery. Generation et livraison des fichiers CSV.

Phase 4 -- Exploitation En continu

Integration des CSV dans le portail existant du CD23. Formation des archivistes. Ajout de nouveaux corpus.

🚀 Opportunite strategique

Ce projet represente une opportunite majeure pour le partenariat IA Formation x GoWizYou. Avec le Scenario B+ Gemini 3.1 Pro (budget securise ~7 400 €) et une architecture Data Only (budget Run ~0 €/mois), il est desormais possible de proposer une solution credible et abordable :

  • Premier projet d'archives francaises sur Google Cloud -- positionnement de reference national
  • Budget accessible (securise ~7 400 €) + Run ~0 €/mois -- architecture Data Only, argument decisif pour le client
  • Cas d'usage replicable -- 101 departements francais avec des fonds d'archives similaires
  • Valorisation du partenariat GWY -- demonstration concrete de la complementarite infrastructure + expertise IA
  • Formations IA -- Prerequis obligatoire au deploiement -- les equipes archives du CD23 doivent etre formees avant la phase d'exploitation. Programme recommande : Modules 1 + 2 + 3 (28h) du catalogue IA Formation / GoWizYou, en groupes de 10 a 12 personnes. Eligible OPCO / plan de formation. Possibilite d'evolution vers la certification RS6776 (eligible CPF).
🎓
Strategie de formation integree : La formation n'est pas un « plus » optionnel -- c'est un prerequis operationnel a la reussite du deploiement. Les archivistes doivent maitriser les outils IA (prompting Gemini, validation des transcriptions, exploitation des CSV dans le portail) pour exploiter efficacement le systeme. Le programme de 28h (3 modules) assure cette montee en competence. Facturation IA Formation, independante du volet infrastructure GWY.