Rapport d'Analyse — Archives CD23

📋 Synthese executive

Le Departement de la Creuse (CD23) souhaite numeriser et rendre exploitables par l'IA environ 1 050 000 images de registres manuscrits des XIX^e et XX^e siecles. L'analyse demontre que l'ecosysteme Google Cloud offre une solution complete, performante et economiquement competitive pour ce projet, avec le Scenario B+ (Gemini 3.1 Pro) recommande (~7 400 € enveloppe prudente). Le livrable final est constitue de fichiers CSV structures par corpus/annee, injectes dans le portail existant du CD23. Apres livraison et purge des images, le budget Run est de ~0 €/mois.

💡

Le Scenario B+ (Gemini 3.1 Pro) offre le meilleur compromis qualite/prix -- avec un raisonnement profond et un taux d'hallucination reduit. Une phase pilote est indispensable pour valider les performances sur les manuscrits francais du XIX^e siecle.

🏛️ Contexte du projet

La Direction des Archives departementales de la Creuse a identifie trois corpus prioritaires de registres manuscrits deja numerises :

Corpus	Volume	Nature	Complexite
Registres de deliberations	~400 000 images	Texte continu manuscrit	Moyenne
Registres d'hypotheques	~250 000 images	Tableaux manuscrits structures	Elevee
Matrices cadastrales	~400 000 images	Tableaux manuscrits structures	Elevee

Stock total : ~4 millions d'images, dont ~1 050 000 seront traitees (3 corpus prioritaires). Les besoins fonctionnels incluent : transcription integrale, extraction structuree des donnees tabulaires. Le livrable final est constitue de fichiers CSV structures, injectes dans le portail existant du CD23.

🔧 Faisabilite avec les outils Google

L'ecosysteme Google Cloud propose une chaine complete pour ce type de projet :

Outil	Role	Tarification cle
Gemini 3.1 Pro	HTR -- reconnaissance d'ecriture manuscrite (modele principal)	1,00 $/1M input + 6,00 $/1M output (Batch)
Cloud Storage	Sas de transit (images purgees apres livraison)	0,020 $/Go/mois
BigQuery	Structuration et nettoyage des donnees (SQL)	< 100 €/mois
Export CSV	Livrable final -- fichiers CSV par corpus/annee	Inclus

🔗

Pipeline type : Cloud Storage (transit) → Gemini 3.1 Pro (Batch) → BigQuery (structuration) → CSV (livrable final)

⚖️ Comparaison des scenarios

★ RECOMMANDE

Scenario B+ -- Tout Pro

Gemini 3.1 Pro

~5 100 -- 7 300 €

Budget securise : ~7 400 € (estimation prudente Gemini 3.1 Pro).

Meilleur compromis qualite/prix
GPQA Diamond 91,9 %
Taux d'hallucination reduit
Meilleure gestion des manuscrits pre-1840
Pipeline Data Only (pas d'interface)
Livrable : CSV structures par corpus/annee

Critere	B+ -- Gemini 3.1 Pro ★
Budget total	~7 400 € Enveloppe prudente Gemini 3.1 Pro
Qualite HTR	Tres elevee
Extraction tabulaire	Bonne (raisonnement avance)
Hallucinations	Reduit
Docs pre-1840	Ameliore
Complexite	Simple (1 seul modele)
Budget Run	~0 €/mois
Recommandation	★ Recommande

⚠️

Recommandation : Le Scenario B+ (Gemini 3.1 Pro) est notre recommandation. Budget securise : ~7 400 € (estimation prudente Gemini 3.1 Pro). La phase pilote validera les performances sur les corpus du CD23.

📌

Architecture Data Only : Pas d'interface web, pas de moteur de recherche. Le livrable final est constitue de fichiers CSV structures par corpus/annee, injectes dans le portail existant du CD23. Apres livraison des CSV et purge des images sources, le budget Run est de ~0 €/mois.

💰 Couts : Build (one-shot) vs Run (recurrents)

⚠️

Distinction essentielle -- Build = Run : Les estimations ci-dessous separent clairement l'investissement initial (pipeline Data Only et scripts Python) des couts post-livraison. Apres livraison des CSV et purge des images, le budget Run est de ~0 €/mois.

Investissement initial « Build » (prestation d'ingenierie)

Poste Build	Responsable	Budget HT
Prestation Pilote -- Ingenierie IA & Audit de faisabilite	IA Formation	3 500 -- 4 500 € HT
Pipeline Data Only + scripts Python (orchestration, nettoyage, CSV, purge)	IA Formation + Dev	4 000 -- 7 200 €
Traitement IA des 1 050 000 images (Scenario B+)	GoWizYou (infra)	~7 400 € GCP (enveloppe prudente Gemini 3.1 Pro)

Couts recurrents « Run » (post-livraison)

Poste Run	Cout mensuel
Budget Run post-livraison	~0 €/mois (images purgees, pas d'interface)

💡

Qui facture quoi : La consommation Cloud et l'orchestration technique sont portees par GoWizYou. L'ingenierie des prompts, l'evaluation des modeles (pilote), le developpement des scripts Python et le deploiement des modules de formation sont portes par IA Formation. Apres livraison des CSV et purge FinOps, aucun cout recurrent.

🧪 Phase pilote recommandee

Avant tout engagement a grande echelle, une phase pilote est indispensable pour valider les performances sur les manuscrits francais specifiques du CD23.

Parametre	Detail
Volume test	600 a 1 500 images (200 a 500 par corpus)
Budget estime	~20 € (fourchette max 50 € selon les modeles testes)
Duree	4 a 6 semaines
Configuration testee	Gemini 3.1 Pro
Documents pre-1840	Inclure obligatoirement (CER attendu 10--25 %, plus degrade)
Metriques	CER, taux d'extraction tabulaire, taux d'hallucination, temps de traitement, cout reel par image
Scenarios de sortie	Pro suffisant → B+ (securise ~7 400 €) -- Insuffisant → No-Go (rapport argumente)

🛡️ Points de vigilance

📜

RGPD / Conformite -- Livrable bloquant Phase 1 : Le CD23, en tant que collectivite territoriale, n'est pas juridiquement soumis a la doctrine "Cloud au centre" de l'Etat. Les donnees sont traitees sur les serveurs Google Cloud en Europe (Belgique), sous droit europeen. La conformite RGPD est pleinement assuree (confirmee par Gael Chenard, GoWizYou). Le DPO et le service juridique du Conseil Departemental doivent neanmoins signer une validation formelle avant tout traitement de donnees reelles. Cette etape reste un prerequis bloquant.

✍️

Manuscrits pre-1840 : Les ecritures anciennes, les encres degradees et les supports abimes entraineront des taux d'erreur significativement plus eleves (CER 10--25 %). Ces documents doivent etre isoles et traites avec des parametres specifiques.

🏛️

Contexte francais : Les Archives nationales utilisent Transkribus et Kraken. Aucun projet francais d'envergure n'utilise encore Google Cloud pour la transcription d'archives -- le CD23 serait pionnier en la matiere.

👥 Repartition des roles

Acteur	Responsabilites
GoWizYou	Infrastructure Google Cloud, configuration projet GCP, support technique Cloud, relation commerciale
IA Formation	Expertise IA/prompting, conception du pipeline Data Only, scripts Python (orchestration, nettoyage, CSV, purge), formation des equipes CD23, accompagnement phase pilote, optimisation des modeles
CD23	Fourniture des images numerisees, expertise archivistique (validation transcriptions), selection corpus pilote, validation juridique RGPD, integration des CSV dans le portail existant

📅 Plan d'action en 4 phases

Phase 1 -- Cadrage Semaines 1--2

Reunion tripartite GWY / IA Formation / CD23. Selection des images pilotes (600--1500). Configuration du projet Google Cloud. ⛔ Livrable bloquant : validation DPO + service juridique CD23 (RGPD -- serveurs Europe/Belgique, droit europeen).

Phase 2 -- Pilote Semaines 3--6

Test de Gemini 3.1 Pro sur chaque corpus. Mesure CER, taux d'extraction et taux d'hallucination. Rapport de resultats avec validation du scenario.

Phase 3 -- Deploiement Semaines 7--14

Traitement batch des 1 050 000 images. Structuration BigQuery. Generation et livraison des fichiers CSV.

Phase 4 -- Exploitation En continu

Integration des CSV dans le portail existant du CD23. Formation des archivistes. Ajout de nouveaux corpus.

🚀 Opportunite strategique

Ce projet represente une opportunite majeure pour le partenariat IA Formation x GoWizYou. Avec le Scenario B+ Gemini 3.1 Pro (budget securise ~7 400 €) et une architecture Data Only (budget Run ~0 €/mois), il est desormais possible de proposer une solution credible et abordable :

→ Premier projet d'archives francaises sur Google Cloud -- positionnement de reference national
→ Budget accessible (securise ~7 400 €) + Run ~0 €/mois -- architecture Data Only, argument decisif pour le client
→ Cas d'usage replicable -- 101 departements francais avec des fonds d'archives similaires
→ Valorisation du partenariat GWY -- demonstration concrete de la complementarite infrastructure + expertise IA
→ Formations IA -- Prerequis obligatoire au deploiement -- les equipes archives du CD23 doivent etre formees avant la phase d'exploitation. Programme recommande : Modules 1 + 2 + 3 (28h) du catalogue IA Formation / GoWizYou, en groupes de 10 a 12 personnes. Eligible OPCO / plan de formation. Possibilite d'evolution vers la certification RS6776 (eligible CPF).

🎓

Strategie de formation integree : La formation n'est pas un « plus » optionnel -- c'est un prerequis operationnel a la reussite du deploiement. Les archivistes doivent maitriser les outils IA (prompting Gemini, validation des transcriptions, exploitation des CSV dans le portail) pour exploiter efficacement le systeme. Le programme de 28h (3 modules) assure cette montee en competence. Facturation IA Formation, independante du volet infrastructure GWY.

Rapport d'Analyse -- Archives CD23