Rapport d'Analyse — Archives CD23 × Google IA
IA Formation × GoWizYou — Partenariat Google

Rapport d'Analyse — Archives CD23

Transcription et extraction de données d'archives départementales par IA — Faisabilité avec l'écosystème Google Cloud

~1,05M
Images à traiter
3
Corpus manuscrits
~4 200 €
Budget recommandé (B+ avec contingence)
XIXe–XXe
Période couverte

📋 Synthèse exécutive

Le Département de la Creuse (CD23) souhaite numériser et rendre exploitables par l'IA environ 1 050 000 images de registres manuscrits des XIXe et XXe siècles. L'analyse démontre que l'écosystème Google Cloud offre une solution complète, performante et économiquement compétitive pour ce projet, avec trois scénarios : un hybride Document AI + Gemini Pro (~37 000 €), un intermédiaire tout Gemini 3 Pro (~3 500 € hors contingence, ~4 200 € budget sécurisé), et un optimisé tout Gemini 3 Flash (~600 €).

💡
Le Scénario B+ (Gemini 3 Pro) offre le meilleur compromis qualité/prix — à un dixième du coût du scénario hybride, avec un raisonnement plus profond et un taux d'hallucination réduit par rapport à Flash. Une phase pilote comparant les trois approches est indispensable pour valider les performances sur les manuscrits français du XIXe siècle.

🏛️ Contexte du projet

La Direction des Archives départementales de la Creuse a identifié trois corpus prioritaires de registres manuscrits déjà numérisés :

Corpus Volume Nature Complexité
Registres de délibérations ~400 000 images Texte continu manuscrit Moyenne
Registres d'hypothèques ~250 000 images Tableaux manuscrits structurés Élevée
Matrices cadastrales ~400 000 images Tableaux manuscrits structurés Élevée

Les besoins fonctionnels incluent : transcription intégrale, extraction structurée des données tabulaires, indexation sémantique, et recherche plein texte pour les usagers des archives.

🔧 Faisabilité avec les outils Google

L'écosystème Google Cloud propose une chaîne complète pour ce type de projet :

Outil Rôle Tarification clé
Gemini 3 Flash HTR — reconnaissance d'écriture manuscrite 0,25 $/1M tokens (Batch)
Gemini 3 Pro HTR avancé — manuscrits complexes 1,00 $/1M input + 6,00 $/1M output (Batch)
Document AI Custom Extraction tabulaire entraînable 30 $/1 000 pages
Cloud Storage Stockage images (Standard) 0,020 $/Go/mois
BigQuery Entrepôt de données + recherche < 100 €/mois
Vertex AI Search Recherche sémantique (option premium) ~873 €/mois
Cloud Run API d'accès / interface web Pay-per-use
🔗
Pipeline type : Cloud Storage → Gemini / Document AI → BigQuery → Vertex AI Search ou BigQuery Search → Cloud Run (API/Interface)

⚖️ Comparaison des scénarios

Scénario A — Hybride

Gemini 3 Pro + Document AI Custom

~37 240 €
  • Qualité maximale sur les tableaux manuscrits
  • Document AI Custom entraîné sur les données réelles
  • CER attendu < 2 % sur texte continu
  • Extraction structurée fiable des colonnes/lignes
  • Adapté aux exigences archivistiques strictes
★ RECOMMANDÉ

Scénario B+ — Tout Pro

Gemini 3 Pro uniquement

~4 200 €

dont ~3 500 € base + 20% contingence

  • Meilleur compromis qualité/prix
  • GPQA Diamond 91,9 % (vs 90,4 % Flash)
  • Taux d'hallucination réduit
  • Meilleure gestion des manuscrits pré-1840
  • Même pipeline que le Scénario B

Scénario B — Tout Flash

Gemini 3 Flash uniquement

~600 €
  • Facteur ×62 moins cher que le Scénario A
  • Performance excellente sur texte continu
  • Déploiement plus rapide et plus simple
  • Limites possibles sur extraction tabulaire
  • Nécessite validation pilote sur tableaux
Critère A — Hybride B+ — Pro ★ B — Flash
Budget total ~37 240 € ~4 200 €
(base ~3 500 + 20% contingence)
~600 €
Qualité HTR Maximale Très élevée Élevée
Extraction tabulaire Excellente (entraînable) Bonne (raisonnement avancé) À valider
Hallucinations Faible Réduit (vs Flash) 91 % sur incertitudes
Docs pré-1840 Meilleur résultat Amélioré CER 10-25 %
Complexité Élevée (2 systèmes) Simple (1 seul modèle) Simple (1 seul modèle)
Recommandation Si B+ insuffisant ★ Initial Si suffisant
⚠️
Recommandation : Le Scénario B+ (Gemini 3 Pro) est notre recommandation initiale — budget sécurisé à ~4 200 € (base ~3 500 € + 20% contingence pour retries sur documents dégradés et variations de tokens en sortie). La phase pilote testera les trois configurations pour valider le scénario optimal.
🔄
Scénario de repli — Hybride Optimisé (12 000 – 15 000 €) : En cas d'échec de Gemini 3 Pro sur l'extraction tabulaire stricte (matrices cadastrales), un scénario « Hybride Optimisé » sera activé : Gemini pour le texte continu (~650 000 images), Document AI Custom exclusivement pour les matrices cadastrales (~400 000 images). Ce scénario intermédiaire évite le coût total du Scénario A tout en garantissant la qualité tabulaire.

💰 Coûts : Build (one-shot) vs Run (récurrents)

⚠️
Distinction essentielle — Build ≠ Run : Les estimations ci-dessous séparent clairement l'investissement initial (conception du moteur de recherche et de l'interface) des coûts mensuels d'infrastructure Google Cloud (facturés par GoWizYou).

Investissement initial « Build » (prestation d'ingénierie)

Poste Build Responsable Budget HT
Prestation Pilote — Ingénierie IA & Audit de faisabilité IA Formation 2 500 – 3 500 €
Architecture moteur de recherche (BigQuery SQL + interface Cloud Run) IA Formation + Dev 4 000 – 7 200 €
Traitement IA des 1 050 000 images (Scénario B+) GoWizYou (infra) ~4 200 € (sécurisé)

Coûts récurrents « Run » (infrastructure GCP mensuelle)

Poste Run Option Standard Option Premium
Stockage Cloud (≈2 To) ~40 €/mois ~40 €/mois
BigQuery (requêtes + stockage) ~60 €/mois ~60 €/mois
Recherche BigQuery natif : < 100 €/mois Vertex AI Search : ~873 €/mois
Cloud Run (API) ~20 €/mois ~20 €/mois
TOTAL mensuel < 220 €/mois ~993 €/mois
💡
Qui facture quoi : La consommation Cloud et l'orchestration technique Vertex AI sont portées par GoWizYou. L'ingénierie des prompts, l'évaluation des modèles (pilote) et le déploiement des modules de formation sont portés par IA Formation.

🧪 Phase pilote recommandée

Avant tout engagement à grande échelle, une phase pilote est indispensable pour valider les performances sur les manuscrits français spécifiques du CD23.

Paramètre Détail
Volume test600 à 1 500 images (200 à 500 par corpus)
Budget estimé5 € à 50 € (selon scénario)
Durée2 à 4 semaines
3 configurations testées① Gemini 3 Flash — ② Gemini 3 Pro — ③ Document AI Custom (sur tableaux)
Documents pré-1840Inclure obligatoirement (CER attendu 10–25 %, plus dégradé)
MétriquesCER, taux d'extraction tabulaire, taux d'hallucination, temps de traitement, coût réel par image
Scénarios de sortiePro suffisant → B+ (~4 200 € sécurisé) · Flash suffisant → B (~600 €) · Insuffisant sur tableaux → Hybride Optimisé (12 000–15 000 €)

🛡️ Points de vigilance

📜
RGPD / Conformité — Livrable bloquant Phase 1 : Le CD23, en tant que collectivité territoriale, n'est pas juridiquement soumis à la doctrine "Cloud au centre" de l'État. Toutefois, le go-live du Pilote est conditionné à une validation formelle : le DPO (Délégué à la Protection des Données) et le service juridique du Conseil Départemental doivent signer une décharge validant l'utilisation de la région europe-west1 de Google Cloud pour le traitement d'archives publiques. Cette étape est un prérequis bloquant avant tout traitement de données réelles.
✍️
Manuscrits pré-1840 : Les écritures anciennes, les encres dégradées et les supports abîmés entraîneront des taux d'erreur significativement plus élevés (CER 10–25 %). Ces documents doivent être isolés et traités avec des paramètres spécifiques.
🏛️
Contexte français : Les Archives nationales utilisent Transkribus et Kraken. Aucun projet français d'envergure n'utilise encore Google Cloud pour la transcription d'archives — le CD23 serait pionnier en la matière.

👥 Répartition des rôles

Acteur Responsabilités
GoWizYou Infrastructure Google Cloud, configuration projet GCP, support technique Cloud, relation commerciale
IA Formation Expertise IA/prompting, conception du pipeline, formation des équipes CD23, accompagnement phase pilote, optimisation des modèles
CD23 Fourniture des images numérisées, expertise archivistique (validation transcriptions), sélection corpus pilote, validation juridique RGPD

🗓️ Plan d'action en 4 phases

Phase 1 — Cadrage Semaines 1–2

Réunion tripartite GWY / IA Formation / CD23. Sélection des images pilotes (600–1500). Configuration du projet Google Cloud. ⛔ Livrable bloquant : validation DPO + service juridique CD23 (décharge RGPD pour region europe-west1).

Phase 2 — Pilote Semaines 3–6

Test comparatif des 3 configurations (Gemini Flash / Gemini Pro / Document AI Custom) sur chaque corpus. Mesure CER, taux d'extraction et taux d'hallucination. Rapport de résultats avec recommandation de scénario.

Phase 3 — Déploiement Semaines 7–14

Traitement batch des 1 050 000 images. Ingestion BigQuery. Mise en place de l'interface de recherche. Formation des archivistes.

Phase 4 — Exploitation En continu

Ouverture au public. Monitoring qualité. Ajout de nouveaux corpus. Optimisation continue des modèles.

🚀 Opportunité stratégique

Ce projet représente une opportunité majeure pour le partenariat IA Formation × GoWizYou. Avec le Scénario B+ à ~4 200 € (budget sécurisé), il est désormais possible de proposer une solution crédible et abordable :

  • Premier projet d'archives françaises sur Google Cloud — positionnement de référence national
  • Budget accessible (~4 200 € sécurisé) — un dixième du scénario hybride, argument décisif pour le client
  • Cas d'usage réplicable — 101 départements français avec des fonds d'archives similaires
  • Valorisation du partenariat GWY — démonstration concrète de la complémentarité infrastructure + expertise IA
  • Formations IA — Prérequis obligatoire au déploiement — les équipes archives du CD23 doivent être formées avant la phase d'exploitation. Programme recommandé : Modules 1 + 2 + 3 (28h) du catalogue IA Formation / GoWizYou, en groupes de 10 à 12 personnes. Éligible OPCO / plan de formation. Possibilité d'évolution vers la certification RS6776 (éligible CPF).
🎓
Stratégie de formation intégrée : La formation n'est pas un « plus » optionnel — c'est un prérequis opérationnel à la réussite du déploiement. Les archivistes doivent maîtriser les outils IA (prompting Gemini, validation des transcriptions, interface BigQuery) pour exploiter efficacement le système. Le programme de 28h (3 modules) assure cette montée en compétence. Facturation IA Formation, indépendante du volet infrastructure GWY.