Architecture souveraine
La souverainete n'est pas un slogan.
Chez MonIAaMoi, nous ne disons pas simplement « tes donnees sont proteges ». Nous publions l'architecture exacte : 5 tiers de modeles IA, un pipeline d'anonymisation brevete, et un hebergement Cloud Run Montreal. Voici comment ca marche, concretement.
Les 5 tiers de routing LLM
Chaque requete est routee automatiquement vers le modele le plus adapte selon la tache, la sensibilite des donnees et le budget. Les modeles les plus capables ne sont appeles qu'en dernier recours.
T0 -- Souverain local
100 % local- Modeles
- Gemma 3 (4B/27B), Qwen 2.5 14B, DeepSeek R1 14B
- Hebergement
- Ta machine ou Ollama local
- Cout
- 0$
- Sensibilite acceptee
- Toutes sensibilites (S0-S3)
- Cas d'usage typique
- Triage, classification, PII extraction, cas tres sensibles Loi 25
T1 -- Sovereign cloud QC
Anonymise source- Modeles
- Claude Haiku/Sonnet (Anthropic)
- Hebergement
- Via Cloud Run Montreal (northamerica-northeast1)
- Cout
- ~3-15 $/M tokens
- Sensibilite acceptee
- S0-S2 (avec anonymisation si S0)
- Cas d'usage typique
- Redaction finale FR-CA, nuance linguistique ultime
T2 -- Trinity Large Thinking (open-source reasoning)
Anonymise source- Modeles
- Arcee Trinity-Large-Thinking (398B/13B MoE, Apache 2.0)
- Hebergement
- OpenRouter (US) via anonymisation source NXOS-SPPL-001
- Cout
- ~0.22-0.85 $/M tokens (~96 % moins cher qu'Opus)
- Sensibilite acceptee
- S1-S2 (jamais S0 sans anonymisation)
- Cas d'usage typique
- Orchestration multi-agents, raisonnement multi-etapes, diagnostic 25Q, retention anti-churn
T3 -- Specialistes
Anonymise source- Modeles
- Qwen 3.6 Plus (1M context), GLM-5V Turbo (vision), Codestral
- Hebergement
- API fournisseurs
- Cout
- Variable
- Sensibilite acceptee
- S1-S2 (anonymise)
- Cas d'usage typique
- Cas specifiques: refactoring multi-fichiers, screenshot-to-code, code specialise
T4 -- Frontier (decisions critiques)
Anonymise source- Modeles
- Claude Opus 4.6
- Hebergement
- Anthropic via Cloud Run Montreal
- Cout
- ~15-75 $/M tokens
- Sensibilite acceptee
- S0-S1 avec approbation
- Cas d'usage typique
- Revue IP, audit securite, decisions juridiques haute-stake, supervision
Le flux d'une requete sensible
- 1Reception au Quebec. Ta requete arrive sur Cloud Run Montreal. Les donnees brutes sont chiffrees AES-256-GCM des l'arrivee.
- 2Classification de sensibilite. Un classifieur local decide : donnees identifiantes? finances? sante? Le routeur choisit un tier parmi les 5.
- 3Anonymisation source (NXOS-SPPL-001). Si le tier choisi est un modele tiers (Claude, Trinity, Opus), le pipeline brevete detache tout ce qui identifie quelqu'un : noms, dates, RAMQ, NAS, adresses, courriels, URLs. Remplace par des jetons opaques (PERSON_42, DATE_17).
- 4Appel au modele. Le prompt anonymise est envoye au modele choisi. Le fournisseur ne voit que des jetons opaques. La carte de reversal reste sur Cloud Run Montreal, chiffree.
- 5Rehydratation locale. La reponse revient. Les jetons sont remplaces par les vraies valeurs, localement. Tu recois la reponse finale, le fournisseur n'a jamais vu tes donnees.
- 6Audit trail ENGRAM. Si le modele a produit une chaine de raisonnement (think block), elle est archivee chiffree dans ta memoire ENGRAM personnelle. Pour la Loi 25, tu peux prouver pourquoi une decision a ete prise.
Pourquoi on integre Trinity (et pourquoi ca ne change rien a ta souverainete)
Les donnees restent au Quebec
Toute l'infrastructure de MonIAaMoi (API, base de donnees, cache) est hebergee au Canada sous juridiction canadienne. Google Cloud Run region Montreal pour l'API, Supabase Canada Central pour la base. Aucun stockage hors territoire, jamais.
Seuls les prompts anonymises sortent
Quand une requete doit utiliser un modele tiers (Claude, Trinity, etc.), un pipeline brevete (NXOS-SPPL-001) detache toutes les informations identifiantes (nom, date de naissance, numeros RAMQ/NAS, addresses, tokens, URLs) AVANT l'envoi. La reponse est rehydratee localement. Les serveurs tiers ne voient jamais de donnees personnelles brutes.
Open-source pour le raisonnement, souverain pour tout le reste
MonIAaMoi est le premier assistant francophone a integrer Trinity Large Thinking, un modele open-source de 398 milliards de parametres sous licence Apache 2.0. Cela reduit le cout du raisonnement de ~96 % vs les modeles fermes tout en augmentant la transparence. Mais les modeles open-source ne changent rien a la residence des donnees -- c'est notre pipeline d'anonymisation qui la garantit.
Chaque decision agent est auditable
Les modeles de raisonnement comme Trinity produisent des chaines de pensee explicites (think blocks). Ces chaines sont archivees chiffrees dans ta memoire ENGRAM personnelle pour l'audit Loi 25. Quand un agent prend une decision, tu peux voir pourquoi.
Mode Souverain integral disponible
Sur les plans Souverain et superieur, tu peux activer le mode 100 % local : toutes les requetes passent par Ollama sur ton appareil ou sur un serveur que tu controles. Aucune donnee ne quitte jamais la zone que tu definis. Zero API tiers, zero sortie reseau.
Ce que nos concurrents ne font pas
- Hebergement reel au Quebec. Pas « au Canada » ni « en Amerique du Nord ». Montreal, region Cloud Run
northamerica-northeast1. - Pipeline d'anonymisation brevete open-documented. NXOS-SPPL-001. Code verifiable dans notre API.
- Routing transparent a 5 tiers. Tu peux voir quel modele a traite quelle requete et combien ca a coute (page « Agents »).
- Mode Souverain integral. Toutes les requetes passent par Ollama sur ta machine. Disponible des le tier Souverain.
- Open-source pour le raisonnement. Trinity Large Thinking (Apache 2.0) -- si Arcee ferme demain, les poids restent. Pas de lock-in.
Plus de details juridiques dans notre politique de confidentialite et notre comparatif vs Claude Managed / Proton Lumo.