Architecture souveraine

La souverainete n'est pas un slogan.

Chez MonIAaMoi, nous ne disons pas simplement « tes donnees sont proteges ». Nous publions l'architecture exacte : 5 tiers de modeles IA, un pipeline d'anonymisation brevete, et un hebergement Cloud Run Montreal. Voici comment ca marche, concretement.

Les 5 tiers de routing LLM

Chaque requete est routee automatiquement vers le modele le plus adapte selon la tache, la sensibilite des donnees et le budget. Les modeles les plus capables ne sont appeles qu'en dernier recours.

T0 -- Souverain local

100 % local

Modeles: Gemma 3 (4B/27B), Qwen 2.5 14B, DeepSeek R1 14B
Hebergement: Ta machine ou Ollama local
Cout: 0$
Sensibilite acceptee: Toutes sensibilites (S0-S3)
Cas d'usage typique: Triage, classification, PII extraction, cas tres sensibles Loi 25

T1 -- Sovereign cloud QC

Anonymise source

Modeles: Claude Haiku/Sonnet (Anthropic)
Hebergement: Via Cloud Run Montreal (northamerica-northeast1)
Cout: ~3-15 $/M tokens
Sensibilite acceptee: S0-S2 (avec anonymisation si S0)
Cas d'usage typique: Redaction finale FR-CA, nuance linguistique ultime

T2 -- Trinity Large Thinking (open-source reasoning)

Anonymise source

Modeles: Arcee Trinity-Large-Thinking (398B/13B MoE, Apache 2.0)
Hebergement: OpenRouter (US) via anonymisation source NXOS-SPPL-001
Cout: ~0.22-0.85 $/M tokens (~96 % moins cher qu'Opus)
Sensibilite acceptee: S1-S2 (jamais S0 sans anonymisation)
Cas d'usage typique: Orchestration multi-agents, raisonnement multi-etapes, diagnostic 25Q, retention anti-churn

T3 -- Specialistes

Anonymise source

Modeles: Qwen 3.6 Plus (1M context), GLM-5V Turbo (vision), Codestral
Hebergement: API fournisseurs
Cout: Variable
Sensibilite acceptee: S1-S2 (anonymise)
Cas d'usage typique: Cas specifiques: refactoring multi-fichiers, screenshot-to-code, code specialise

T4 -- Frontier (decisions critiques)

Anonymise source

Modeles: Claude Opus 4.6
Hebergement: Anthropic via Cloud Run Montreal
Cout: ~15-75 $/M tokens
Sensibilite acceptee: S0-S1 avec approbation
Cas d'usage typique: Revue IP, audit securite, decisions juridiques haute-stake, supervision

Le flux d'une requete sensible

1
Reception au Quebec. Ta requete arrive sur Cloud Run Montreal. Les donnees brutes sont chiffrees AES-256-GCM des l'arrivee.
2
Classification de sensibilite. Un classifieur local decide : donnees identifiantes? finances? sante? Le routeur choisit un tier parmi les 5.
3
Anonymisation source (NXOS-SPPL-001). Si le tier choisi est un modele tiers (Claude, Trinity, Opus), le pipeline brevete detache tout ce qui identifie quelqu'un : noms, dates, RAMQ, NAS, adresses, courriels, URLs. Remplace par des jetons opaques (PERSON_42, DATE_17).
4
Appel au modele. Le prompt anonymise est envoye au modele choisi. Le fournisseur ne voit que des jetons opaques. La carte de reversal reste sur Cloud Run Montreal, chiffree.
5
Rehydratation locale. La reponse revient. Les jetons sont remplaces par les vraies valeurs, localement. Tu recois la reponse finale, le fournisseur n'a jamais vu tes donnees.
6
Audit trail ENGRAM. Si le modele a produit une chaine de raisonnement (think block), elle est archivee chiffree dans ta memoire ENGRAM personnelle. Pour la Loi 25, tu peux prouver pourquoi une decision a ete prise.

Pourquoi on integre Trinity (et pourquoi ca ne change rien a ta souverainete)

Les donnees restent au Quebec

Toute l'infrastructure de MonIAaMoi (API, base de donnees, cache) est hebergee au Canada sous juridiction canadienne. Google Cloud Run region Montreal pour l'API, Supabase Canada Central pour la base. Aucun stockage hors territoire, jamais.

Seuls les prompts anonymises sortent

Quand une requete doit utiliser un modele tiers (Claude, Trinity, etc.), un pipeline brevete (NXOS-SPPL-001) detache toutes les informations identifiantes (nom, date de naissance, numeros RAMQ/NAS, addresses, tokens, URLs) AVANT l'envoi. La reponse est rehydratee localement. Les serveurs tiers ne voient jamais de donnees personnelles brutes.

Open-source pour le raisonnement, souverain pour tout le reste

MonIAaMoi est le premier assistant francophone a integrer Trinity Large Thinking, un modele open-source de 398 milliards de parametres sous licence Apache 2.0. Cela reduit le cout du raisonnement de ~96 % vs les modeles fermes tout en augmentant la transparence. Mais les modeles open-source ne changent rien a la residence des donnees -- c'est notre pipeline d'anonymisation qui la garantit.

Chaque decision agent est auditable

Les modeles de raisonnement comme Trinity produisent des chaines de pensee explicites (think blocks). Ces chaines sont archivees chiffrees dans ta memoire ENGRAM personnelle pour l'audit Loi 25. Quand un agent prend une decision, tu peux voir pourquoi.

Mode Souverain integral disponible

Sur les plans Souverain et superieur, tu peux activer le mode 100 % local : toutes les requetes passent par Ollama sur ton appareil ou sur un serveur que tu controles. Aucune donnee ne quitte jamais la zone que tu definis. Zero API tiers, zero sortie reseau.

Ce que nos concurrents ne font pas

Hebergement reel au Quebec. Pas « au Canada » ni « en Amerique du Nord ». Montreal, region Cloud Run northamerica-northeast1.
Pipeline d'anonymisation brevete open-documented. NXOS-SPPL-001. Code verifiable dans notre API.
Routing transparent a 5 tiers. Tu peux voir quel modele a traite quelle requete et combien ca a coute (page « Agents »).
Mode Souverain integral. Toutes les requetes passent par Ollama sur ta machine. Disponible des le tier Souverain.
Open-source pour le raisonnement. Trinity Large Thinking (Apache 2.0) -- si Arcee ferme demain, les poids restent. Pas de lock-in.

Plus de details juridiques dans notre politique de confidentialite et notre comparatif vs Claude Managed / Proton Lumo.

Les 5 tiers de routing LLM

Chaque requete est routee automatiquement vers le modele le plus adapte selon la tache, la sensibilite des donnees et le budget. Les modeles les plus capables ne sont appeles qu'en dernier recours.

T0 -- Souverain local

100 % local

Modeles: Gemma 3 (4B/27B), Qwen 2.5 14B, DeepSeek R1 14B
Hebergement: Ta machine ou Ollama local
Cout: 0$
Sensibilite acceptee: Toutes sensibilites (S0-S3)
Cas d'usage typique: Triage, classification, PII extraction, cas tres sensibles Loi 25

T1 -- Sovereign cloud QC

Anonymise source

Modeles: Claude Haiku/Sonnet (Anthropic)
Hebergement: Via Cloud Run Montreal (northamerica-northeast1)
Cout: ~3-15 $/M tokens
Sensibilite acceptee: S0-S2 (avec anonymisation si S0)
Cas d'usage typique: Redaction finale FR-CA, nuance linguistique ultime

T2 -- Trinity Large Thinking (open-source reasoning)

Anonymise source

Modeles: Arcee Trinity-Large-Thinking (398B/13B MoE, Apache 2.0)
Hebergement: OpenRouter (US) via anonymisation source NXOS-SPPL-001
Cout: ~0.22-0.85 $/M tokens (~96 % moins cher qu'Opus)
Sensibilite acceptee: S1-S2 (jamais S0 sans anonymisation)
Cas d'usage typique: Orchestration multi-agents, raisonnement multi-etapes, diagnostic 25Q, retention anti-churn

T3 -- Specialistes

Anonymise source

Modeles: Qwen 3.6 Plus (1M context), GLM-5V Turbo (vision), Codestral
Hebergement: API fournisseurs
Cout: Variable
Sensibilite acceptee: S1-S2 (anonymise)
Cas d'usage typique: Cas specifiques: refactoring multi-fichiers, screenshot-to-code, code specialise

T4 -- Frontier (decisions critiques)

Anonymise source

Modeles: Claude Opus 4.6
Hebergement: Anthropic via Cloud Run Montreal
Cout: ~15-75 $/M tokens
Sensibilite acceptee: S0-S1 avec approbation
Cas d'usage typique: Revue IP, audit securite, decisions juridiques haute-stake, supervision

Le flux d'une requete sensible

Reception au Quebec. Ta requete arrive sur Cloud Run Montreal. Les donnees brutes sont chiffrees AES-256-GCM des l'arrivee.

Classification de sensibilite. Un classifieur local decide : donnees identifiantes? finances? sante? Le routeur choisit un tier parmi les 5.

Anonymisation source (NXOS-SPPL-001). Si le tier choisi est un modele tiers (Claude, Trinity, Opus), le pipeline brevete detache tout ce qui identifie quelqu'un : noms, dates, RAMQ, NAS, adresses, courriels, URLs. Remplace par des jetons opaques (PERSON_42, DATE_17).

Appel au modele. Le prompt anonymise est envoye au modele choisi. Le fournisseur ne voit que des jetons opaques. La carte de reversal reste sur Cloud Run Montreal, chiffree.

Rehydratation locale. La reponse revient. Les jetons sont remplaces par les vraies valeurs, localement. Tu recois la reponse finale, le fournisseur n'a jamais vu tes donnees.

Audit trail ENGRAM. Si le modele a produit une chaine de raisonnement (think block), elle est archivee chiffree dans ta memoire ENGRAM personnelle. Pour la Loi 25, tu peux prouver pourquoi une decision a ete prise.

Pourquoi on integre Trinity (et pourquoi ca ne change rien a ta souverainete)

Les donnees restent au Quebec

Seuls les prompts anonymises sortent

Open-source pour le raisonnement, souverain pour tout le reste

Chaque decision agent est auditable

Mode Souverain integral disponible

Ce que nos concurrents ne font pas

Hebergement reel au Quebec. Pas « au Canada » ni « en Amerique du Nord ». Montreal, region Cloud Run northamerica-northeast1.

Pipeline d'anonymisation brevete open-documented. NXOS-SPPL-001. Code verifiable dans notre API.

Routing transparent a 5 tiers. Tu peux voir quel modele a traite quelle requete et combien ca a coute (page « Agents »).

Mode Souverain integral. Toutes les requetes passent par Ollama sur ta machine. Disponible des le tier Souverain.

Open-source pour le raisonnement. Trinity Large Thinking (Apache 2.0) -- si Arcee ferme demain, les poids restent. Pas de lock-in.