Une architecture cognitive de la double route.
OMEGA est né comme un moteur de pendu français — un banc d'essai exigeant pour une idée : une machine qui raisonne sur la langue (phonologie, orthographe, morphologie) plutôt qu'elle ne consulte un oracle. Le correcteur dys en est le débouché appliqué.
La doctrine : mesurer ou rejeter
Une seule règle gouverne le projet : rien n'est gardé sans mesure. Tout module est désactivé par défaut, et la base de référence reste byte-identique tant qu'un gain n'est pas prouvé. Les idées séduisantes qui ne tiennent pas à la mesure sont falsifiées et documentées — pas enterrées.
« Cognition > oracle » : la valeur est dans le raisonnement, pas dans la triche. La configuration de référence ne lit jamais le mot caché.
La décision n'est pas un argmax mais une jointe probabiliste : on marginalise sur les hypothèses latentes — Σφ P(φ|indice)·P(lettre|φ,contexte) — au lieu de parier sur la plus probable. On croise, on ne devine pas.
Le banc d'essai : le pendu
Deviner un mot français lettre par lettre, sous contrainte, est un test sévère de modèle de langue : il faut intégrer la structure orthographique, les voisins, la phonotactique. La configuration cheat-free intégrale (qui ne lit jamais le mot caché) atteint ≈ 97,3 % de parties gagnées ; le plafond oracle (qui, lui, triche) est à 98,7 %.
Le substrat partagé : la double route phono↔ortho
Pendu et correcteur sont la même machine pointée dans deux directions sur le canal son ↔ écriture :
- Le pendu modélise
P(orthographe)et complète le masqué — il encode la structure. - Le correcteur inverse le bruit sur cette même structure : d'une surface corrompue, il remonte à l'intention — il décode.
Chacun combine une voie lexicale (le mot existe-t-il ?) et une voie sublexicale (règles graphème↔phonème), arbitrées par leur fiabilité — exactement la double route de la lecture chez l'humain.
De la défaite du pendu à la dyslexie
Le constat-clé : le profil de défaite du pendu ressemble à une signature dyslexique — il échoue majoritairement sur les confusions voisée / sourde (p/b, t/d…), exactement le type d'erreur phonologique au cœur de la dyslexie. Quand le moteur perd, il perd comme un lecteur dys.
D'où le sous-projet dictée diagnostique, puis le correcteur dys : le moteur qui modélise le canal d'erreur devient l'outil qui le corrige.
Le débouché : le correcteur dys
Détecter et corriger sans corrigé, en contexte, avec une garde cardinale : zéro faux positif. Un résultat récent illustre la méthode — la garde « §3 » : là où une règle plate lisait un étiquetage grammatical dur (et souvent faux : « faute » étiqueté verbe alors que 99 % de ses usages sont des noms), un posterior fréquentiel P(catégorie|forme) tranche correctement — récupérant des corrections justes et baissant les fausses alertes à la fois.
Ce qu'on a essayé… et rejeté
L'honnêteté des résultats négatifs fait partie de la méthode. Mesuré, puis écarté :
- un « C cognitif » léger appris, puis un transformer lourd — parité au mieux avec une heuristique simple, parfois pire.
- le pendu de phrases comme levier de victoire — le partage de lettres fuit les fins de mots.
- plusieurs élargissements du correcteur (edit-distance 2, relâche de gardes…) — chacun rouvrait des faux positifs, donc non câblé.
Garder la trace de ce qui ne marche pas évite de le refaire — et rend crédible ce qui marche.
Un second dérivé : OMEGA·KEY — messagerie chiffrée
Le même moteur, pointé ailleurs : une messagerie chiffrée de bout en bout tenant dans un seul fichier HTML, hors-ligne. OMEGA fournit le lexique (passphrases françaises prononçables) ; toute la cryptographie repose sur la WebCrypto standard du navigateur — aucun algorithme maison.
Le chat. Une carte Conversation chiffrée tient un fil de bulles, avec deux transports au choix : sans serveur — le message chiffré se copie tout seul, tu le colles à ton correspondant (et inversement) ; ou via un relais minimal (auto-hébergeable sur Deno Deploy en ~2 min) où, avec la même URL et le même code de salon des deux côtés, les messages circulent automatiquement, sans copier-coller — le relais ne transportant que du chiffré.
- Passphrases FR prononçables — mots réels (12 bits/mot) ou pseudo-mots (8 bits/syllabe), entropie tirée de
crypto.getRandomValues, sans biais modulo (listes en 2ⁿ, lecture de bits exacte — vérifié). - Clé partagée — PBKDF2-SHA256 310 000 itérations → AES-256-GCM, empreinte de clé vérifiable des deux côtés.
- Double Ratchet — ECDH P-256 → forward secrecy et récupération post-compromission.
- Par message — IV aléatoire 96 bits, intégrité par tag GCM. Le relais (optionnel, auto-hébergeable) ne voit jamais le clair.
⚠️ Démo, pas un produit de sécurité
Briques standard et bien employées (WebCrypto, IV uniques, pas de Math.random dans les clés), tests crypto automatisés en CI (entropie, round-trip, KAT du ratchet), numéro de sécurité anti-interception et historique chiffré au repos — mais le protocole reste assemblé à la main et n'a pas eu d'audit cryptographique formel. Pour de vrais secrets, utilise Signal.
À savoir : le relais voit les métadonnées (salon, horaires, tailles) · échange la passphrase par un canal sûr et compare le numéro de sécurité avec ton correspondant.
Aller plus loin
Les documents de fond (denses, en cours d'actualisation) :
- Mémoire de recherche — architecture, méthode, résultats (et résultats négatifs).
- Rapport de référence & mode d'emploi — configuration, détail des voies.
- Le code — tout est mesurable et reproductible (
./dev.sh).
Note d'honnêteté : le pendu est un banc de mesure, pas un produit. Le produit, c'est le correcteur. Ces deux pages décrivent l'état réel du projet, pas une vitrine.