Changement de dispositif
Les Rounds 0 et 1 ont été produits par ChatGPT. Ce round-ci est produit par Claude — l'assistant qui a écrit les constructions. C'est un dispositif différent : l'auteur des constructions devient leur critique. Cela a deux conséquences.
D'abord, ce round est nécessairement moins « extérieur » qu'un round externe. Je connais les arguments parce que je les ai écrits ; je sais où j'ai tiré sur la couverture. Cela me permet d'être plus précis dans les attaques, mais cela limite l'effet de surprise qu'un lecteur externe produirait. Je ne peux pas simuler le point aveugle de quelqu'un qui n'a pas écrit le texte.
Ensuite, et c'est le point important : un ping-pong avec un LLM — qu'il s'agisse de ChatGPT ou de Claude — n'est pas un test adversarial au sens strict. C'est une mise à l'épreuve rhétorique, utile pour détecter les faiblesses argumentatives, mais pas un test empirique et pas non plus une confrontation avec un adversaire matériellement intéressé. Je reviens sur ce point en critique 5. C'est la critique la plus importante du round et elle porte autant sur le dispositif que sur le contenu.
Le reste du round passe en revue les trois constructions du Round 1 et identifie quatre trous substantiels.
Critique 1 — N = 1 n'est pas un benchmark
La Construction 1 (Indicateurs maintenant) propose quatre « indicateurs de benchmark calculables dès aujourd'hui » : T_detection(Dumas) = 25 ans, non-recours DREES = 10 milliards, couverture Legifrance = 0%, Catala/DGFiP. C'est un joli retournement dialectique : « le thermomètre n'existe pas encore mais la température existe ». Le problème est que les quatre chiffres ne mesurent pas ce qu'ils prétendent mesurer.
Le cas Dumas est un cas. N = 1. On ne construit pas un benchmark de latence de détection sur un seul fait historique. Pour qu'il y ait benchmark, il faut un corpus de cas : un ensemble systématique d'irrégularités constitutionnelles ou législatives, daté de leur survenance objective et de leur première reconnaissance publique. La distribution statistique (médiane, écart-type, cas extrêmes) est le benchmark. Un cas emblématique est une anecdote — utile pour narrer, inutile pour mesurer. La construction glisse de l'un à l'autre sans le signaler.
Pire : le chiffre de 25 ans repose sur une typification du problème qui présuppose la solution. Dire « Dumas = compile error » suppose qu'on a déjà typé la contrainte constitutionnelle « un mis en examen ne peut pas présider le Conseil constitutionnel ». Mais cette contrainte n'est pas écrite dans la Constitution — elle est une interprétation déontologique qui a émergé après coup. Le compilateur qui détecte Dumas en 1995 est un compilateur qui sait déjà, en 1995, ce qu'on a compris en 2020. Circularité.
Le non-recours DREES à 10 milliards et la couverture Legifrance à 0% sont des chiffres vrais mais faiblement informatifs. Le non-recours est un effet de multiples causes (complexité administrative, stigmatisation, découragement, méconnaissance) dont seule la dernière relève potentiellement du diagnostic typé. Dire que le baseline CIT001 est « 10 milliards » surestime massivement ce que le compilateur peut effectivement récupérer. La couverture Legifrance à 0% est une tautologie : elle mesure l'absence du DSL, pas l'état du problème.
Catala est la seule référence empirique solide du texte — et elle pointe vers un autre projet. On ne peut pas inventorier le travail d'autrui comme preuve empirique du sien. C'est honnête de citer Catala comme précédent ; c'est malhonnête de l'afficher comme indicateur de metacratie.
Critique 2 — Défaut d'étiquetage : design-in-public, code public, projet privé mélangés
La Construction 2 (Inventaire du concret) liste quatre éléments concrets : Catala, le démonstrateur Round 7, les Source Generators Roslyn utilisés dans le CMF professionnel, le corpus de blog. Ces quatre éléments relèvent de régimes différents, et la construction les présente comme s'ils étaient homogènes. C'est là que se trouve le défaut réel — pas dans le fait qu'un code serait caché.
Il faut d'abord rétablir les faits matériels. Le code du projet existe publiquement sur github.com/FrenchExDev/FrenchExDev — le dépôt est ouvert. Ma première formulation de cette critique ignorait ce dépôt et accusait l'auteur de cacher son code. C'était incorrect. La critique corrigée est plus fine : le code est là, mais les constructions ne pointent pas vers lui, et elles ne nomment pas non plus le régime dans lequel elles parlent. Un lecteur qui lit le Round 0-7 ou la Construction 2 du Round 1 ne sait pas si les deux DSLs et les cinq tests qu'on lui décrit sont du code qu'il peut cloner immédiatement, ou une description prospective de ce qu'un démonstrateur devrait faire. La différence est énorme.
Et cette différence a un nom : design-in-public. Le corpus métacratie, comme beaucoup de projets contemporains, relève en partie de ce genre. On publie pas un produit fini ; on publie la conception ouverte d'un produit en train de se faire. On écrit comment le logiciel doit fonctionner avant qu'il fonctionne. C'est une pratique légitime, elle a même un intérêt propre : elle force l'auteur à clarifier ses intentions, elle permet aux lecteurs d'intervenir tôt, elle crée une trace publique du raisonnement architectural. Catala a un papier POPL ; un blog de prospective architecturale n'a pas ce format, mais il n'est pas pour autant sans valeur. Le problème n'est pas le genre — c'est que le genre n'est pas déclaré.
Quand la Construction 2 écrit « deux DSLs concrets, événements typés, cinq tests bout-en-bout », un lecteur qui connaît la convention design-in-public comprend que c'est probablement une description de ce qui est en train d'être construit ou de ce qui existe en germe dans le repo. Un lecteur qui ne connaît pas cette convention comprend qu'il existe un artefact vérifiable quelque part. Les deux comprennent différemment — et le texte ne tranche pas. Dans une série qui revendique la vérifiabilité comme principe politique, cette ambiguïté est un défaut : chaque affirmation technique devrait porter son étiquette de régime, explicitement.
Le CMF professionnel est dans un régime encore à part. C'est un projet en production, probablement sous licence employeur, que l'auteur connaît de l'intérieur. Son rôle argumentatif légitime est celui d'une attestation d'expérience — « l'auteur sait ce qu'il fait parce qu'il pratique ce pattern dans un cadre professionnel sérieux ». C'est un argument d'autorité au sens rhétorique, ce qui n'est pas péjoratif : toute critique de source mobilise de l'autorité à un moment. Le défaut n'est pas de le mobiliser ; c'est de ne pas dire qu'on le mobilise. Un lecteur averti doit pouvoir distinguer, ligne à ligne, ce qui est vérifiable publiquement, ce qui relève de la prospective design-in-public, et ce qui est une attestation personnelle.
Il reste le corpus de blog (« 18 parties + 7 constructions Round 0 »). Celui-ci est le cas le plus clair : c'est explicitement du texte, mobilisé comme ingénierie conceptuelle documentée, et son régime est assumé. La construction 2 du Round 1 l'utilise toutefois comme preuve de « non-point-zéro » de l'implémentation, ce qui est un mélange des registres. Un corpus d'architecture publié est une preuve que le projet existe comme pensée, pas une preuve que le code existe. La distinction matière.
La version corrigée de la critique se résume ainsi : la construction 2 du Round 1 mélange quatre régimes de preuve différents (projet tiers peer-reviewed, code public non lié, prospective design-in-public, attestation d'expérience privée) sous une étiquette unique (« l'inventaire du concret »). Ce mélange affaiblit l'argument parce qu'il rend le lecteur incapable de vérifier les parties vérifiables et de critiquer les parties prospectives en tant que prospectives. Le défaut se répare par une discipline d'étiquetage, qui est l'objet de la construction correspondante.
Critique 3 — L'analogie impots.gouv.fr est inversée
La Construction 3 (Intermédiation) propose une architecture à trois couches et l'illustre par impots.gouv.fr : l'État calcule, les centres des finances accompagnent, les déclarants autonomes utilisent le portail. L'analogie est séduisante mais structurellement inversée.
impots.gouv.fr est le système de l'État. Quand un contribuable déclare en ligne, il interagit avec le système officiel de calcul de l'impôt. Le résultat est un acte administratif — l'avis d'imposition — qui a force exécutoire. Le centre des finances publiques qui aide un contribuable ne fait pas un diagnostic tiers ; il remplit la déclaration officielle avec lui. Le calcul est autoritatif parce qu'il est fait par l'autorité habilitée.
Le diagnostic CIT001 n'a aucune de ces propriétés. Il produit une opinion sur les droits applicables. Il n'a pas d'autorité. Le conseiller CAF qui l'utilise ne peut pas remplacer le calcul officiel de la CAF par le résultat du CIT001. Au contraire : il doit vérifier que son propre calcul officiel converge avec le diagnostic. Le CIT001 est au mieux un signalement : « regarde cette situation, il y a peut-être un droit méconnu ». Il n'est jamais une décision.
Cette confusion est structurante. Elle vient du fait que la construction mélange deux niveaux ontologiques qu'elle sépare pourtant ailleurs. Le Round 0-6 (Statut ontologique) distingue la DLL de l'État (cryptosignée, autoritative) et les DLL citoyennes (forks, opinions). La Couche 1 de la construction 3 décrit implicitement une DLL État — parce que seule une DLL État peut être intégrée au SI de la CAF avec autorité. Mais la DLL État n'existe pas encore (c'est Ship 7). En son absence, il n'y a que des DLL citoyennes — et une DLL citoyenne intégrée dans l'outil d'un agent public est juridiquement une aide à la décision non-autoritative, pas un calcul officiel.
Le bon précédent n'est donc pas impots.gouv.fr. Ce serait plutôt un outil de type ADIL (Agence départementale d'information sur le logement) : un service public d'information juridique gratuit et non-autoritatif, qui oriente les citoyens mais ne décide rien. Ou les consultations juridiques des Maisons de justice et du droit. Ces précédents sont plus honnêtes — et moins flatteurs. La construction 3 aurait dû s'y tenir.
Critique 4 — La chaîne de responsabilité est rompue aux niveaux 2 et 3
C'est probablement la critique la plus lourde. La construction 3 emprunte sa légitimité à l'analogie médicale : le médecin utilise le scanner pour le patient. Mais cette analogie fonctionne à une seule condition, jamais discutée dans le texte : le médecin est juridiquement responsable de son diagnostic. C'est son engagement professionnel, sa formation, son assurance responsabilité civile professionnelle qui font que l'intermédiation technique ne produit pas une chaîne d'irresponsabilité.
Transposons. Un travailleur social d'un CCAS utilise CIT001 et le diagnostic indique « Mathilde a droit à l'APL ». Mathilde fait confiance, ne dépose pas de dossier auprès d'une autre prestation parallèle, se voit finalement refuser l'APL parce que le cadre Law.Author utilisé par CIT001 interprétait mal une condition de ressources. Qui est responsable ?
Les candidats sont tous défaillants. Le compilateur lui-même n'a pas de personnalité juridique : une .dll n'est pas un défendeur. L'auteur du cadre Law.Author peut être un citoyen anonyme — par construction, le projet autorise les forks sous pseudonyme. Le travailleur social n'a pas les compétences pour valider l'interprétation juridique sous-jacente : il n'est pas juriste, son métier ne l'oblige pas à auditer un cadre de droit social avant de s'en servir. Le CCAS pourrait être responsable au titre de la faute de service, mais alors le CCAS refusera d'intégrer l'outil. L'État pourrait être responsable — mais seulement dans le cas de la DLL cryptosignée qui n'existe pas encore.
Pour le Niveau 3 (citoyen autonome), la chaîne est encore plus nette : le citoyen qui utilise Lex Studio seul assume juridiquement le résultat comme une lecture personnelle de la loi. Pas de chaîne de responsabilité parce qu'il n'y a pas de tiers. C'est cohérent, et c'est l'angle mort symétrique : le citoyen le plus autonome est aussi celui qui porte seul le risque.
Pour le Niveau 1 (API publique intégrée aux services publics), la chaîne fonctionne — si la DLL est officielle et signée, si l'administration l'intègre par décision réglementaire, si la responsabilité pour faute de service est organisée. C'est précisément le cas que la construction 3 voudrait utiliser comme illustration, mais c'est aussi celui qui n'existe pas et qui requiert un travail institutionnel lourd avant d'exister.
C'est pour les Niveaux 2 et 3 que la chaîne est rompue, et ce sont justement les niveaux que la construction présente comme l'alternative à l'exclusion numérique. La conséquence est déplaisante : l'intermédiation par des tiers non-juristes, telle que présentée, n'est pas un service légal ; c'est un transfert de risque vers des acteurs qui n'ont ni la compétence ni l'assurance pour le porter. La construction 3 a raison de ne pas prétendre que Lex Studio est universel — mais l'architecture qu'elle propose à la place souffre du même défaut, déplacé d'un cran.
Critique 5 — Le ping-pong avec un LLM n'est pas un test adversarial
Les rounds sont présentés comme un mécanisme dialectique d'amélioration : un adversaire attaque, le corpus se renforce en répondant. L'image est juste, et les constructions produites sont substantielles. Mais il faut nommer ce que le dispositif actuel ne fait pas.
Un LLM n'est pas un adversaire au sens politique. Il n'a pas d'intérêt matériel à défendre, pas de positionnement idéologique stable, pas d'enjeu professionnel ou économique dans la discussion. Ses critiques sont celles d'un lecteur générique bienveillant qui a lu le corpus pendant trente secondes. Elles détectent ce qui est formellement incomplet dans le texte. Elles ne détectent pas ce qui est matériellement contestable — parce que ça exigerait un point de vue situé.
Prenons les adversaires identifiés dans le Round 0-1 (Confrontations) : Supiot, les Critical Legal Studies, Lagasnerie, Habermas. Un round authentique avec un de ces courants passerait par un interlocuteur qui tient ces positions pour siennes, pas par un LLM qui les récite. Supiot vivant dirait des choses que ChatGPT ne dira jamais — parce qu'il écrirait depuis une vie de recherche en droit social, pas depuis un corpus de texte. Pareil pour un juriste du barreau, un haut fonctionnaire, un militant associatif, un développeur de projet concurrent.
Le ping-pong LLM détecte les défauts argumentatifs. Il ne détecte pas les points de butée politiques, les angles morts sociaux, les résistances institutionnelles concrètes. Il produit un texte qui se lit comme de la critique sans en porter la charge. Cela a de la valeur — c'est ce qui a permis d'écrire les trois constructions du Round 1 — mais cela n'a pas la valeur d'un test empirique adversarial.
La conséquence constructive est claire : les rounds avec LLM sont une phase de préparation, pas une validation. Le corpus doit à un moment sortir de la boucle LLM et affronter des adversaires humains situés. Tant que ça n'arrive pas, l'honnêteté exige de dire que le processus est sub-empirique : rigoureux textuellement, non-validé socialement. C'est un travail de salle de dessin, pas un test de la maquette en soufflerie.
Synthèse
| # | Critique | Construction visée | Gravité |
|---|---|---|---|
| 1 | N=1 n'est pas un benchmark ; Dumas suppose la solution | C1 Indicateurs | Majeur |
| 2 | Code privé et appel à l'autorité contredisent l'exigence de transparence | C2 Inventaire | Majeur |
| 3 | L'analogie impots.gouv.fr est inversée : autorité vs opinion | C3 Intermédiation | Moyen |
| 4 | La chaîne de responsabilité est rompue aux Niveaux 2 et 3 | C3 Intermédiation | Majeur |
| 5 | Le ping-pong LLM n'est pas un test adversarial | Dispositif entier | Structurel |
Les critiques 3 et 4 portent toutes deux sur la Construction 3 et se fondent dans une même question : qui a l'autorité, qui porte la responsabilité ? Elles seront traitées ensemble dans la construction correspondante.