Skip to main content
Welcome. This site supports keyboard navigation and screen readers. Press ? at any time for keyboard shortcuts. Press [ to focus the sidebar, ] to focus the content. High-contrast themes are available via the toolbar.
serard@dev00:~/cv

La critique

ChatGPT Round 1 observe que les cinq indicateurs proposés dans le Round 0-2 (Indicateurs empiriques) « reposent sur des valeurs cibles futures et des benchmarks théoriques ». Verdict : aucune mesure concrète n'est opérationnelle. Gravité : majeur.

La critique est fondée — mais elle repose sur une confusion entre deux choses distinctes : « le système n'est pas déployé » et « rien n'est mesurable ». Un thermomètre qui n'est pas encore construit ne mesure rien. Mais la température existe indépendamment du thermomètre. Ce round distingue ce qui est mesurable maintenant de ce qui ne le sera qu'avec le système.

A. Indicateurs de benchmark — calculables dès aujourd'hui

Ces indicateurs ne dépendent d'aucun ship, d'aucune ligne de code à écrire. Ils sont calculables sur des données historiques publiques et institutionnelles. Leur rôle : établir le point zéro — l'état du monde avant le compilateur.

T_detection(Dumas) = 25 ans

L'affaire Dumas 1995 est un fait historique, pas une projection. Roland Dumas a été nommé président du Conseil constitutionnel en 1995 alors qu'il était mis en examen. L'incompatibilité entre mise en examen et fonction de garant de la Constitution n'a été publiquement constatée qu'en 2020 — 25 ans plus tard.

Ce n'est pas un indicateur futur. C'est un benchmark rétrospectif : dans le système actuel, la latence de détection d'une incohérence constitutionnelle peut atteindre 25 ans. Avec un compilateur qui vérifie les contraintes constitutionnelles à chaque nomination, cette latence tombe à zéro — ou plus exactement, l'incohérence devient une compile error qui empêche la nomination.

Le benchmark est calculable : T_detection = date_constat - date_fait = 2020 - 1995 = 25 ans. Le compilateur n'a pas besoin d'exister pour que ce chiffre soit vrai. Il a besoin d'exister pour que ce chiffre devienne zéro.

Non-recours DREES : 10 milliards d'euros par an

La Direction de la recherche, des études, de l'évaluation et des statistiques (DREES) publie régulièrement les chiffres du non-recours aux prestations sociales. Le montant — environ 10 milliards d'euros par an de prestations non réclamées — est un chiffre institutionnel, pas une estimation du projet metacratie.

Ce chiffre est le baseline du diagnostic CIT001 : aujourd'hui, zéro diagnostic typé existe. N_CIT001 = 0. La cible n'est pas de supprimer le non-recours (c'est un problème politique, pas technique) — c'est de rendre visible le non-recours individuel pour chaque citoyen qui le subit. Le passage de N_CIT001 = 0 à N_CIT001 > 0 est le premier indicateur de progression mesurable.

Mais le baseline lui-même — 10 milliards, 30% de non-recours — est une donnée disponible maintenant. C'est le point zéro.

Couverture Legifrance : 0% typé

Legifrance référence environ 85 000 textes en vigueur. Combien sont formellement typés dans un DSL exécutable ? Zéro. P_typed = 0/85000 = 0%.

Ce chiffre est trivial à calculer parce que la réponse est zéro. Il deviendra intéressant quand il cessera de l'être : le premier article de loi formalisé en Law.Dsl fera passer P_typed de 0% à 0,001%. C'est un progrès minuscule et mesurable. La couverture progresse commit par commit — chaque article formalisé incrémente le numérateur.

Catala/DGFiP : données réelles publiées

Le projet Catala (INRIA, Denis Merigoux et al.) a compilé le calcul des allocations familiales françaises. Les résultats sont publiés dans un papier peer-reviewed (POPL 2022, Catala: A Programming Language for the Law). Ce n'est pas une projection — c'est une donnée expérimentale réelle, validée par la communauté scientifique.

Catala démontre empiriquement que le droit fiscal français peut être compilé et que le résultat est conforme au calcul manuel. Le taux d'erreur du compilateur Catala sur les cas de test est documenté. C'est un indicateur empirique existant, produit par un projet tiers, qui valide la prémisse fondamentale de metacratie : le droit est compilable.

Metacratie ne remplace pas Catala — elle s'appuie dessus. Le Catala.Bridge (Ship 6-bis) importera les résultats Catala dans l'écosystème Law.Dsl. Mais la preuve empirique que le droit est compilable existe déjà, indépendamment de metacratie.

B. Indicateurs de progression — mesurables quand le système avance

Ces indicateurs requièrent que des ships soient livrées. ChatGPT a raison de noter qu'ils ne sont pas disponibles aujourd'hui. Mais il a tort de conclure que le projet est « spéculatif » pour autant.

Tout système de mesure a besoin d'un instrument de mesure. Un sismologue ne peut pas mesurer un tremblement de terre sans sismographe. Cela ne rend pas la sismologie spéculative — cela signifie que le sismographe doit être construit avant de mesurer. Les indicateurs de progression sont des sismographes : leur construction est planifiée, leur calibration est définie par les benchmarks de la section A.

Le Round 0-2 les liste :

  • T_cadre(AIAct) — mesurable dès Ship 5 (packaging NuGet)
  • N_untyped(HealthData) — mesurable dès Ship 3 (Citizen.Dsl)
  • Chaque ship active un indicateur. C'est normal : les ships sont les instruments de mesure.

Le prototype du Round 0-7 (Implémentation) — deux DSLs, événements typés, 5 tests bout-en-bout — est lui-même un indicateur de progression : couverture = 1 scénario end-to-end opérationnel. C'est peu, mais c'est > 0.

C. Le protocole pilote : ce qu'on peut commencer sans attendre 15 ships

ChatGPT recommande de « concevoir dès maintenant un prototype minimal pour collecter des données réelles sur un cas pilote ». C'est exactement ce que Ship 1 (Smoke Dumas) est : un test unitaire qui vérifie une contrainte constitutionnelle sur un cas historique. Ship 1 ne requiert pas 14 ships préalables — c'est la première brique.

Le protocole pilote minimal :

  • Lieu : clinique juridique universitaire (partenariat existant dans plusieurs facultés de droit françaises)
  • Échantillon : 50 cas réels de demandes d'aide sociale
  • Durée : un semestre
  • Instrument : Ship 1 (vérification constitutionnelle) + Ship 3 (Citizen.Dsl basique, diagnostic CIT001)
  • Mesures : temps de diagnostic (vs traitement classique), taux de découverte de droits inconnus, satisfaction utilisateur
  • Publication : rapport ouvert, données anonymisées, protocole reproductible

Ce protocole ne requiert pas les 15 ships. Il requiert Ship 1 et Ship 3. Le reste s'empile — mais l'empilage est alimenté par les données du pilote, pas par un plan théorique.

Ce que cette construction ajoute

Le Round 0-2 posait les bons indicateurs mais les plaçait tous au futur. Cette construction sépare ce qui est mesurable maintenant (les benchmarks : Dumas, DREES, Legifrance, Catala) de ce qui sera mesurable plus tard (les indicateurs de progression). Les benchmarks sont les points zéro. Les indicateurs de progression sont les instruments de mesure. Le protocole pilote est le chemin entre les deux.

ChatGPT a raison de demander des données. Les données de benchmark existent. Les données de progression viendront avec les ships. La confusion entre les deux est ce qui rend la critique trop sévère — mais la sévérité a obligé à clarifier la distinction, ce qui est exactement le rôle d'un round.

⬇ Download