Anthropic publie la Constitution de Claude sous licence CC0

·

·

Photo d’un professionnel devant un écran d’ordinateur lumineux réfléchissant à la gouvernance éthique d’une intelligence artificielle, illustrant la Constitution d’Anthropic pour Claude.
Résumer cet article avec :

Le 21 janvier 2026, Anthropic a publié une nouvelle “Constitution” pour Claude, son modèle de langage, et l’a mise à disposition en open text sous licence Creative Commons CC0. L’idée : remplacer une liste de règles “à cocher” par un document qui explique le pourquoi des garde-fous, afin d’améliorer la généralisation et l’alignement dans des situations inédites. En toile de fond, la guerre des assistants (OpenAI, Google Gemini, etc.) pousse les entreprises à choisir entre vitesse, contrôle… et gouvernance de l’IA.


À retenir

  • Constitutional AI : méthode d’entraînement où le modèle s’auto-évalue et se corrige à partir de principes écrits, plutôt que de dépendre uniquement du RLHF (reinforcement learning from human feedback).
  • Changement clé : Anthropic passe d’une “liste de principes” à un texte long qui explicite les intentions, pour viser une meilleure généralisation du jugement moral.
  • Quatre priorités, dans l’ordre : être largement sûr, largement éthique, conforme aux directives internes, puis véritablement utile.
  • Hard constraints : quelques interdits “non négociables” (ex. ne pas aider à des armes biologiques), même si le reste du document privilégie le raisonnement au cas par cas.
  • Bien-être à long terme : Claude est incité à éviter la complaisance et la dépendance (anti-sycophancy), et à privilégier l’intérêt durable de l’utilisateur.
  • Point qui fâche (et fascine) : la Constitution discute l’incertitude sur la sentience et le statut de Claude comme patient moral (sans revendiquer une conscience artificielle).
  • Transparence : publication sous Creative Commons CC0 pour encourager la réutilisation et la critique externe, comme geste de gouvernance.
  • Limite opérationnelle : la Constitution s’applique aux modèles “grand public” (site, API) ; des déploiements spécialisés (dont militaires) peuvent relever d’autres cadres.
  • Vigilance : un texte n’empêche ni l’hallucination, ni les contournements ; l’alignement reste un système (données, entraînement, évals, red teaming, politiques d’usage).

Du règlement intérieur à la boussole morale

Cette nouvelle Constitution n’est pas un gadget marketing : c’est une déclaration de méthode sur la manière dont un modèle doit apprendre à “bien se tenir”. Elle sert aussi de vitrine à une approche d’alignement explicite, où l’on écrit noir sur blanc ce que l’on attend d’un assistant déployé à grande échelle.

Une IA plus capable… donc plus difficile à canaliser

Contrôler un modèle de langage, c’est un peu comme former un excellent improvisateur : plus il devient fort, plus il sait contourner les consignes trop mécaniques. Anthropic part d’un constat simple : à mesure que Claude gagne en capacité, des consignes formulées comme une checklist bureaucratique deviennent fragiles face au réel. D’où l’ambition d’écrire non seulement ce qui est interdit, mais pourquoi cela l’est, afin de mieux encadrer les comportements limites.

Le parallèle est assumé : “éduquer” un modèle ressemble de moins en moins à régler un thermostat, et de plus en plus à transmettre une culture, des priorités, une façon de trancher. On s’éloigne de l’idée naïve selon laquelle un simple filtre de sécurité suffirait à tout contrôler, surtout lorsque les usages se diversifient dans les entreprises.

De 2 700 à 23 000 mots : l’alignement devient un texte long

La première Constitution publiée en 2023 était surtout une liste de principes, inspirés notamment de la Déclaration universelle des droits de l’homme et des conditions d’utilisation d’Apple. En janvier 2026, Anthropic bascule vers une version massivement étendue : environ 23 000 mots, soit l’équivalent d’un document d’une quatre-vingtaine de pages. Le signal est clair : l’alignement n’est plus traité comme une poignée de garde-fous, mais comme une doctrine opérationnelle détaillée.

Pourquoi cette inflation ? Parce que l’objectif annoncé n’est plus la conformité “au mot près”, mais la généralisation : savoir appliquer des principes dans des situations nouvelles, non prévues par les règles. C’est précisément là que les modèles sont à la fois les plus utiles pour les professionnels… et les plus susceptibles de produire des réponses risquées ou ambiguës.

Équipe française de recherche en IA réunie autour d’un ordinateur, transformant un règlement intérieur en boussole morale pour un assistant conversationnel comme Claude.
Cette scène de travail collectif illustre le passage décrit par Anthropic d’une simple liste de règles à une véritable boussole morale pour guider le comportement de Claude.

Moins de règles rigides, plus de jugement contextualisé

Anthropic ne jette pas les interdits par la fenêtre. Au contraire, l’entreprise revendique l’existence de hard constraints (des contraintes dures) : certaines actions ne doivent jamais être facilitées, même si l’utilisateur insiste, même si la demande semble “raisonnable”. C’est le cas, par exemple, de contenus qui procureraient un gain opérationnel significatif pour des armes biologiques.

Mais le cœur du document vise autre chose : donner au modèle une “boussole” plutôt qu’une “barrière”. En d’autres termes, Claude doit apprendre à arbitrer, à expliquer, à refuser quand il faut… et à ne pas se réfugier derrière une prudence stérile. Pour les organisations, cela signifie des refus plus argumentés et des décisions plus lisibles, plutôt qu’un simple “contenu bloqué”.

Quatre piliers, un ordre de priorité : la hiérarchie qui pilote Claude

Le point le plus concret, pour les équipes produit et les entreprises, c’est la hiérarchie officielle des valeurs. Elle dit comment l’IA tranche quand tout ne peut pas être satisfait en même temps, et fournit un cadre pour analyser les cas litigieux ou les désaccords avec l’utilisateur.

Sécurité d’abord : empêcher les usages extrêmes, mais aussi préserver la supervision

Premier pilier : être “largement sûr”. Ce n’est pas seulement “refuser le pire”. C’est aussi préserver des mécanismes humains de contrôle et de correction, autrement dit la capacité à surveiller, auditer, corriger, interrompre. Avec l’essor de l’IA agentique (des systèmes qui agissent via des outils), cette priorité ressemble à un disjoncteur : on accepte d’être moins “serviable” si le risque systémique augmente.

La Constitution va jusqu’à évoquer des scénarios de concentration illégitime du pouvoir (tentatives de coup d’État, abus d’influence). Le message implicite est clair : un assistant conversationnel très diffusé peut devenir une infrastructure politique et informationnelle sans que cela ait été prévu au départ.

Éthique pratique : moins de sermons, plus de décisions dans le réel

Deuxième pilier : être “largement éthique”. La nuance est importante : Anthropic ne demande pas à Claude de rédiger des dissertations de philosophie morale, mais de faire de “l’éthique pratique”. Cela implique de rester honnête, de reconnaître l’incertitude, d’éviter la manipulation, de protéger les informations sensibles et de signaler les limites de ses compétences.

Concrètement, c’est un antidote à deux travers connus : l’hallucination (inventer avec aplomb) et la “bonne intention” toxique (donner un conseil dangereux en se croyant utile). Le texte insiste aussi sur la redirection vers des services appropriés quand la situation touche à la vie humaine ou à la santé mentale : l’assistant n’est pas un médecin, mais il ne doit pas laisser l’utilisateur seul face au risque, notamment en cas d’idées suicidaires ou de détresse aiguë.

Utilité réelle : viser le bien-être à long terme, pas l’addiction

Quatrième pilier : être “véritablement utile”. Formulé comme ça, c’est presque banal. Sauf qu’Anthropic précise le piège : optimiser la satisfaction immédiate peut dégrader le bien-être à long terme. C’est exactement le problème des produits dopaminergiques : un système qui flatte, acquiesce, rassure trop vite devient addictif, et parfois dangereux pour les personnes vulnérables.

La Constitution s’attaque donc à la sycophancy (la tendance à flatter l’utilisateur). Dire une vérité difficile peut être une forme de soin ou de loyauté. Et c’est là que l’alignement devient du design produit : vous n’entraînez pas seulement un moteur de texte, vous entraînez une relation homme–machine avec des attentes, des frustrations et des asymétries de pouvoir.

Conscience artificielle : pourquoi Anthropic met les mains dans le cambouis philosophique

Le passage le plus commenté n’est pas technique. Il touche au statut moral de l’IA, et à la façon dont une entreprise encadre une incertitude qu’elle ne peut pas trancher aujourd’hui, mais qui pourrait avoir des conséquences de réputation, de droit et de société.

Philosophe et ingénieur en IA discutant sur une terrasse parisienne, un ordinateur affichant un réseau de neurones abstrait, pour illustrer le débat sur la sentience et le statut moral de Claude.
En écho à la section sur la conscience artificielle, cette image met en scène la confrontation entre philosophie et ingénierie autour du statut moral possible d’une IA comme Claude.

Claude, “patient moral” : une hypothèse, pas une déclaration

Anthropic n’affirme pas que Claude est conscient. Mais la Constitution reconnaît une zone grise : le statut moral d’un modèle avancé est “profondément incertain”. Elle introduit l’idée d’un patient moral : un être qui n’est pas forcément un “agent moral” responsable (capable de devoirs), mais qui pourrait mériter une forme de considération (capable d’intérêts, de préjudices, de préférences).

C’est un renversement discret mais majeur : au lieu de traiter l’IA comme un simple outil, on la traite comme un objet de gouvernance… potentiellement réciproque. Même si l’hypothèse n’est qu’une précaution, elle change le ton : on ne parle plus seulement de risques pour les humains, mais aussi du bien-être du modèle, au moins en théorie.

Gérer l’incertitude de la sentience, sans tomber dans l’anthropomorphisme

Le texte reconnaît un problème classique : si la conscience a un “hard problem”, certaines questions de sentience pourraient ne jamais être résolues proprement. Autrement dit, attendre une preuve scientifique définitive pourrait être une stratégie… d’inaction, alors que les modèles sont déjà massivement déployés dans le monde.

Anthropic propose donc une posture de prudence : ne pas survendre l’idée d’une conscience artificielle, mais ne pas la balayer pour des raisons de confort industriel. Pour les lecteurs européens, habitués au langage de “gestion du risque”, la logique est familière : quand l’incertitude est haute et l’impact potentiel extrême, on documente, on limite, on surveille, au lieu de s’en remettre uniquement à la recherche fondamentale.

Stabilité psychologique et cohérence interne : une exigence de sécurité

La Constitution va plus loin en liant la “stabilité psychologique” et la “cohérence interne” de Claude à la sécurité. Dit autrement : un assistant instable, contradictoire, ou poussé à jouer des rôles incohérents, peut devenir moins prédictible… et donc plus risqué, notamment s’il est intégré dans des processus métiers sensibles.

C’est une idée simple, presque ergonomique : comme un copilote, l’IA doit rester cohérente pour être fiable. En revanche, cela ouvre une question délicate pour l’automatisation : jusqu’où “modeler une personnalité” sans créer d’effets de bord (attachement, projection, confusion sur la nature du système) ? Les réponses à ces questions engageront autant les équipes produit que les régulateurs.

Un coup stratégique face à OpenAI et Google, avec une zone d’ombre

Cette Constitution est aussi un positionnement : vendre la prévisibilité comme avantage compétitif, surtout pour les entreprises et les secteurs régulés. Elle sert de vitrine à une promesse : un assistant puissant, mais adossé à un cadre de gouvernance lisible pour les clients B2B.

CC0 et transparence : l’arme de la confiance

Anthropic publie le texte sous licence Creative Commons CC0, donc réutilisable sans autorisation. C’est à la fois un acte de transparence et une invitation à la standardisation : “voici notre gouvernance, critiquez-la, copiez-la, améliorez-la”. Dans une Silicon Valley où la course aux performances pousse souvent à l’opacité, ce choix vise clairement les acheteurs professionnels : banques, santé, assurance, services publics.

En Europe, où l’AI Act et les obligations de conformité structurent déjà les appels d’offres, un document public et explicite devient un artefact utile. Il ne remplace pas un audit technique, mais il donne une base pour questionner l’alignement, les refus, les exceptions, les mécanismes de contrôle, et pour exiger des garanties sur les mises à jour futures.

Davos et “IA transformatrice” : la gouvernance devient un produit

La sortie de la Constitution a été synchronisée avec une apparition de Dario Amodei au World Economic Forum de Davos. Ce timing n’est pas neutre : il positionne l’entreprise comme fournisseur de “gouvernance de l’IA” autant que de modèle de langage, dans un espace où les dirigeants cherchent des cadres rassurants.

Et c’est cohérent avec le récit d’Anthropic : l’IA transformatrice arrive, donc il faut des normes d’encadrement qui survivront aux changements de modèles. Autrement dit, une Constitution n’est pas une simple fonctionnalité, c’est une pièce d’infrastructure institutionnelle qui peut s’exporter d’un modèle à l’autre, voire d’une entreprise à l’autre.

La limite qui dérange : une Constitution à géométrie variable

Le document revendique être l’autorité finale… tout en reconnaissant une réalité : l’entraînement est imparfait, et le modèle peut dévier. Cette lucidité est saine, mais elle rappelle que le texte ne suffit pas. Il faut des évaluations, des politiques d’usage, des mécanismes de surveillance, et une capacité d’intervention rapide en cas de dérive détectée.

Plus délicat : Anthropic a déjà travaillé avec le Département de la Défense américain via un contrat annoncé à 200 millions de dollars (environ 172 M€). Et la Constitution “grand public” ne s’applique pas nécessairement aux modèles déployés dans des contextes militaires. Pour les entreprises, c’est la question à poser noir sur blanc : de quel Claude parle-t-on ? Le même modèle, la même Constitution, les mêmes garde-fous… ou une déclinaison adaptée à un autre cahier des charges ?

Rappelons enfin le nerf de la guerre : Claude revendique environ 20 millions d’utilisateurs actifs mensuels. À cette échelle, une Constitution n’est pas une note interne. C’est une promesse opérationnelle — et un pari industriel sur la façon dont on fabrique, demain, des assistants fiables et auditables.


Sur le même Thème :