Le Really Simple Licensing (RSL) vient d’être dévoilé comme une solution pour encadrer le scraping massif de données par les IA, alors que les éditeurs en ligne subissent des pertes financières croissantes. Annoncé entre le 10 et le 12 septembre 2025 par une coalition d’acteurs majeurs du web, ce protocole ouvert propose un modèle de licence standardisé pour rémunérer les créateurs tout en offrant un accès légal aux entreprises d’intelligence artificielle. C’est une réponse concrète aux litiges juridiques récents, comme le règlement de 1,3 milliard d’euros d’Anthropic pour violation de droits d’auteur, ou aux critiques contre Google AI Overview, accusé de siphonner le trafic des sites.
À retenir
- 1,3 milliard d’euros : montant du règlement d’Anthropic dans une affaire de droits d’auteur liée au scraping de livres, en 2025.
- Protocole décentralisé : le RSL étend les standards RSS et robots.txt pour intégrer des conditions de licence lisibles par machine (format XML).
- Modèles de rémunération : accès gratuit avec attribution, abonnements, paiement par crawl ou par inférence (à chaque utilisation du contenu par une IA).
- RSL Collective : organisation à but non lucratif fondée par Eckart Walther (co-créateur du RSS) et Doug Leeds (ex-PDG d’Ask.com), chargée de négocier et redistribuer les redevances.
- Adoption initiale : Reddit, Quora, Yahoo, Medium ou MIT Press parmi les premiers signataires, avec un partenariat technique clé avec Fastly pour vérifier la conformité des crawlers.
- Enjeu économique : restaurer un modèle viable pour les éditeurs alors que Google AI Overview a réduit leur trafic de recherche jusqu’à 40 % pour certains.
- Défis majeurs : conformité volontaire des IA (aucune obligation légale), complexité des paiements par inférence et risque de fragmentation des licences.
Le scraping par l’IA : un modèle économique en crise pour les éditeurs
Depuis 2023, les entreprises d’IA générative comme OpenAI, Google ou Anthropic font face à une vague de poursuites pour avoir collecté des données sans autorisation. Le cas le plus médiatisé reste le règlement de 1,3 milliard d’euros versé par Anthropic à des auteurs et éditeurs de livres dont les œuvres avaient été utilisées pour entraîner ses modèles. Reddit a également attaqué Anthropic en justice début 2025 ; la startup est accusée d’avoir aspiré des millions de posts sans compensation. Ces litiges révèlent un vide juridique : le protocole robots.txt créé en 1994, ne permet que d’autoriser ou bloquer l’accès aux crawlers, sans mécanisme de rémunération.
L’impact économique sur les éditeurs est direct. Le modèle publicitaire, déjà fragilisé, subit les conséquences des outils comme Google AI Overview qui affichent des résumés générés par IA en tête des résultats de recherche. Selon une étude citée par le New York Times, certains sites ont perdu jusqu’à 40 % de leur trafic organique depuis le déploiement de cette fonctionnalité.
Les géants de l’IA lèvent des milliards en financement tout en éviscérant les revenus des créateurs
Les tentatives précédentes, comme les appels à la transparence de la Dataset Providers Alliance, n’avaient pas abouti à une solution technique scalable.
Pourquoi le protocole robots.txt est devenu obsolète
Le fichier robots.txt, standard depuis 30 ans, fonctionne sur un principe binaire : un crawler est soit autorisé, soit bloqué. Aucune nuance n’est possible pour :
- distinguer les usages commerciaux (entraînement de modèles) des usages non commerciaux (archivage, recherche académique) ;
- négocier des compensations financières en fonction de la valeur des données ;
- appliquer des règles différentes selon le type de contenu (texte, image, vidéo).
Résultat : les éditeurs doivent choisir entre ouvrir gratuitement leurs données (au risque de les voir exploitées sans retour) ou les verrouiller (en perdant en visibilité). Le RSL propose une troisième voie : un cadre contractuel automatisé, où les conditions sont lues et appliquées par les crawlers eux-mêmes.
L’exemple de Reddit : 60 millions d’euros par an pour Google
Reddit, plateforme souvent citée dans les affaires de scraping, a déjà négocié un accord avec Google : le géant lui verse environ 60 millions d’euros annuels pour accéder à ses données d’entraînement. Pourtant, la plateforme a rejoint le RSL Collective dès son lancement.
Même avec des contrats bilatéraux, nous avons besoin d’un standard industriel pour éviter que chaque éditeur doive négocier seul face aux géants de l’IA
Ce cas illustre la fragmentation actuelle des accords et la nécessité d’une infrastructure commune.
Les limites des solutions alternatives
Certains acteurs ont adopté des approches radicales. Cloudflare, par exemple, bloque par défaut les crawlers d’IA pour tous les nouveaux domaines depuis juillet 2025, sauf autorisation explicite. Une mesure qui protège les éditeurs mais les prive aussi des bénéfices potentiels d’une collaboration avec l’IA. À l’inverse, des initiatives comme la Dataset Providers Alliance prônent la transparence sans proposer de mécanisme de paiement. Le RSL se positionne comme la première tentative de conciliation entre protection des droits et innovation, en s’appuyant sur une infrastructure technique existante (RSS et robots.txt).

Comment fonctionne le RSL ? Un protocole technique et économique
Le Really Simple Licensing repose sur trois piliers : une extension des standards web pour intégrer des licences lisibles par machine, des modèles de rémunération flexibles et une gouvernance centralisée via le RSL Collective. Contrairement aux solutions propriétaires, le RSL est conçu comme un protocole ouvert et interopérable, compatible avec les infrastructures existantes des éditeurs et des entreprises d’IA.
Une intégration technique basée sur le RSS et le robots.txt
Le RSL étend deux standards bien établis :
- Le fichier robots.txt : les éditeurs peuvent y ajouter des balises XML définissant les conditions d’accès (ex :
User-agent: *).
Allow: /
License: RSL-1.0
Payment: subscription(1000 EUR/month) - Les flux RSS : les métadonnées des articles intègrent des champs de licence (ex :
<rsl:license type="pay-per-crawl">0.01 EUR</rsl:license>).
Ces informations sont automatiquement interprétées par les crawlers conformes au RSL. Les bots non commerciaux (comme ceux des archives nationales ou des moteurs de recherche traditionnels) continuent de fonctionner sans restriction. Pour les usages commerciaux, en revanche, le crawler doit valider la licence avant d’accéder au contenu.
Exemple de licence RSL dans un robots.txt
| Balise | Valeur | Signification |
|---|---|---|
User-agent | Anthropic-Bot | Cible le crawler d’Anthropic. |
License | RSL-1.0 | Version du protocole RSL utilisée. |
Payment | pay-per-inference(0.001 EUR) | 0,001 € par utilisation du contenu dans une réponse générée par IA. |
Attribution | required | Obligation de citer la source. |
Quatre modèles de rémunération pour les créateurs
Le RSL propose une gamme d’options, adaptées aux différents types de contenus et d’usages :
- Accès gratuit avec attribution : le crawler peut utiliser les données sans paiement mais doit citer la source. Idéal pour les contenus sous licence ouverte (ex : Wikipédia).
- Abonnement : paiement récurrent (ex : 1 000 €/mois pour un accès illimité à un corpus), modèle adapté aux grands éditeurs comme MIT Press.
- Paiement par crawl : facturation à chaque visite du crawler (ex : 0,01 € par page scrapée), solution pour les sites à fort volume comme Reddit.
- Paiement par inférence : redevance à chaque fois que le contenu est utilisé pour générer une réponse (ex : 0,001 € par requête). Le plus complexe à mettre en œuvre mais potentiellement le plus lucratif.
Le choix du modèle dépend de la stratégie de l’éditeur. Quora, par exemple, privilégierait le paiement par inférence pour monétiser l’utilisation de ses Q/R par des chatbots tandis qu’un site de recettes pourrait opter pour un abonnement mensuel.
Le rôle clé du RSL Collective : négociation et redistribution
Inspiré des sociétés de gestion des droits musicaux comme l’ASCAP ou le MPLC, le RSL Collective joue trois fonctions :
- Négociation collective : représenter les éditeurs face aux géants de l’IA pour éviter des déséquilibres de pouvoir.
- Audit et conformité : vérifier que les entreprises d’IA respectent les licences (via des outils comme ceux de Fastly).
- Redistribution des redevances : collecter les paiements et les reverser aux créateurs, après prélèvement d’une commission (estimée à 10-15 %).
L’organisation est dirigée par Eckart Walther, co-créateur du standard RSS, et Doug Leeds, ancien PDG d’Ask.com. Son conseil d’administration inclut des représentants d’éditeurs comme Reddit ou Yahoo, ainsi que des experts juridiques spécialisés dans le droit d’auteur numérique.
Fastly, partenaire technique pour faire respecter les licences
Le RSL Collective s’appuie sur Fastly, un réseau de diffusion de contenu (CDN), pour implémenter le contrôle d’accès. Concrètement :
- Quand un crawler d’IA (ex : Google-Extended) demande une page, Fastly intercepte la requête et vérifie sa conformité aux licences déclarées dans le robots.txt.
- Si le crawler n’a pas de licence valide, l’accès est bloqué. Sinon, la requête est transmise et Fastly enregistre l’activité pour la facturation.
- Les éditeurs utilisant d’autres CDN (comme Cloudflare ou Akamai) devront attendre des intégrations futures.
Cette approche présente une limite : elle ne couvre que les sites hébergés sur Fastly. Pour une adoption massive, le RSL devra convaincre d’autres acteurs d’intégrer ses outils.
Qui soutient le RSL ? Un écosystème en construction
Le succès du RSL dépend de son adoption par deux groupes : les éditeurs, qui doivent l’intégrer, et les entreprises d’IA, qui doivent le respecter. À ce jour, la coalition compte une vingtaine de membres fondateurs, principalement des médias et plateformes en ligne. Côté IA, aucune adhésion formelle n’a été annoncée, bien que des discussions soient en cours avec Google et Anthropic.
Les éditeurs pionniers : de Reddit à MIT Press
La liste des premiers signataires inclut :
- Plateformes communautaires : Reddit, Quora, Mashable.
- Médias généralistes : Yahoo, CNET, The Daily Beast.
- Contenu spécialisé : WebMD (santé), O’Reilly Media (technologie), wikiHow (tutoriels).
- Institutions académiques : MIT Press, qui publie des ouvrages sous licence ouverte.
Ces acteurs représentent un volume significatif de données utilisées pour entraîner les IA. Reddit, par exemple, est une source majeure pour les modèles de dialogue, tandis que WebMD fournit des corpus médicaux souvent réutilisés par des chatbots santé. Leur adhésion envoie un signal fort :
Nous ne sommes plus prêts à financer gratuitement l’IA
déclare un porte-parole de Quora.
Les absents notables : les géants de l’IA en retrait
À ce stade, aucune entreprise d’IA n’a officiellement rejoint le RSL. Plusieurs raisons expliquent cette réserve :
- Coûts supplémentaires : les modèles de paiement par inférence, par exemple, pourraient alourdir significativement les coûts d’exploitation.
- Complexité technique : tracer l’utilisation des données dans les réponses générées nécessite des systèmes d’audit avancés.
- Stratégie de contournement : certaines IA pourraient continuer à scraper illégalement, comme elles l’ont fait avec le robots.txt.
Néanmoins, des signes encourageants existent. Google, via son PDG Sundar Pichai, a reconnu publiquement la nécessité d’un système comme le RSL
pour équilibrer innovation et rémunération. Anthropic, sous pression après ses règlements judiciaires, serait en discussions avancées avec le RSL Collective.
Cloudflare vs. Fastly : deux visions opposées de la protection
La réponse des infrastructures web au RSL révèle des divergences stratégiques :
- Fastly : partenaire officiel du RSL, mise sur la collaboration avec les IA via des licences claires. Son CDN intègrera nativement les outils de vérification.
- Cloudflare : approche défensive avec un blocage par défaut des crawlers d’IA depuis juillet 2025.
Nous protégeons nos clients jusqu’à ce qu’une solution équitable émerge
justifie son CEO.
Cette opposition illustre le débat actuel : faut-il négocier avec les IA (RSL) ou les bloquer en attendant une régulation forte ? Le RSL parie sur la première option, en misant sur l’intérêt économique des entreprises d’IA à accéder légalement aux données.
Les prochaines étapes : vers une masse critique ?
Pour devenir un standard, le RSL doit atteindre plusieurs objectifs d’ici 2026 :
- Élargir l’adoption éditoriale : convaincre des acteurs comme Wikipédia, The New York Times ou Le Monde.
- Sécuriser des partenariats IA : obtenir l’adhésion d’au moins deux géants (ex : Google et OpenAI).
- Étendre l’infrastructure technique : intégrer d’autres CDN (Cloudflare, Akamai) et outils de CMS (WordPress, Drupal).
- Clarifier le cadre juridique : travailler avec les régulateurs (ex : CNIL en France, FTC aux États-Unis) pour renforcer la conformité.
Le RSL Collective prévoit un bilan intermédiaire en mars 2026. Si d’ici là, moins de 50 % des 100 principaux éditeurs mondiaux ont adopté le protocole, l’initiative pourrait pivoter vers une approche plus coercitive, comme des actions en justice collectives contre les IA non conformes.

Défis et perspectives : le RSL peut-il changer la donne ?
Le Really Simple Licensing arrive à un moment charnière où les tensions entre créateurs et IA atteignent leur paroxysme. Pourtant, son succès n’est pas garanti. Trois défis majeurs se dressent devant lui : l’adoption par les IA, la complexité des paiements par inférence et le risque de fragmentation. À l’inverse, s’il parvient à s’imposer, le RSL pourrait redéfinir les règles du jeu pour l’économie numérique.
Obstacle n°1 : la conformité volontaire des IA
Le RSL repose sur un postulat fragile : les entreprises d’IA accepteront de jouer le jeu. Or, l’histoire récente montre le contraire :
- OpenAI a ignoré les robots.txt pour scraper des sites comme The New York Times, déclenchant un procès.
- Anthropic a continué à aspirer des données de Reddit après que la plateforme a modifié son robots.txt pour les bloquer.
- Midjourney a été accusé d’avoir scrapé des millions d’images sous copyright pour entraîner ses modèles.
Espérer que les IA respecteront le RSL sans obligation légale, c’est comme croire que les voleurs paieront leur amende sans police
ironise un développeur critique. Le RSL Collective répond que des actions en justice groupées seront lancées contre les récalcitrants, sur le modèle des poursuites de l’ASCAP contre les bars diffusant de la musique sans licence.
Obstacle n°2 : la traçabilité des inférences
Le modèle paiement par inférence (où une redevance est due à chaque utilisation du contenu dans une réponse générée) est séduisant sur le papier, mais complexe en pratique. Problèmes identifiés :
- Technique : comment prouver qu’une réponse de ChatGPT ou Gemini repose sur un article spécifique ? Les modèles mélangent des millions de sources.
- Économique : une redevance de 0,001 € par inférence peut sembler dérisoire, mais multipliée par des milliards de requêtes, elle devient prohibitive pour les IA.
- Juridique : qui est responsable du paiement ? L’entreprise qui déploie le modèle (ex : OpenAI) ou celle qui l’utilise (ex : une startup intégrant GPT-4) ?
Les créateurs du RSL estiment que les outils existent déjà. Google, par exemple, trace les sources utilisées dans AI Overview pour attribuer des liens. Mais étendre ce système à tous les usages reste un défi colossal.
Obstacle n°3 : le risque de fragmentation des licences
Si chaque éditeur définit ses propres règles, les entreprises d’IA devront gérer un patchwork de licences, avec :
- Des coûts administratifs explosifs (négocier des milliers de contrats).
- Des incohérences juridiques (certains pays pourraient invalider certaines clauses).
- Un avantage concurrentiel pour les géants (seuls Google ou Microsoft ont les ressources pour gérer cette complexité).
Pour éviter ce scénario, le RSL Collective travaille sur des licences types, similaires aux contrats standardisés de l’industrie musicale. L’objectif est de limiter le nombre de variantes à une dizaine, couvrant 90 % des cas d’usage.
Scénarios pour 2026 : entre succès et échec
Trois scénarios sont envisageables d’ici un an :
| Scénario | Probabilité | Conséquences |
|---|---|---|
| Succès partiel (40 % des éditeurs + 2 géants de l’IA) | 50 % |
|
| Échec (< 20 % d’adoption) | 30 % |
|
| Succès total (> 70 % des éditeurs + 5 géants de l’IA) | 20 % |
|
Le scénario le plus probable reste un succès partiel, avec une adoption progressive par les éditeurs et une résistance initiale des IA, suivie de compromis sous pression juridique. Sundar Pichai (Google) a d’ailleurs déclaré que les entreprises d’IA devront tôt ou tard accepter un système comme le RSL, faute de mieux.
Impact potentiel : vers une nouvelle économie du contenu ?
Si le RSL s’impose, ses conséquences pourraient être profondes :
- Pour les éditeurs : une source de revenus complémentaire (estimée entre 10 % et 30 % de leurs revenus publicitaires actuels). Les petits acteurs, aujourd’hui exclus des négociations avec les IA, en seraient les premiers bénéficiaires.
- Pour les IA : un coût accru, mais aussi une sécurité juridique et un accès garanti à des données de qualité. Les modèles ouverts (comme ceux de Mistral AI) pourraient être avantagés, car moins dépendants du scraping massif.
- Pour les utilisateurs : une meilleure transparence sur les sources utilisées par les IA et potentiellement des réponses plus fiables (moins de hallucinations, grâce à des données licenciées et vérifiées).
- Pour les régulateurs : un cadre auto-régulé qui pourrait inspirer des lois futures, comme le Digital Services Act européen a encadré les plateformes numériques.
À plus long terme, le RSL pourrait servir de modèle pour d’autres secteurs où la data est une ressource clé, comme la recherche médicale ou les données géolocalisées.
Nous sommes en train de construire l’infrastructure qui définira qui possède quoi à l’ère de l’IA,
résume Eckart Walther, cofondateur du RSL.
















