Et si Twitter slashait la désinformation ?

Selon le Baromètre de la confiance politique, publié en février 2025 par Sciences Po et OpinionWay, 45 % des Français se disent méfiants à l’égard de leur état d’esprit politique actuel (source). Un chiffre préoccupant, d’autant plus que la confiance reste un pilier fondamental de nos sociétés modernes : elle est au cœur du fonctionnement de la monnaie, de la justice, ou encore des institutions démocratiques.

Cette crise de confiance s’exprime aussi fortement sur les réseaux sociaux. L’exemple le plus frappant est sans doute le rachat de Twitter par Elon Musk, qui a entraîné de profonds bouleversements dans le fonctionnement de la plateforme. La décision la plus controversée a été celle de mettre fin à la régulation telle qu’elle existait auparavant, ouvrant ainsi la voie à un nouveau modèle de gouvernance des contenus.

Ce changement de paradigme n’est pas resté isolé. Il a inspiré d’autres géants du numérique, comme Meta (maison mère de Facebook, Instagram, etc.), à repenser leurs propres mécanismes de modération. C’est dans ce contexte qu’est née l’initiative des Community Notes, une tentative de régulation participative visant à évaluer les publications entre utilisateurs, à la manière d’un jugement collectif.

1. Le fonctionnement de l’algorithme des Community Notes de X

Le système des Community Notes, développé par la plateforme X (anciennement Twitter), constitue une innovation majeure dans le domaine de la modération communautaire. Son objectif est de faire émerger des annotations jugées utiles par des utilisateurs aux opinions diverses, afin d’apporter du contexte aux publications susceptibles de prêter à confusion (source). Ce modèle repose sur une combinaison d’évaluations humaines et d’algorithmes inspirés des systèmes de recommandation, notamment la matrix factorization.

Un algorithme fondé sur l’utilité perçue

Chaque note rédigée par un contributeur est soumise à l’évaluation d’autres participants, qui peuvent la juger « utile », « quelque peu utile » ou « inutile », correspondant respectivement à des scores numériques de 1.0, 0.5 et 0.0. Ces évaluations alimentent une matrice d’interactions, que l’algorithme utilise pour prédire la pertinence des notes selon les profils des évaluateurs.

L’équation principale du modèle est la suivante :

un = μ + iu + in + fu ⋅ fn

où :

  • un est la note prédite entre l’utilisateur u et la note n,
  • μ est une constante globale,
  • iu et in sont les biais de l’utilisateur et de la note,
  • fu et fn sont leurs vecteurs de facteurs latents.

C’est la valeur in — appelée intercepte de la note — qui détermine son utilité perçue globalement. Une note est classée :

  • Helpful (utile) si in > 0.40
  • Not Helpful (inutile) si in < -0.05 - 0.8 × |fn|
  • Needs More Ratings si aucun critère n’est rempli

Une validation inter-perspectives

Pour qu’une note soit validée comme Helpful, elle doit être jugée utile par au moins cinq utilisateurs de perspectives opposées (selon leurs facteurs latents). Cette contrainte garantit une forme de validation croisée entre points de vue divergents, réduisant ainsi les effets de chambre d’écho ou de manipulation de groupe.

Fiabilité des contributeurs

Les utilisateurs ne participent pas tous avec le même poids : leurs contributions sont pondérées par des scores de fiabilité, répartis en deux catégories.

Score d’auteur

Ce score est basé sur :

  • Un ratio pondéré entre le pourcentage de notes devenues Helpful et Not Helpful :
Score = P(Helpful) - 5 × P(Not Helpful)
  • Une moyenne des scores in des notes précédentes.
    Pour être éligible, un auteur doit avoir un score supérieur à 0 et une moyenne in > 0.05.

Score d’évaluateur

Ce score évalue la capacité d’un utilisateur à prédire correctement le verdict final d’une note. Il est défini ainsi :

Rater Helpfulness = (s - 10 × h) / t
  • s : nombre de votes conformes au statut final
  • h : nombre de votes « Helpful » attribués à des notes abusives
  • t : total des votes valides

Un évaluateur doit avoir un score ≥ 0.66 pour que ses votes soient pris en compte dans le scoring final.

Mécanismes anti-manipulation

Le système prévoit également des protections contre les abus :

  • Si une note reçoit de nombreux signalements négatifs émanant d’un groupe idéologiquement homogène, elle devra franchir un seuil plus élevé pour être validée.
  • Un modèle externe détecte les cas de harcèlement ou d’abus. Les auteurs soutenant une note jugée abusive peuvent être pénalisés.
  • Un mécanisme de stabilisation fige le statut d’une note deux semaines après sa publication, pour éviter les fluctuations liées à de nouvelles évaluations marginales.

Ce système hybride et algorithmique incarne une nouvelle approche de la modération : à la fois participative, scientifique et transparente, il cherche à équilibrer pluralité d’opinions, qualité de l’information, et lutte contre la désinformation à grande échelle.

2. La blockchain comme alternative trustless : le cas du Proof of Stake

Comme nous l’avons vu dans la partie précédente, le système des Community Notes, bien qu’élaboré et transparent dans ses objectifs, reste fondamentalement fermé. Toute la logique de validation tourne autour de son propre algorithme, de sa communauté restreinte de contributeurs, et d’un score calculé à partir de modèles internes. Or, en parcourant le code source du projet, il semble clair qu’il n’existe aucun lien direct entre les notes et les conséquences concrètes sur la plateforme (visibilité réduite d’un tweet, modération automatique, etc.). Le système reste donc circulaire, sans articulation forte avec le reste de l’infrastructure sociale de X.

Pour compenser cette absence de lien « réel » avec le monde extérieur, un mécanisme algorithmique complexe a été mis en place pour tenter de simuler une forme de vérité collective — mais comme toute simulation, il présente des limites, et des échecs sont possibles (biais structurels, effets de groupe, manipulation douce…).

Face à ce dilemme — où placer la confiance ? et surtout, est-elle réellement nécessaire ? — un autre modèle, radicalement différent, a vu le jour : la blockchain, et plus précisément ses systèmes de consensus trustless, qui permettent à des millions d’individus anonymes d’interagir sans jamais avoir à se faire confiance.

Le consensus sans confiance : une logique inversée

Contrairement à Community Notes, qui repose sur la réputation, les évaluations croisées et des scores de fiabilité, les blockchains publiques s’appuient sur un système anti-confiance (source). Autrement dit, elles partent du principe que personne n’est fiable par défaut, et que la sécurité du système doit émerger malgré cela. C’est l’essence même d’un système trustless.

Parmi les mécanismes de consensus utilisés en blockchain, les deux plus connus sont : le Proof of Work (PoW) et le Proof of Stake (PoS). Concentrerons sur le PoS, un modèle particulièrement intéressant pour penser la validation collective dans un contexte décentralisé. Dans un réseau en Proof of Stake, ce ne sont plus des machines qui « minent », mais des individus (ou nœuds) qui mettent en jeu leurs jetons (crypto-monnaies) pour participer à la validation des blocs de données. Ainsi, les garanties de sécurité ne viennent pas de la confiance dans l’individu, mais du fait que triche est sanctionnée et que le système est distribué. C’est donc un mécanisme d’incitation inverse : on ne présume pas la bonne foi des participants, on rend la triche coûteuse.

Une leçon pour les systèmes sociaux ?

La comparaison avec Community Notes soulève une question de fond : pourquoi essayons-nous encore de reconstruire des modèles centralisés (avec scores, réputation, vérification croisée, etc.) alors que des architectures décentralisées et anti-confiance ont prouvé leur efficacité à très grande échelle ?

3. Et si on réinventait la modération sociale avec le slashing ?

Finalement, face à la montée de la post-vérité, il devient crucial de sortir des systèmes uniquement basés sur la correction « après coup », sans conséquences réelles pour les auteurs des contenus trompeurs. Aujourd’hui, lorsqu’un tweet est annoté par une Community Note, il reste visible, partageable, et son auteur n’est que très rarement inquiété, même lorsque la publication a eu un large impact. Or, dans d’autres systèmes — comme la blockchain — on ne se contente pas de signaler une erreur : on la sanctionne économiquement. C’est tout l’intérêt du mécanisme de slashing dans les protocoles Proof of Stake : lorsqu’un acteur agit contre l’intérêt du réseau, une partie de sa mise est supprimée. C’est une manière directe de faire payer la triche, sans avoir besoin de faire confiance à un modérateur humain. Un modèle de slashing social : punir les comptes et redistribuer la valeur.

Ce mécanisme pourrait prendre plusieurs formes. Imaginons un système où, lorsqu’un tweet est jugé problématique par la communauté (via une Community Note validée), plusieurs conséquences automatiques sont déclenchées :

  • Shadow ban progressif : si un compte accumule des publications corrigées par la communauté, sa visibilité peut être réduite automatiquement, jusqu’à une suspension partielle de ses fonctions (commentaires, posts, etc.). Cela introduit un vrai risque réputationnel et algorithmique, comme pour un validateur blockchain fautif.
  • Slashing économique : si le tweet était monétisé (revenus publicitaires, vues sponsorisées, etc.), alors sa rémunération serait retenue ou annulée, et redistribuée aux contributeurs de la Community Note qui a permis de rétablir la vérité. Ainsi, la valeur générée par un contenu faux ou trompeur serait reversée à ceux qui ont rétabli le contexte, créant une incitation forte à participer à la correction collective.

De la viralité à la responsabilité, ce modèle inverserait la logique actuelle : aujourd’hui, la viralité précède la vérité, et la correction arrive souvent trop tard. En intégrant un système de sanctions et de redistribution, la plateforme introduirait une économie de la vérification, où chaque publication engage l’auteur de manière plus directe. En reprenant les principes du slashing, mais appliqués au champ social et informationnel, on ouvrirait la voie à une modération post-virale, dissuasive et redistributive. Non pas pour censurer, mais pour rendre coûteuse la désinformation, et rentable la contribution à une information collective plus saine.

Amaury Denny

Sources

LEAVE A COMMENT

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.