Ce qui est en question : le « datamining » et le ciblage des allocataires les plus modestes

Les nouvelles technologies et les systèmes d’information plus performants en matière de stockage et de traitement permettent aujourd’hui la récolte, le croisement et l’analyse d’un grand nombre de données. Ces méthodes sont désignées par beaucoup de termes différents, souvent des anglicismes : big data, machine learning, data science, science des données, algorithmes, datamining… À la CNAF, c’est ce dernier terme qui a été retenu. Dans l’absolu, le datamining consiste à explorer un grand nombre de données pour dégager des tendances et des modèles. Concrètement, l’ambition est d’analyser des situations passées pour essayer de prédire le résultat de situations futures.

Parmi les divers documents officiels des CAF, citons la définition du datamining par la CAF de l’Ain : « Le datamining est une démarche scientifique d’étude statistique. Elle vise à déterminer des probabilités de risque pour un individu, un dossier, un traitement. Elle s’appuie sur de nombreuses données d’informations quantitatives, présentes dans le système d’information. » (Dossier « La prévention et la lutte contre la fraude » – Juillet 2022)

Historiquement, les CAF ont été pionnières dans l’utilisation de cette pratique au sein de l’administration, parlant dès 2009 de « modélisation des risques de fraudes et d’indus ». L’objectif selon la CNAF : « l’amélioration du ciblage des comptes allocataires à contrôler », comme indiqué dans une délibération de la CNIL du 25 mars 2010 autorisant la mise en oeuvre d’un traitement de données à caractère personnel. Depuis 2011, cette modélisation est généralisée. 

Les CAF s’appuient notamment sur un algorithme permettant de cibler les contrôles via un score de risque attribué aux allocataires. Cet outil et ses enjeux ont été décrits par l’association La Quadrature du Net dans son article « CAF : le numérique au service de l’exclusion et du harcèlement des plus précaires ». Il a également fait l’objet d’une enquête de la Cellule investigation de Radio France pour l’émission Secrets d’Info du samedi 10 décembre 2022.

Pour développer cet algorithme, la CNAF s’est basée sur les dossiers des allocataires qui, dans le passé, ont été identifiés comme frauduleux ou ayant perçu trop d’argent (des « indus »). Ces dossiers comportent des informations (ou « données ») sur les allocataires, comme leur situation de famille, leur âge, leur activité professionnelle, leurs ressources, leurs contacts avec la CAF, etc. Les services de la CNAF, appuyés par un prestataire privé, ont utilisé ces dossiers pour identifier quels paramètres faisaient augmenter le risque qu’un dossier soit frauduleux ou entraîne un indu. Ces paramètres sont utilisés pour attribuer un score aux allocataires en analysant leurs données, et identifier les dossiers à contrôler en priorité.

Il est important de rappeler que les paramètres de cet algorithme sont gardés secrets par la CNAF, malgré de multiples demandes de communication.

À Changer de Cap, nous dénonçons l’utilisation de cet algorithme de notation qui, en pratique, amène à cibler et surcontrôler les allocataires précaires.

Ce que dit la CNAF

Dans la réponse écrite au collectif Changer de Cap, la CNAF affirme que son algorithme de score de risque (ce qu’elle nomme le « datamining », donc) :

  • A pour objectif le « juste droit en cas d’erreurs, dans un sens défavorable comme dans un sens favorable aux allocataires ».
  • Vise à assurer « une plus grande objectivité dans les contrôles ».
  • N’entraîne pas un ciblage délibéré des allocataires en situation de précarité : ces allocataires sont nécessairement plus contrôlés, non par discrimination, mais parce que ce leurs dossiers comportent le plus d’erreurs. 
  • Est moins utilisé que ne le pensent les associations, car il ne concerne qu’un nombre minoritaire de contrôles.
  • Est maîtrisé par des humains : les décisions de contrôler ou non un dossier sont toujours prises par des contrôleurs et contrôleuses.

La position du Groupe numérique du collectif Changer de Cap

Contrairement aux affirmations de la CNAF, l’utilisation d’algorithmes de notation n’est ni objective, ni une évidence. Nous contestons le fait que la CNAF se déresponsabilise et utilise le paravent des statistiques et de la technologie soi-disant neutres pour cacher les choix politiques et humains qui orientent ses politiques de contrôle et les outils numériques qui les accompagnent.

Les algorithmes de la CNAF sont optimisés pour les fraudes et les indus, pas pour le juste droit

L’algorithme de score de risque est le produit de choix humains. En premier lieu : l’objectif des contrôles. La CNAF affirme que les contrôles visent à assurer le juste droit. Or, les algorithmes ont été conçus pour identifier les risques de fraude et d’indus. L’amalgame problématique, dans l’outil, des dossiers frauduleux et des dossiers comportant des indus issus d’erreurs est déjà contestable.

Le fait que l’algorithme permette également d’identifier des rappels (c’est-à-dire quand un ou une allocataire n’a pas touché assez de droits) est une conséquence positive, mais ce n’est pas l’objectif premier de l’outil.

Si la CNAF avait voulu prioriser la détection de rappels, elle aurait utilisé des cas de rappels pour entraîner son algorithme. Or, elle a fait le choix d’utiliser des cas de fraudes et d’indus. Résultat : la modélisation sera forcément plus fiable pour ces derniers.

Ainsi, la CNAF a tort quand elle affirme que l’algorithme est utilisé pour le juste droit : la logique penche en réalité plus vers la détection d’indus que de rappels ! 

Cette logique peut être retrouvée dans les accords d’intéressement des CAF, qui contiennent des objectifs sur la « maîtrise des risques » et la lutte contre la fraude, mais nullement sur le juste droit tant évoqué [1] Nous n’y retrouvons en effet aucun objectif portant sur la lutte contre le non-recours, par exemple.

Les algorithmes ne sont pas plus objectifs que les humains, et peuvent être discriminatoires

La CNAF se voile la face en disant que « le datamining assure une plus grande objectivité dans les contrôles ».

En réalité, les contrôles sont certes plus harmonisés entre les différentes CAF et les différents contrôleurs, mais ils n’ont rien d’objectif : comme on l’a montré ci-dessus, ils résultent toujours de choix de politiques publiques, faits par des humains, qui se retrouvent ensuite dans des outils techniques.

Or, certains critères utilisés par la CNAF dans le passé se sont déjà avérés discriminatoires. En 2017, le Défenseur des Droits a sommé la CNAF de mettre fin au contrôle ciblé des populations nées hors de l’Union européenne (recommandation explicitement faite via une lettre circulaire interne).

Dès lors, l’opacité entretenue par la CNAF autour de ses algorithmes, en utilisant l’objectivité comme argument d’autorité, est d’autant plus problématique.

La CNAF choisit de contrôler plutôt que de prévenir, perpétuant les inégalités et surcontrôlant des personnes précaires

La CNAF se défend notamment de pratiquer un ciblage des allocataires en situation de précarité. Qualifiant cette critique de « non sens », elle affirme qu’il y a une évidence à davantage contrôler ces allocataires. En effet, d’après elle, ce sont eux qui perçoivent des prestations sous conditions de ressources (RSA, prime d’activité, APL, AAH…) et dont les dossiers comportent donc le plus d’erreurs, du fait des modalités de déclaration.

Pour la CNAF, c’est une évidence : il faut utiliser des algorithmes de score de risque, car il faut rectifier les erreurs. Citons son document :

« Pour l’essentiel, les erreurs déclaratives portent sur les revenus déclarés, et concernent donc à titre principal les prestations sous conditions de ressources, celles destinées aux plus pauvres, comme le RSA, la prime d’activité, ou les allocations logement, qui ont des fréquences de recalcul trimestrielles, contrairement aux autres prestations, où les calculs sont annuels. »

Le manque de prévention des erreurs renforce la précarité et perpétue les inégalités. Les risques d’indus plongent les allocataires dans une incertitude trop pesante quand chaque euro compte.

La CNAF impute la nécessité du contrôle (et des algorithmes de score de risque) à la présence d’erreurs, plus nombreuses pour certains types d’allocataires. Mais ce raisonnement laisse à penser que la présence d’erreurs et les inégalités qu’elle entraîne sont une fatalité. Or, ce n’est pas le cas.

Pourquoi se concentrer sur des techniques qui ne font que corriger ces erreurs, comme l’algorithme de notation, au lieu de les empêcher d’arriver ? En d’autres termes, pourquoi choisir de perpétuer des inégalités existantes plutôt que de les combattre ?

Les erreurs ne viennent pas seulement des allocataires

Par ailleurs, l’explication de la CNAF pourrait laisser penser que les erreurs sont exclusivement le fait des allocataires. Or ce n’est pas le cas, loin de là. Dès 2013, un rapport de l’IGF (Inspection générale des finances) et de l’IGAS (Inspection générale des affaires sociales) sur « Les indus de la branche famille » pointait différentes sources d’erreur, dont 10 à 20 % relevant des CAF et 15 à 20 % de la législation (pages 8-9). En résumé, les allocataires ne sont responsables des erreurs que 50 à 60 % du temps.

Un exemple (postérieur au rapport) : la réforme des aides au logement et du système informatique de calcul de ces aides, en 2021. La réforme a créé des difficultés, voire des anomalies de droits, à l’intérieur des CAF, comme décrites notamment par le média Basta ! et Le Monde. Une mise en place qualifiée de « crash industriel » si l’on en croit des agents de la CAF avec qui nous avons discuté : le logiciel de calcul est lui-même source de multiples erreurs, et ne fournit pas les mêmes résultats que l’outil de simulation proposé aux allocataires.

Cet exemple des aides aux logements, perçues par 6,5 millions de foyers, est une illustration des « bugs informatiques » qui se produisent au sein même des CAF, et sont source d’erreurs. Le ministère du Logement a reconnu ces « bugs », sur une réforme qui a tout de même permis à l’État d’économiser 1,2 milliard d’euros (soit 9 % des aides versées).

Rappelons que, d’après une étude des ministères sociaux en 2021, 18 % des Français renoncent à avoir recours à leurs droits sociaux par peur des conséquences négatives, dont les indu. 

Ces constats amènent deux questions :

1. Quelles sont les mesures concrètement mises en œuvre pour prévenir les erreurs dans les déclarations et le calcul des droits des allocataires ?

2. Sont-elles aussi importantes que les mesures prises pour les corriger a posteriori, comme l’algorithme de notation ?

Ces interrogations pointent vers le contrôle indépendant qui devrait être exercé en amont sur la conformité des outils numériques, y compris avec la réglementation en vigueur, comme sur le respect des règles statistiques.

Des erreurs provenant des allocataires pourraient être évitées grâce à une meilleure information. Citons par exemple la nécessité d’un rappel clair des ressources à déclarer, pour le RSA, l’APL ou la prime d’activité, au moment où l’allocataire fait sa déclaration.

La législation elle-même doit être simplifiée, justement pour éviter les différences et disparités entre ressources entrant dans le calcul des différentes prestations. Cette simplification doit être pensée pour véritablement bénéficier aux allocataires.

Le fait que la CNAF choisisse d’investir davantage pour corriger les erreurs que pour les prévenir nous interpelle.

Les indus représentent généralement des sommes déjà dépensées, pour vivre, par des allocataires en situation de précarité.

Ces mêmes allocataires ne devraient pas être redevables des « dettes » provenant des erreurs ou des manquements des CAF, comme cela se passe actuellement. Osons croire que la CNAF prendra des décisions à ce sujet.

Pourquoi utiliser des algorithmes de score de risque, et non d’autres techniques ?

Comme l’a rappelé le Défenseur des Droits en 2017, une politique de contrôles ciblés est un choix, qui questionne également le principe d’égalité d’accès aux services publics. À l’époque, le Défenseur enjoignait à la DNLF (Délégation nationale à la lutte contre la fraude) de réfléchir à la mise en place de contrôles aléatoires.

La CNAF a-t-elle mené de telles réflexions ?

La complexité du système de droits sociaux ne justifie pas la surveillance généralisée des personnes en situation de précarité. En effet, l’utilisation d’algorithmes de score de risque implique de récolter un nombre toujours plus important de données sur les allocataires. Des techniques moins invasives pour la vie privée ont-elles été explorées par la CNAF ?

L’utilisation d’un algorithme de notation a des conséquences importantes sur les allocataires et sur les agents publics

L’algorithme de notation concerne les contrôles les plus invasifs

Dans sa réponse, la CNAF minimise l’utilisation de l’algorithme de scoring à deux égards : en expliquant qu’il ne concerne qu’un nombre limité de contrôles (6 % des 4 millions de contrôles sur place et sur pièces, selon elle), et en soulignant que les décisions finales sont prises par des humains.

Pourtant, le dossier de presse « La politique de prévention et de lutte contre la fraude des CAF en 2020 » produit par la CNAF et daté du 17 juin 2021 explique noir sur blanc :

« Aujourd’hui, le croisement de données permet de faciliter le ciblage des dossiers ayant un plus fort risque d’erreur : 75 % des contrôles réalisés sur place sont sélectionnés par ce dispositif qui s’appuie sur le croisement de plusieurs centaines de données statistiques. Ce traitement informatique permet de calculer la probabilité qu’une erreur se produise. Généralisé à toutes les CAF, ce dispositif permet ainsi de repérer plus précisément les dossiers à risques. Ceux-ci sont ensuite examinés par les contrôleurs qui en assurent l’analyse. Ainsi, si la détection est fortement automatisée, le contrôle est toujours humain. »

Les contrôles sur place, où le contrôleur/la contrôleuse s’entretient avec l’allocataire à son domicile sont minoritaires par rapport aux contrôles sur pièces (où l’allocataire envoie des pièces à la CNAF, sans entretien). Cependant, ce sont les plus intrusifs, et ce sont ceux qui ciblent les situations les plus complexes, et donc souvent les allocataires les plus précaires.

Notons par ailleurs que le numérique n’est pas absent du reste des contrôles : la majorité des contrôles sont des « contrôles automatisés », réalisés grâce à des croisements de données automatiques.Les rapports de la CNAF sur la « lutte contre la fraude » citent des chiffres : pour 2021, 31,6 millions de contrôles automatisés, 4 millions de contrôles sur pièces, 106 000 contrôles sur place.

Les contrôleuses et contrôleurs restent-ils en maîtrise de la décision ?

L’argument du contrôle humain, souvent utilisé dans le cadre des outils d’aide à la décision, est fragile : certes, les contrôleurs assurent l’analyse des dossiers scorés. Mais, l’attribution d’un score influence les contrôleurs et contrôleuses. Interviewé par France Inter, le sociologue Vincent Dubois, qui a enquêté sur les politiques de contrôles des CAF pendant plusieurs années, rappelle : « le fait qu’un dossier soit fortement “scoré”, comme on dit dans l’institution, place les contrôleurs dans la quasi-obligation de trouver quelque chose qui cloche ».

L’opacité que nous reprochons à la CNAF s’étend à ses propres agents : les contrôleurs et contrôleuses connaissent-ils les critères utilisés pour attribuer des scores aux dossiers ?

La CNAF doit reconnaître et documenter ses choix et leurs conséquences

Ceux qui suivent le sujet le savent, La CNAF a déjà avancé bon nombre de ces arguments par le passé, et la Quadrature du Net en faisait déjà une analyse pointue et implacable en octobre 2022. Pourtant, la CNAF continue de rester sur le même argumentaire : ce n’est pas acceptable.

Si elle est aussi vertueuse qu’elle le prétend, elle devrait être transparente sur les choix derrière ses outils numériques et documenter publiquement les algorithmes de score de risque qu’elle utilise, y compris leurs marges d’erreur, les paramètres utilisés, la fréquence des mises à jour des modèles, et les évaluations de l’efficacité et des conséquences du système. Elle devrait démontrer que ses outils ne contreviennent pas aux principes de non-discrimination et d’égalité de traitement. Elle devrait finalement et justifier son choix des scores de risques plutôt que d’autres méthodes. Nous ne le rappellerons jamais assez : il ne suffit pas qu’un algorithme soit statistiquement correct pour être juste et légitime.

Des algorithmes similaires en Europe (Espagne, Pays-Bas, Autriche) ont récemment été épinglés, car ils utilisent des paramètres discriminatoires, ce qui invite à la plus grande vigilance dans le contexte français.

La transparence est la première étape pour permettre un débat démocratique autour des politiques de la CNAF et pour assurer un contrôle de ses pratiques.


[1] Les caisses ont des objectifs chiffrés de « contrôles tirés du datamining sur pièces » (233 368 dans l’accord du 17 juin 2019), de « volumes financiers des fraudes détectées » (380 millions d’euros dans l’accord 2022), et de « taux de recouvrement réels des indus non frauduleux » (86,6 % en 2019 comme en 2022).


algorithmes CAF ciblage Droits sociaux dématérialisation Dérives numérique services publics Témoignage