Quand l’informatique détecte des expressions scientifiques douteuses
sciences et avenir
Guillaume Cabanac, chercheur français en informatique, a été récompensé par la prestigieuse revue Nature pour ses travaux sur la détection des contenus erronés dans des articles scientifiques. Il assure à Sciences et Avenir qu’il s’attaque là, avec ses collègues, à « une nouvelle forme de plagiat qui n’est pas encore détectée« .
La détection d’expressions scientifiques erronées est réalisée à l’aide de l’informatique.
La célèbre et prestigieuse revue scientifique Nature a pour habitude de publier une liste de 10 scientifiques qui ont marqué la science durant l’année. Pour 2021, un Français, Guillaume Cabanac, compte parmi les lauréats. Chercheur en informatique à l’Université de Toulouse (France), il s’emploie à détecter le contenu douteux de nombreux articles scientifiques. Afin de mieux saisir sa démarche, Sciences et Avenir l’a interrogé.
Sciences et Avenir : À quoi renvoient les termes « tortured phrases » que vos collègues chercheurs et vous employez ?
Guillaume Cabanac : Quand on est chercheur, on lit des articles pour s’informer, on rédige des articles pour communiquer de nouvelles connaissances. Avec mes collègues scientifiques, nous nous sommes rendus compte que dans certains articles validés par la communauté scientifique et publiés par les plus grandes maisons d’édition, on trouvait des expressions incongrues, inattendues voire erronées, c’est ce qu’on a appelé des « expressions torturées ». Au lieu de voir écrit « intelligence artificielle » dans un article, il était marqué « conscience contrefaite ». Ainsi dans l’article, on pourra trouver marqué : « la conscience contrefaite permet au véhicule de se déplacer dans la ville« . Au lieu de « cancer du sein », il pourrait y avoir écrit « péril de la poitrine ». Ça ressemble plus à une forme poétique, ça peut faire sourire mais lorsqu’on est chercheur et qu’on travaille sur un domaine particulier, on se doit d’utiliser les termes qui sont établis par la profession. Si une personne travaille sur le « cancer du sein », elle ne travaille pas sur le « péril de la poitrine », ça n’a pas de sens.
En 2005, des chercheurs du M.I.T (Massachusetts Institute of Technology) ont créé un logiciel appelé SCIgen (scientific generator) qui visait à produire à partir de rien, un texte qui ressemblait à de la science, pour plaisanter. Ils avaient utilisé ce logiciel pour créer de faux articles qu’ils avaient ensuite envoyé à des conférences ou des revues qu’ils jugeaient « prédatrices » (des revues employant des moyens frauduleux, ne permettant pas une relecture d’une étude par les pairs correcte, ndlr). Les chercheurs voulaient voir si ces entreprises allaient utiliser ces faux papiers dans leurs productions et ce fut le cas. C’est en fait de l’escroquerie.
En pratique, comment procédez-vous pour repérer ces expressions scientifiques bizarres présentes dans de nombreux articles académiques ?
Ces expressions bizarres sont présentes dans des centaines d’articles oui, et dans les meilleures maisons d’éditions. Pour identifier ces expressions erronées, on utilise un mécanisme par boule de neige. En quoi ça consiste ? Nous-mêmes scientifiques, nous lisons des articles et nous trouvons des cas surprenants, bizarres. Nous les notons et ensuite nous les rajoutons dans notre liste. On vérifie si l’expression, dans tous les champs scientifiques, n’existe pas légitimement. On fait ensuite des requêtes qu’on adresse à Dimension, un moteur de recherche de la littérature scientifique.
Grâce à un logiciel (Problematic Paper Screener) que j’ai créé, chaque fois qu’on rajoute une « expression torturée » à notre requête, nous trouvons davantage de documents qui contiennent des non-sens. Tous les soirs dans mon laboratoire, j’exécute donc des requêtes avec mon logiciel pour identifier des articles qui contiennent des non-sens et le matin quand je me réveille, je regarde ce qui sort, je les lis et les évalues. Est-ce que c’est une utilisation malheureuse d’une « phrase torturée » ou est-ce l’équivalent d’une fraude ? Puisqu’il y a des milliers d’articles et qu’une analyse prend 20 minutes, d’autres scientifiques nous aident et publient les résultats sur PubPeer, un site d’évaluation post-publication.
A terme, quel(s) apport(s) espérez-vous grâce à ces recherches ?
Chaque article qui comporte des « phrases torturées » reflète une méconduite scientifique, une mauvaise pratique de la part des auteurs. La plupart du temps, ces auteurs sont allés copier le résumé d’articles qu’ils trouvaient intéressants, ils l’ont ensuite placé dans un logiciel qui change les mots par des synonymes et ils ont collé ça en prétendant qu’ils en sont les auteurs. C’est une nouvelle forme de plagiat qui n’est pas encore détectée par les logiciels anti-plagiat actuels. Je vois cela comme de la pollution.
La littérature scientifique normalement, diffuse des faits uniquement avérés, de l’information fiable. L’article scientifique c’est ça. Il faut pouvoir se fonder sur un article pour faire avancer la recherche. La maison d’édition américaine Springer avait créé en 2019 un ouvrage complet en utilisant une intelligence artificielle. Donc imaginez que si les sources utilisées ne sont pas fiables, le résultat ne le sera pas non plus.
Pour le Covid-19 par exemple, il y a eu une avalanche de résultats scientifiques et les médecins qui étaient à l’hôpital n’avaient pas le temps d’analyser les milliers de résultats qui tombaient tous les jours. Des synthèses leur étaient donc fournies, supervisées par des épidémiologistes aidés par un logiciel. Mais si on s’appuie sur des sources non fiables, la synthèse peut faire plus de mal que de bien… Notre travail a déjà permis de retirer plus de 800 publications et ça c’est inédit !