Selon un récent rapport publié dans Nature, l'utilisation de l'IA générative dans la rédaction académique a connu une croissance explosive. Les recherches montrent que 10% des résumés dans PubMed, la plus grande base de données biomédicale, sont soupçonnés d'impliquer une rédaction par IA, ce qui équivaut à environ 150 000 articles par an.
Une étude de l'Université des sciences appliquées de Berlin a révélé que les outils de détection de contenu généré par IA grand public ont une précision moyenne de seulement 50%, et identifient souvent à tort du contenu écrit par des humains comme étant généré par IA. De nombreux articles générés par IA peuvent facilement échapper à la détection grâce à la paraphrase et à la substitution de synonymes. De plus, l'utilisation d'outils d'IA par les locuteurs natifs anglais est plus difficile à détecter.
Bien que les outils d'IA aient été largement utilisés dans le milieu universitaire auparavant, l'utilisation de l'IA générative pour produire directement des articles ou faire du ghostwriting reste controversée. Les outils d'IA facilitent le plagiat et peuvent conduire à des violations de droits d'auteur.
La rédaction assistée par IA n'est pas sans mérite. De nombreux chercheurs ont évité les difficultés de publication d'articles dans des langues peu familières en utilisant l'IA générative, leur permettant de se concentrer sur la recherche elle-même. De nombreuses revues autorisent désormais l'utilisation d'outils d'IA générative mais exigent que les auteurs divulguent les détails d'utilisation dans l'article.
L'étude de l'Université de Tübingen a analysé 14 millions de résumés dans PubMed de 2010 à 2024. Ils ont constaté une augmentation anormale de l'utilisation de certains mots stylistiques modificateurs après l'émergence d'outils d'IA générative comme ChatGPT. La fréquence de ces mots a été utilisée pour estimer la proportion de résumés rédigés par IA.
Les chercheurs ont également constaté des différences dans l'utilisation des outils d'IA selon les pays. Leurs données ont montré que les articles provenant de pays comme la Chine et la Corée du Sud utilisaient plus fréquemment des outils d'écriture IA que ceux des pays anglophones. Cependant, l'utilisation par les auteurs des pays anglophones peut être plus difficile à détecter.
L'utilisation de l'IA générative dans la rédaction académique a soulevé deux problèmes majeurs. Premièrement, le plagiat est devenu plus facile, car les plagiaires peuvent utiliser l'IA pour paraphraser les recherches d'autrui dans le style des revues académiques, rendant la détection difficile. Deuxièmement, les modèles d'IA peuvent produire du contenu protégé par des droits d'auteur sans attribution, comme on l'a vu dans le procès intenté par The New York Times contre OpenAI.
Pour faire face à la prolifération de l'utilisation des outils d'IA, de nombreuses entreprises ont lancé des outils de détection de contenu généré par IA. Cependant, ces outils ont largement échoué dans le "jeu du chat et de la souris" avec l'IA générative. Une étude de l'Université des sciences appliquées de Berlin a révélé que seuls 5 des 14 outils de détection d'IA académiques couramment utilisés atteignaient une précision supérieure à 70%, avec une précision moyenne de seulement 50-60%.
Ces outils de détection fonctionnent encore moins bien sur le contenu généré par IA qui a été édité manuellement ou paraphrasé par machine. Des opérations simples comme le remplacement de synonymes et la restructuration de phrases peuvent réduire la précision des outils de détection à moins de 50%. L'étude a conclu que la précision globale de détection de ces outils n'est que d'environ 50%.
Les outils de détection montrent une grande précision dans l'identification des articles rédigés par des humains. Cependant, si un auteur écrit un article original dans sa langue maternelle puis utilise un logiciel de traduction pour le traduire dans une autre langue, il peut être identifié à tort comme généré par IA. Cela pourrait gravement nuire à la réputation académique des chercheurs et des étudiants.
Cependant, les outils d'IA générative ont effectivement apporté de la commodité à certains chercheurs. Hend Al-Khalifa, chercheuse en informatique à l'Université King Saud, a partagé qu'avant les outils d'IA générative, de nombreux collègues peu compétents en anglais rencontraient des obstacles importants dans la rédaction d'articles. Maintenant, ces chercheurs peuvent se concentrer sur la recherche elle-même sans passer trop de temps à écrire.
La frontière entre l'écriture assistée par IA et la faute académique est difficile à définir. Soheil Feizi, informaticien à l'Université du Maryland, estime que l'utilisation de l'IA générative pour paraphraser le contenu d'articles existants est clairement du plagiat. Cependant, l'utilisation d'outils d'IA pour aider à exprimer des idées ne devrait pas être punie. Les chercheurs peuvent utiliser des invites détaillées pour générer du texte ou utiliser des outils d'IA pour éditer des brouillons, à condition qu'ils divulguent activement l'utilisation d'outils d'IA.
De nombreuses revues ont réglementé l'utilisation des outils d'IA dans la rédaction académique sans les interdire complètement. Science stipule que l'IA ne peut pas être listée comme co-auteur, et les auteurs doivent divulguer les systèmes d'IA et les invites utilisés, et être responsables de l'exactitude du contenu et du plagiat potentiel. Nature exige que les chercheurs enregistrent l'utilisation d'outils d'IA générative dans la section "Méthodes de recherche". En octobre 2023, 87 des 100 meilleures revues classées avaient établi des directives pour l'utilisation d'outils d'IA générative.
Adopter une position antagoniste envers les outils d'IA générative dans la recherche académique pourrait ne pas résoudre le problème à la racine. Des chercheurs de l'Université des sciences appliquées de Berlin ont souligné que l'utilisation abusive de l'IA dans la rédaction académique est difficile à résoudre uniquement par la détection de l'IA. Ajuster le climat académique qui se concentre sur les articles et les résultats est essentiel pour résoudre ce problème.