Code de vérification : Le nouveau champ de bataille entre l'IA et l'humain

Le fonctionnement des CAPTCHA

Depuis longtemps, les sites web et les applications mobiles sont victimes d'attaques massives de robots.

Ces robots malveillants sont programmés pour consommer automatiquement d'importantes ressources de calcul, publier du spam, collecter des données de sites web, et même s'inscrire et effectuer des vérifications d'utilisateurs.

En 2022, près de la moitié (47,4%) de tout le trafic Internet provenait de robots, soit une augmentation de 5,1% par rapport à l'année précédente. La proportion de trafic humain (52,6%) a atteint son niveau le plus bas en huit ans.

Dans ce contexte, le CAPTCHA (acronyme de "Completely Automated Public Turing test to tell Computers and Humans Apart") est né, c'est ce que nous connaissons aujourd'hui sous le nom de code de vérification.

En tant qu'informaticien, Tam Nguyen considère que les CAPTCHA sont une barrière efficace pour empêcher les attaques automatisées, renforcer la sécurité en ligne et améliorer l'expérience utilisateur, du moins à court terme.

Les CAPTCHA sont conçus comme des questions ou des défis faciles à répondre pour les humains, mais difficiles pour les robots informatiques.

Ils peuvent être classés en quatre types : basés sur le texte, basés sur l'image, basés sur l'audio et basés sur le comportement.

Basés sur le texte

Les CAPTCHA basés sur le texte sont populaires depuis les débuts d'Internet.

Ce type de CAPTCHA demande aux utilisateurs de lire une image de texte déformée et complexe, et de saisir la réponse dans un champ de texte.

Une variante des CAPTCHA basés sur le texte consiste à demander aux utilisateurs de résoudre des problèmes mathématiques simples, comme "18+5" ou "23-7".

Cependant, avec la popularisation de l'intelligence artificielle d'apprentissage profond, les algorithmes avancés de reconnaissance optique de caractères ont récemment résolu ce problème.

Ironiquement, lorsque le texte est ajusté pour être plus déformé et plus complexe, les vrais humains ne peuvent pas fournir la bonne réponse.

Wired a publié un article intitulé "J'ai échoué deux fois au test CAPTCHA cette semaine, suis-je toujours humain ?"

Basés sur l'audio

Les CAPTCHA audio jouent un court clip audio contenant une série de chiffres ou de lettres prononcés par une voix humaine ou synthétique, que l'utilisateur doit saisir dans un champ de texte fourni après l'avoir écouté.

L'entrée est vérifiée par rapport à la réponse correcte pour déterminer si l'utilisateur est humain.

Comme les CAPTCHA basés sur le texte, les CAPTCHA audio peuvent être difficiles à déchiffrer pour les humains en raison du bruit de fond, de la mauvaise qualité audio, de la distorsion sévère et des accents non familiers.

Basés sur l'image

Les CAPTCHA basés sur l'image ont été introduits pour augmenter le défi pour les robots.

Les utilisateurs doivent identifier des objets spécifiques dans les images, par exemple, sélectionner tous les blocs d'images contenant des feux de circulation.

Cette tâche exploite la perception visuelle humaine, qui reste supérieure à celle de la plupart des robots basés sur la vision par ordinateur.

Cependant, ce type de CAPTCHA peut également être déroutant dans de nombreuses situations.

"Les CAPTCHA me font toujours douter de ces petits bords"

Basés sur le comportement

Les CAPTCHA basés sur le comportement analysent le comportement de l'utilisateur, comme les mouvements de la souris et les modèles de frappe.

Le CAPTCHA comportemental populaire reCAPTCHA demande aux utilisateurs de cocher la case "Je ne suis pas un robot".

Dans ce processus, reCAPTCHA analyse les mouvements et les clics de la souris pour distinguer les humains des robots. Le comportement humain est généralement plus variable et moins prévisible, tandis que celui des robots est généralement précis et cohérent.

IA vs. Humains

Dans la lutte apparemment sans fin entre l'intelligence artificielle et les humains, les CAPTCHA sont un autre champ de bataille.

À l'origine, l'idée des CAPTCHA basés sur l'image était d'aider à former l'IA à mieux effectuer la reconnaissance de texte lors de la numérisation de livres.

Cette innovation, inventée par Luis von Ahn (co-fondateur de Duolingo), présentait des mots mal numérisés comme CAPTCHA aux humains, et en les identifiant, nous avons enseigné à l'IA.

Aujourd'hui, l'IA est devenue de plus en plus avancée, capable d'utiliser des technologies modernes comme l'apprentissage profond et la vision par ordinateur pour résoudre les défis des CAPTCHA.

Par exemple, les algorithmes de reconnaissance optique de caractères s'améliorent constamment, rendant les CAPTCHA basés sur le texte moins efficaces. Les technologies avancées de conversion de la parole en texte peuvent contourner les CAPTCHA audio. De même, les modèles d'IA formés sur de vastes ensembles de données d'images peuvent résoudre de nombreux CAPTCHA basés sur l'image avec une grande précision.

Lien vers l'article : https://arxiv.org/pdf/2307.12108

De l'autre côté du champ de bataille, les chercheurs en CAPTCHA créent des techniques de vérification plus complexes.

Par exemple, reCAPTCHA peut évaluer le comportement interactif des utilisateurs et calculer la probabilité qu'ils soient humains.

Ironiquement, les humains aident l'IA à résoudre des problèmes de CAPTCHA complexes.

Par exemple, les fermes de clics emploient un grand nombre de travailleurs mal payés pour cliquer sur des publicités, y compris des publications sur les réseaux sociaux, suivre des comptes, écrire de faux avis, et même résoudre des problèmes de CAPTCHA.

Ferme de clics sur les réseaux sociaux au Vietnam

Leur travail consiste à aider les systèmes d'IA à se comporter comme des humains, battant ainsi les CAPTCHA et d'autres technologies anti-fraude.

L'avenir des CAPTCHA

La course aux armements permanente entre les mesures de sécurité et ceux qui cherchent à les contourner favorise l'innovation constante.

Avec le développement continu de l'IA, les méthodes adoptées par les experts en cybersécurité et ceux qui cherchent à franchir les barrières numériques continueront d'évoluer.

On peut prévoir que l'avenir des CAPTCHA sera influencé par les progrès constants de l'IA.

Les méthodes traditionnelles de CAPTCHA perdent de leur efficacité, donc les futurs systèmes de CAPTCHA pourraient se concentrer davantage sur l'analyse du comportement des utilisateurs, comme la façon dont les gens interagissent avec les sites web, rendant plus difficile pour les robots d'imiter ce comportement.

Les sites web pourraient se tourner vers l'utilisation de CAPTCHA biométriques, comme la reconnaissance faciale ou le scan d'empreintes digitales, mais cela soulèverait des problèmes de confidentialité.