Le domaine des grands modèles : quelle est la vérité sur l'open source ?

Lors de la discussion sur les grands modèles de langage open source, nous nous concentrons sur les systèmes de langage d'intelligence artificielle qui peuvent être librement obtenus, utilisés et modifiés. Ces modèles sont formés sur d'énormes quantités de données textuelles et sont capables de comprendre et de générer le langage humain, fournissant une base pour diverses applications. Nous nous intéressons à leurs caractéristiques techniques, leurs tendances de développement, leur potentiel d'application et leur impact sur le domaine de l'intelligence artificielle.

Le développement de logiciels open source suit généralement les principes de réciprocité et de production par les pairs, favorisant l'amélioration des modules de production, des canaux de communication et des communautés interactives. Des exemples typiques incluent Linux et Mozilla Firefox.

Les logiciels propriétaires (fermés) ne divulguent pas leur code source pour des raisons commerciales ou autres, ne fournissant que des programmes lisibles par ordinateur (comme le format binaire). Le code source n'est détenu et contrôlé que par les développeurs. Des exemples typiques incluent Windows et Android.

L'open source est un modèle de développement logiciel basé sur l'ouverture, le partage et la collaboration, encourageant la participation de tous au développement et à l'amélioration des logiciels, favorisant ainsi le progrès technologique continu et une large application.

Les logiciels optant pour un développement fermé ont plus de chances de devenir des produits stables et ciblés, mais les logiciels propriétaires sont généralement payants et, en cas d'erreurs ou de fonctionnalités manquantes, il faut attendre que l'éditeur résolve le problème.

Quant à la définition des grands modèles open source, l'industrie n'a pas atteint un consensus clair comme pour les logiciels open source.

L'open source des grands modèles de langage et l'open source des logiciels sont similaires dans leur philosophie, tous deux basés sur l'ouverture, le partage et la collaboration, encourageant la participation communautaire au développement et à l'amélioration, favorisant le progrès technologique et augmentant la transparence.

Cependant, il existe des différences significatives dans la mise en œuvre et les exigences.

L'open source logiciel concerne principalement les applications et les outils, avec des besoins en ressources relativement faibles, tandis que l'open source des grands modèles de langage implique d'importantes ressources de calcul et des données de haute qualité, et peut avoir plus de restrictions d'utilisation. Ainsi, bien que les deux visent à promouvoir l'innovation et la diffusion technologique, l'open source des grands modèles de langage fait face à plus de complexité, et les formes de contribution communautaire diffèrent également.

Li Yanhong a également souligné la différence entre les deux, l'open source des modèles n'équivaut pas à l'open source du code : "L'open source des modèles ne donne accès qu'à un ensemble de paramètres, il faut encore faire du SFT (fine-tuning supervisé) et un alignement de sécurité. Même avec le code source correspondant, on ne sait pas quelle proportion et quel type de données ont été utilisés pour entraîner ces paramètres, il est impossible de réaliser une synergie collective, et avoir ces éléments ne vous permet pas de vous tenir sur les épaules des géants pour itérer le développement."

L'open source complet des grands modèles de langage comprend la transparence de l'ensemble du processus de développement du modèle, de la collecte de données à la conception du modèle, en passant par l'entraînement et le déploiement. Cette approche inclut non seulement la publication des ensembles de données et l'ouverture de l'architecture du modèle, mais aussi le partage du code du processus d'entraînement et la publication des poids du modèle pré-entraîné.

Au cours de l'année écoulée, le nombre de grands modèles de langage a considérablement augmenté, beaucoup prétendant être open source, mais à quel point sont-ils vraiment ouverts ?

Andreas Liesenfeld, chercheur en intelligence artificielle à l'Université Radboud aux Pays-Bas, et Mark Dingemanse, linguiste computationnel, ont également constaté que bien que le terme "open source" soit largement utilisé, de nombreux modèles sont au mieux "à poids ouverts", cachant la plupart des autres aspects de la construction du système.

Par exemple, des géants technologiques comme Meta et Microsoft qualifient leurs grands modèles de langage d'"open source", mais ne divulguent pas d'informations importantes sur la technologie sous-jacente. Ils ont été surpris de constater que les entreprises et institutions d'IA disposant de moins de ressources se sont montrées plus louables.

L'équipe de recherche a analysé une série de projets populaires de grands modèles de langage "open source", évaluant leur degré réel d'ouverture sous divers aspects, du code aux données, en passant par les poids, l'API et la documentation. L'étude a également inclus ChatGPT d'OpenAI comme point de référence fermé, mettant en évidence la situation réelle des projets "open source".

✔ pour ouvert, ~ pour partiellement ouvert, X pour fermé

Les résultats montrent des différences significatives entre les projets. Selon ce classement, OLMo de l'Allen Institute for AI est le modèle open source le plus ouvert, suivi de BloomZ de BigScience, tous deux développés par des organisations à but non lucratif.

L'article affirme que Llama de Meta et Gemma de Google DeepMind, bien que se déclarant open source ou ouverts, ne sont en réalité qu'ouverts en termes de poids, permettant aux chercheurs externes d'accéder et d'utiliser les modèles pré-entraînés, mais sans pouvoir examiner ou personnaliser les modèles, ni savoir comment ils sont affinés pour des tâches spécifiques.

Les récentes sorties de LLaMA 3 et Mistral Large 2 ont suscité un large intérêt. En termes d'ouverture du modèle, LLaMA 3 a publié les poids du modèle, permettant aux utilisateurs d'accéder et d'utiliser ces poids pré-entraînés et affinés par instructions. De plus, Meta a fourni du code de base pour le pré-entraînement et l'affinement par instructions du modèle, mais n'a pas fourni le code d'entraînement complet, et les données d'entraînement de LLaMA 3 n'ont pas été rendues publiques. Cependant, cette fois, Meta a apporté un rapport technique de 93 pages sur LLaMA 3.1 405B.

La situation est similaire pour Mistral Large 2, qui maintient un haut degré d'ouverture en termes de poids du modèle et d'API, mais un degré d'ouverture plus faible en termes de code complet et de données d'entraînement, adoptant une stratégie équilibrant les intérêts commerciaux et l'ouverture, permettant l'utilisation pour la recherche mais avec des restrictions pour l'utilisation commerciale.

Google a déclaré que l'entreprise est "très précise dans son langage" lorsqu'elle décrit les modèles, qualifiant Gemma d'ouvert plutôt que d'open source. "Les concepts existants d'open source ne s'appliquent pas toujours directement aux systèmes d'IA", ont-ils déclaré.

Un contexte important pour cette recherche est la loi sur l'IA de l'Union européenne, qui, une fois en vigueur, appliquera une réglementation plus souple aux modèles classés comme ouverts, rendant ainsi la définition de l'open source potentiellement plus importante.

Les chercheurs affirment que la seule voie vers l'innovation passe par l'ajustement des modèles, ce qui nécessite suffisamment d'informations pour construire sa propre version. De plus, les modèles doivent être soumis à un examen, par exemple, si un modèle a été entraîné sur un grand nombre d'échantillons de test, réussir un test spécifique pourrait ne pas être considéré comme un accomplissement.

Ils sont également ravis de voir l'émergence de tant d'alternatives open source, ChatGPT étant si populaire qu'il est facile d'oublier qu'on ne sait rien de ses données d'entraînement ou d'autres méthodes en coulisses. C'est un risque pour ceux qui souhaitent mieux comprendre les modèles ou construire des applications basées sur eux, et les alternatives open source rendent possible la recherche fondamentale cruciale.

Siliconhuman a également compilé des statistiques sur la situation de l'open source de certains grands modèles de langage nationaux :

Comme on peut le voir dans le tableau, similaire à la situation à l'étranger, les modèles les plus ouverts sont principalement dirigés par des institutions de recherche, principalement parce que l'objectif des institutions de recherche est de promouvoir le progrès de la recherche et le développement de l'industrie, et elles sont plus enclines à ouvrir leurs résultats de recherche.

Les entreprises commerciales, quant à elles, utilisent leurs avantages en termes de ressources pour développer des modèles plus puissants et obtiennent un avantage concurrentiel grâce à des stratégies d'open source appropriées.

Depuis GPT-3 et BERT, l'open source a apporté une impulsion importante à l'écosystème des grands modèles.

En rendant publiques leur architecture et leurs méthodes d'entraînement, les chercheurs et les développeurs peuvent explorer et améliorer davantage sur ces bases, donnant naissance à plus de technologies et d'applications de pointe.

L'émergence de grands modèles open source a considérablement réduit les barrières au développement, permettant aux développeurs et aux petites et moyennes entreprises d'utiliser ces technologies d'IA avancées sans avoir à construire des modèles à partir de zéro, économisant ainsi beaucoup de temps et de ressources. Cela a permis à plus de projets et de produits innovants de se concrétiser rapidement, favorisant le développement de l'ensemble de l'industrie. Les développeurs partagent activement des méthodes d'optimisation et des cas d'application sur les plateformes open source, favorisant également la maturité technologique et l'application.

Pour l'éducation et la recherche scientifique, les grands modèles de langage open source fournissent des ressources précieuses. Les étudiants et les développeurs débutants peuvent rapidement maîtriser les technologies d'IA avancées en étudiant et en utilisant ces modèles, raccourcissant la courbe d'apprentissage et apportant du sang neuf à l'industrie.

Cependant, l'ouverture des grands modèles de langage n'est pas une caractéristique binaire simple. L'architecture du système basée sur Transformer et son processus d'entraînement sont extrêmement complexes, difficiles à classer simplement comme ouverts ou fermés. Les grands modèles open source ne sont pas une simple étiquette, mais plutôt un spectre, allant de complètement open source à partiellement open source, à des degrés divers.

L'open source des grands modèles de langage est un travail complexe et délicat, et tous les modèles ne doivent pas nécessairement être open source.

Il ne faut pas non plus exiger une ouverture complète par "chantage moral", car cela implique de nombreuses considérations techniques, de ressources et de sécurité, nécessitant un équilibre entre ouverture et sécurité, innovation et responsabilité. Comme dans d'autres aspects du domaine technologique, des modes de contribution diversifiés sont nécessaires pour construire un écosystème technologique plus riche.

La relation entre les modèles open source et propriétaires pourrait être comparée à la coexistence des logiciels open source et propriétaires dans l'industrie du logiciel.

Les modèles open source favorisent une large diffusion et l'innovation technologique, tandis que les modèles propriétaires offrent des solutions plus professionnelles et sécurisées dans des domaines spécifiques. Les deux se complètent mutuellement, favorisant ensemble le développement de la technologie de l'intelligence artificielle.

À l'avenir, nous pourrions voir l'émergence de plus de modes hybrides, tels que l'open source partiel ou conditionnel, pour équilibrer le partage technologique et les intérêts commerciaux.

Qu'il s'agisse de modèles open source ou propriétaires, il est important d'assurer leur sécurité, leur fiabilité et leur éthique. Cela nécessite des efforts conjoints de l'industrie, du monde académique et des organismes de réglementation pour établir des normes et des réglementations appropriées, afin d'assurer un développement sain de la technologie de l'IA.

Dans l'ensemble, les grands modèles de langage open source et propriétaires ont chacun leurs avantages et leurs limites. Les modèles open source favorisent une large diffusion et l'innovation technologique, tandis que les modèles propriétaires offrent des solutions plus professionnelles et sécurisées dans des domaines spécifiques. La coexistence et la concurrence des deux feront progresser l'ensemble de l'industrie de l'IA, offrant aux utilisateurs plus de choix et de meilleures expériences.

À l'avenir, nous pourrions voir l'émergence de plus de modes hybrides, tels que l'open source partiel ou conditionnel, pour équilibrer le partage technologique et les intérêts commerciaux. Quel que soit le mode adopté, il est crucial d'assurer la sécurité, la fiabilité et l'éthique des modèles, ce qui nécessite des efforts conjoints de l'industrie, du monde académique et des organismes de réglementation.