Le premier "scientifique IA" au monde émerge
Le premier "scientifique IA" a émergé, générant 10 articles académiques complets en une seule fois.
De la proposition d'idées de recherche, la vérification de la nouveauté, la conception d'expériences, l'écriture de code, à l'exécution d'expériences sur des GPU et la collecte de résultats, jusqu'à la rédaction finale de l'article - tout est fait automatiquement par ce "scientifique IA".
Le coût de chaque article est d'environ 15 $ (environ 107,62 yuans).
C'est le premier système d'IA complet pour la recherche scientifique automatisée et la découverte ouverte - ### Le scientifique IA.
Il provient de Sakana AI, une startup co-fondée par Llion Jones, l'un des auteurs de l'article sur le Transformer.
De plus, l'entreprise n'a pas seulement créé un scientifique IA, mais a également développé un évaluateur IA.
L'évaluateur IA peut évaluer les articles écrits par l'IA et fournir des suggestions d'amélioration.
Le scientifique IA et l'évaluateur IA ont tous deux été open-sourcés par Sakana AI.
L'IA complète indépendamment dix articles de machine learning
Pendant des décennies, après chaque percée majeure en IA, les chercheurs plaisantaient souvent : "Il est temps de chercher comment faire écrire des articles par l'IA pour nous."
Maintenant, cette idée est enfin devenue réalité.
Plus précisément, le scientifique IA a généré dix articles, sélectionnant un article à haut score de chaque direction de recherche pour le présenter.
Le premier article sur les modèles de diffusion : "Diffusion à double échelle : Équilibrage adaptatif des caractéristiques pour les modèles génératifs de faible dimension"
Il propose une méthode adaptative de débruitage à double échelle pour améliorer la difficulté des modèles de diffusion existants à capturer à la fois la structure globale et les détails locaux dans les espaces de faible dimension.
Le deuxième article sur les modèles de langage : "StyleFusion : Génération multi-style adaptative dans les modèles de langage au niveau des caractères"
Cet article propose une nouvelle méthode appelée Multi-Style Adapter, qui améliore la conscience et la cohérence du style dans les modèles de langage au niveau des caractères en introduisant des embeddings de style apprenables et des têtes de classification de style.
Le troisième article combinant Transformers et apprentissage par renforcement : "Taux d'apprentissage adaptatif pour les Transformers via Q-Learning"
Cette étude explore l'application de l'apprentissage par renforcement pour ajuster dynamiquement le taux d'apprentissage dans l'entraînement des modèles transformer.
Le quatrième article sur le phénomène de "grokking" proposé par l'équipe de Google : "Déverrouiller le grokking : Une étude comparative des stratégies d'initialisation des poids dans les modèles Transformer"
Cet article étudie systématiquement pour la première fois l'impact de l'initialisation des poids sur le grokking, comparant cinq stratégies d'initialisation des poids pour optimiser la dynamique d'apprentissage des réseaux neuronaux.
Le code accompagnant ces articles (également généré par l'IA) est open-sourcé sur GitHub, mettant l'accent sur la reproductibilité.
Comment le premier "scientifique IA" a été créé
L'idée de recherche entière est une continuation de plusieurs réalisations après la création de Sakana AI :
Tout d'abord, ils ont développé une méthode pour fusionner automatiquement les connaissances de plusieurs grands modèles et évoluer pour produire de nouveaux modèles. Dans des travaux récents, ils ont utilisé de grands modèles pour découvrir de nouvelles fonctions objectives pour affiner d'autres modèles.
L'équipe était constamment surprise par la créativité des modèles de pointe actuels dans ces projets, ce qui a conduit à un rêve plus grand : ### Peut-on utiliser de grands modèles pour automatiser l'ensemble du processus de recherche ?
Le résultat final a été réalisé grâce à la collaboration entre Sakana AI, le laboratoire Foerster de l'Université d'Oxford et l'équipe de l'Université de Colombie-Britannique.
Le système "scientifique IA" se compose de quatre parties :
Génération d'idées :
Étant donné un modèle de départ, l'IA commence par "brainstormer" une série de différentes directions de recherche nouvelles et recherche sur Semantic Scholar pour vérifier si ces idées ont déjà été réalisées.
Itération expérimentale :
Pour les idées proposées dans la première partie, [...]