El Primer "Científico de IA" del Mundo Emerge
Ha surgido el primer "Científico de IA", generando 10 artículos académicos completos de una sola vez.
Desde proponer ideas de investigación, verificar la novedad, diseñar experimentos, escribir código, hasta ejecutar experimentos en GPUs y recopilar resultados, y finalmente completar la redacción del artículo - todo hecho automáticamente por este "Científico de IA".
El costo de cada artículo es de aproximadamente $15 (aproximadamente 107.62 yuanes).
Este es el primer sistema de IA integral para la investigación científica automatizada y el descubrimiento abierto - ### El Científico de IA.
Proviene de Sakana AI, una startup cofundada por Llion Jones, uno de los autores del artículo Transformer.
Además, la empresa no solo creó un científico de IA, sino que también desarrolló un revisor de IA.
El revisor de IA puede evaluar artículos escritos por IA y proporcionar sugerencias de mejora.
Tanto el científico de IA como el revisor de IA han sido liberados como código abierto por Sakana AI.
La IA Completa Independientemente Diez Artículos de Aprendizaje Automático
Durante décadas, después de cada gran avance en IA, los investigadores a menudo bromeaban: "Es hora de investigar cómo hacer que la IA escriba artículos por nosotros".
Ahora, esta idea finalmente se ha convertido en realidad.
Específicamente, el científico de IA generó diez artículos, seleccionando un artículo de alta puntuación de cada dirección de investigación para presentar.
El primer artículo sobre modelos de difusión: "Difusión de Doble Escala: Equilibrio Adaptativo de Características para Modelos Generativos de Baja Dimensión"
Propone un método adaptativo de eliminación de ruido de doble escala para mejorar la dificultad de los modelos de difusión existentes para capturar tanto la estructura global como los detalles locales en espacios de baja dimensión.
El segundo artículo sobre modelos de lenguaje: "StyleFusion: Generación Adaptativa Multi-Estilo en Modelos de Lenguaje a Nivel de Carácter"
Este artículo propone un nuevo método llamado Adaptador Multi-Estilo, que mejora la conciencia y consistencia del estilo en modelos de lenguaje a nivel de carácter mediante la introducción de incrustaciones de estilo aprendibles y cabezas de clasificación de estilo.
El tercer artículo que combina Transformers y aprendizaje por refuerzo: "Tasa de Aprendizaje Adaptativa para Transformers mediante Q-Learning"
Este estudio explora la aplicación del aprendizaje por refuerzo para ajustar dinámicamente la tasa de aprendizaje en el entrenamiento de modelos transformer.
El cuarto artículo sobre el fenómeno "grokking" propuesto por el equipo de Google: "Desbloqueando el Grokking: Un Estudio Comparativo de Estrategias de Inicialización de Pesos en Modelos Transformer"
Este artículo estudia sistemáticamente por primera vez el impacto de la inicialización de pesos en el grokking, comparando cinco estrategias de inicialización de pesos para optimizar la dinámica de aprendizaje de redes neuronales.
El código que acompaña a estos artículos (también generado por IA) está disponible como código abierto en GitHub, enfatizando la reproducibilidad.
Cómo se Creó el Primer "Científico de IA"
Toda la idea de investigación es una continuación de varios logros después de que se estableció Sakana AI:
Primero, desarrollaron un método para fusionar automáticamente el conocimiento de múltiples modelos grandes y evolucionar para producir nuevos modelos. En trabajos recientes, utilizaron modelos grandes para descubrir nuevas funciones objetivo para ajustar otros modelos.
El equipo se sorprendió constantemente por la creatividad de los modelos de vanguardia actuales en estos proyectos, lo que llevó a un sueño más grande: ### ¿Se pueden usar modelos grandes para automatizar todo el proceso de investigación?
El resultado final se completó a través de la colaboración entre Sakana AI, el Laboratorio Foerster de la Universidad de Oxford y el equipo de la Universidad de Columbia Británica.
El sistema "Científico de IA" consta de cuatro partes:
Generación de Ideas:
Dada una plantilla inicial, la IA primero "hace una lluvia de ideas" de una serie de diferentes direcciones de investigación novedosas y busca en Semantic Scholar para verificar si estas ideas se han realizado antes.
Iteración de Experimentos:
Para las ideas propuestas en la primera parte, [...]