Mamba desafía la posición dominante de Transformer: el primer modelo grande de código abierto de propósito general hace su impresionante debut

Falcon Mamba 7B es un modelo de lenguaje innovador que combina las ventajas de las arquitecturas Falcon y Mamba. Utiliza un modelo de espacio de estados, lo que le confiere una excelente capacidad para procesar textos largos, mientras mantiene un tamaño de parámetros relativamente pequeño, logrando así una inferencia eficiente. Este modelo ha demostrado un rendimiento excepcional en múltiples pruebas de referencia, mostrando un gran potencial y capacidad.

inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Usar generación en streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")

Usar prellenado secuencial model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)

Procesar secuencias largas long_prompt = "..." Prompt muy largo inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Falcon Mamba 7B se lanzará bajo la Licencia TII Falcon 2.0, una licencia basada en Apache 2.0 que incluye una política de uso para promover el uso responsable de la IA.

El modelo puede superar las limitaciones de expansión de secuencia sin perder rendimiento. Puede manejar secuencias de cualquier longitud sin aumentar el almacenamiento de memoria, especialmente puede ejecutarse en una sola GPU A10 de 24GB. El tiempo necesario para generar nuevos tokens es constante, independientemente del tamaño del contexto.

En múltiples pruebas de referencia, Falcon Mamba 7B supera a los modelos líderes de tamaño similar, como Llama 3.1 8B y Mistral 7B. Es el primer modelo Mamba de propósito general a gran escala capaz de manejar diversas tareas de generación de texto.

Este modelo de código abierto ofrece a investigadores y desarrolladores la oportunidad de explorar y aprovechar el potencial de la arquitectura SSLM, con la promesa de avances en el manejo de secuencias de texto largas y mejora de la eficiencia de generación.