inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Usar generación en streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
Usar prellenado secuencial model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
Procesar secuencias largas long_prompt = "..." Prompt muy largo inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Falcon Mamba 7B se lanzará bajo la Licencia TII Falcon 2.0, una licencia basada en Apache 2.0 que incluye una política de uso para promover el uso responsable de la IA.
El modelo puede superar las limitaciones de expansión de secuencia sin perder rendimiento. Puede manejar secuencias de cualquier longitud sin aumentar el almacenamiento de memoria, especialmente puede ejecutarse en una sola GPU A10 de 24GB. El tiempo necesario para generar nuevos tokens es constante, independientemente del tamaño del contexto.
En múltiples pruebas de referencia, Falcon Mamba 7B supera a los modelos líderes de tamaño similar, como Llama 3.1 8B y Mistral 7B. Es el primer modelo Mamba de propósito general a gran escala capaz de manejar diversas tareas de generación de texto.
Este modelo de código abierto ofrece a investigadores y desarrolladores la oportunidad de explorar y aprovechar el potencial de la arquitectura SSLM, con la promesa de avances en el manejo de secuencias de texto largas y mejora de la eficiencia de generación.