inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Utiliser la génération en streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
Utiliser le pré-remplissage séquentiel model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
Traiter de longues séquences long_prompt = "..." Très long texte d'amorce inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Falcon Mamba 7B sera publié sous la licence TII Falcon License 2.0, une licence basée sur Apache 2.0 qui inclut une politique d'utilisation favorisant une utilisation responsable de l'IA.
Ce modèle peut dépasser les limites d'extension de séquence sans perte de performance. Il peut traiter des séquences de longueur arbitraire sans augmenter le stockage en mémoire, en particulier sur un seul GPU A10 24GB. Le temps nécessaire pour générer de nouveaux tokens est constant, quelle que soit la taille du contexte.
Sur plusieurs benchmarks, Falcon Mamba 7B surpasse les modèles leaders de taille similaire, comme Llama 3.1 8B et Mistral 7B. C'est le premier modèle Mamba à grande échelle polyvalent, capable de gérer diverses tâches de génération de texte.
Ce modèle open source offre aux chercheurs et développeurs l'opportunité d'explorer et d'exploiter le potentiel de l'architecture SSLM, promettant des avancées dans le traitement de longues séquences de texte et l'amélioration de l'efficacité de génération.