Mamba défie la position dominante du Transformer : le premier grand modèle généraliste open source fait une apparition impressionnante

Falcon Mamba 7B est un modèle de langage innovant qui combine les avantages des architectures Falcon et Mamba. Il utilise un modèle d'espace d'états, offrant une excellente capacité de traitement des longs textes tout en maintenant un nombre de paramètres relativement faible, permettant ainsi une inférence efficace. Ce modèle a obtenu d'excellents résultats dans plusieurs tests de référence, démontrant des performances et un potentiel remarquables.

inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Utiliser la génération en streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")

Utiliser le pré-remplissage séquentiel model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)

Traiter de longues séquences long_prompt = "..." Très long texte d'amorce inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Falcon Mamba 7B sera publié sous la licence TII Falcon License 2.0, une licence basée sur Apache 2.0 qui inclut une politique d'utilisation favorisant une utilisation responsable de l'IA.

Ce modèle peut dépasser les limites d'extension de séquence sans perte de performance. Il peut traiter des séquences de longueur arbitraire sans augmenter le stockage en mémoire, en particulier sur un seul GPU A10 24GB. Le temps nécessaire pour générer de nouveaux tokens est constant, quelle que soit la taille du contexte.

Sur plusieurs benchmarks, Falcon Mamba 7B surpasse les modèles leaders de taille similaire, comme Llama 3.1 8B et Mistral 7B. C'est le premier modèle Mamba à grande échelle polyvalent, capable de gérer diverses tâches de génération de texte.

Ce modèle open source offre aux chercheurs et développeurs l'opportunité d'explorer et d'exploiter le potentiel de l'architecture SSLM, promettant des avancées dans le traitement de longues séquences de texte et l'amélioration de l'efficacité de génération.