Mamba挑戰Transformer霸主地位:首個通用開源大模型驚艷亮相

Falcon Mamba 7B是一款創新型語言模型,融合了Falcon和Mamba架構的優勢。它採用狀態空間模型,具備出色的長文本處理能力,同時保持了較小的參數規模,實現了高效推理。該模型在多項基準測試中表現優異,展現了強大的性能和潛力。

inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用流式生成 for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")

使用順序預填充 model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)

處理長序列 long_prompt = "..." 非常長的提示詞 inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Falcon Mamba 7B將根據TII Falcon License 2.0發布,這是一個基於Apache 2.0的許可證,其中包括促進負責任地使用人工智能的使用政策。

該模型在不損失性能的前提下,可以突破序列擴展限制。它可以在不增加任何內存存儲的情況下處理任意長度的序列,特別是可以在單張A10 24GB GPU上運行。無論上下文大小,生成新token所需的時間恆定。

在多個基準測試上,Falcon Mamba 7B的性能超越了同尺寸級別的領先模型,如Llama 3.1 8B和Mistral 7B。它是首個通用的大規模Mamba模型,能夠處理各種文本生成任務。

這個開源模型為研究人員和開發者提供了探索和利用SSLM架構潛力的機會,有望在處理長文本序列和提高生成效率方面帶來突破。