inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
ストリーミング生成を使用 for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
順次プリフィルを使用 model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
長いシーケンスを処理 long_prompt = "..." 非常に長いプロンプト inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Falcon Mamba 7Bは、TII Falcon License 2.0の下でリリースされます。これはApache 2.0ベースのライセンスで、AIの責任ある使用を促進する使用ポリシーが含まれています。
このモデルは、パフォーマンスを損なうことなくシーケンス拡張の制限を突破できます。追加のメモリストレージなしで任意の長さのシーケンスを処理でき、特に単一のA10 24GB GPU上で実行できます。コンテキストサイズに関係なく、新しいトークンの生成に必要な時間は一定です。
複数のベンチマークにおいて、Falcon Mamba 7Bは同サイズクラスの先進モデルであるLlama 3.1 8BやMistral 7Bを上回るパフォーマンスを示しています。これは、様々なテキスト生成タスクを処理できる最初の汎用大規模Mambaモデルです。
このオープンソースモデルは、研究者や開発者にSSLMアーキテクチャの可能性を探索し活用する機会を提供し、長文テキストシーケンスの処理と生成効率の向上において breakthrough をもたらす可能性があります。