inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Verwendung der Streaming-Generierung for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
Verwendung der sequentiellen Vorfüllung model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
Verarbeitung langer Sequenzen long_prompt = "..." Sehr langer Prompt inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Falcon Mamba 7B wird unter der TII Falcon License 2.0 veröffentlicht, einer auf Apache 2.0 basierenden Lizenz, die eine Nutzungsrichtlinie zur Förderung der verantwortungsvollen Nutzung von KI enthält.
Das Modell kann die Sequenzerweiterungsbeschränkungen ohne Leistungseinbußen überwinden. Es kann Sequenzen beliebiger Länge verarbeiten, ohne zusätzlichen Speicher zu benötigen, und kann insbesondere auf einer einzelnen A10 24GB GPU laufen. Die Zeit zur Generierung neuer Tokens bleibt unabhängig von der Kontextgröße konstant.
In mehreren Benchmarks übertrifft Falcon Mamba 7B die führenden Modelle seiner Größenklasse wie Llama 3.1 8B und Mistral 7B. Es ist das erste allgemeine Mamba-Modell in großem Maßstab, das verschiedene Textgenerierungsaufgaben bewältigen kann.
Dieses Open-Source-Modell bietet Forschern und Entwicklern die Möglichkeit, das Potenzial der SSLM-Architektur zu erforschen und zu nutzen, mit vielversprechenden Durchbrüchen bei der Verarbeitung langer Textsequenzen und der Verbesserung der Generierungseffizienz.