inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Использование потокового генерирования for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
Использование последовательного предзаполнения model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
Обработка длинных последовательностей long_prompt = "..." Очень длинный промпт inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Falcon Mamba 7B будет выпущен по лицензии TII Falcon License 2.0, которая основана на Apache 2.0 и включает политику использования, способствующую ответственному использованию искусственного интеллекта.
Эта модель может преодолевать ограничения расширения последовательности без потери производительности. Она может обрабатывать последовательности произвольной длины без увеличения объема памяти, в частности, может работать на одном GPU A10 24GB. Время, необходимое для генерации новых токенов, постоянно независимо от размера контекста.
Falcon Mamba 7B превосходит ведущие модели аналогичного размера, такие как Llama 3.1 8B и Mistral 7B, по нескольким тестам. Это первая универсальная крупномасштабная модель Mamba, способная выполнять различные задачи генерации текста.
Эта модель с открытым исходным кодом предоставляет исследователям и разработчикам возможность изучать и использовать потенциал архитектуры SSLM, что может привести к прорывам в обработке длинных текстовых последовательностей и повышении эффективности генерации.