Mamba бросает вызов господству Transformer: первая универсальная модель с открытым исходным кодом впечатляюще дебютирует

Falcon Mamba 7B - это инновационная языковая модель, объединяющая преимущества архитектур Falcon и Mamba. Она использует модель пространства состояний, обладает отличной способностью обрабатывать длинные тексты, сохраняя при этом небольшой размер параметров, что обеспечивает эффективный вывод. Эта модель показала превосходные результаты в нескольких эталонных тестах, демонстрируя мощную производительность и потенциал.

inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Использование потокового генерирования for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")

Использование последовательного предзаполнения model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)

Обработка длинных последовательностей long_prompt = "..." Очень длинный промпт inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Falcon Mamba 7B будет выпущен по лицензии TII Falcon License 2.0, которая основана на Apache 2.0 и включает политику использования, способствующую ответственному использованию искусственного интеллекта.

Эта модель может преодолевать ограничения расширения последовательности без потери производительности. Она может обрабатывать последовательности произвольной длины без увеличения объема памяти, в частности, может работать на одном GPU A10 24GB. Время, необходимое для генерации новых токенов, постоянно независимо от размера контекста.

Falcon Mamba 7B превосходит ведущие модели аналогичного размера, такие как Llama 3.1 8B и Mistral 7B, по нескольким тестам. Это первая универсальная крупномасштабная модель Mamba, способная выполнять различные задачи генерации текста.

Эта модель с открытым исходным кодом предоставляет исследователям и разработчикам возможность изучать и использовать потенциал архитектуры SSLM, что может привести к прорывам в обработке длинных текстовых последовательностей и повышении эффективности генерации.