Mamba desafia a posição dominante do Transformer: o primeiro modelo grande de uso geral de código aberto faz uma estreia impressionante

O Falcon Mamba 7B é um modelo de linguagem inovador que combina as vantagens das arquiteturas Falcon e Mamba. Ele utiliza um modelo de espaço de estados, oferecendo excelente capacidade de processamento de textos longos, mantendo ao mesmo tempo um tamanho de parâmetro relativamente pequeno, permitindo inferência eficiente. Este modelo demonstrou desempenho excepcional em vários testes de referência, exibindo forte performance e potencial.

inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Usando geração em streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")

Usando pré-preenchimento sequencial model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)

Processando sequências longas long_prompt = "..." Prompt muito longo inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

O Falcon Mamba 7B será lançado sob a TII Falcon License 2.0, uma licença baseada na Apache 2.0 que inclui uma política de uso para promover o uso responsável da IA.

O modelo pode superar as limitações de expansão de sequência sem perda de desempenho. Ele pode processar sequências de qualquer comprimento sem aumentar o armazenamento de memória, especialmente podendo ser executado em uma única GPU A10 24GB. O tempo necessário para gerar novos tokens é constante, independentemente do tamanho do contexto.

Em vários benchmarks, o Falcon Mamba 7B supera modelos líderes de tamanho similar, como o Llama 3.1 8B e o Mistral 7B. É o primeiro modelo Mamba de grande escala para uso geral, capaz de lidar com várias tarefas de geração de texto.

Este modelo de código aberto oferece aos pesquisadores e desenvolvedores a oportunidade de explorar e aproveitar o potencial da arquitetura SSLM, com a promessa de avanços no processamento de sequências de texto longas e melhoria da eficiência de geração.