inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Usando geração em streaming for output in model.generate(inputs, max_new_tokens=50, streamer=True): print(tokenizer.decode(output, skip_special_tokens=True), end="")
Usando pré-preenchimento sequencial model = AutoModelForCausalLM.from_pretrained(model_id, use_sequential_prefill=True)
Processando sequências longas long_prompt = "..." Prompt muito longo inputs = tokenizer(long_prompt, return_tensors="pt") outputs = model.generate(inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
O Falcon Mamba 7B será lançado sob a TII Falcon License 2.0, uma licença baseada na Apache 2.0 que inclui uma política de uso para promover o uso responsável da IA.
O modelo pode superar as limitações de expansão de sequência sem perda de desempenho. Ele pode processar sequências de qualquer comprimento sem aumentar o armazenamento de memória, especialmente podendo ser executado em uma única GPU A10 24GB. O tempo necessário para gerar novos tokens é constante, independentemente do tamanho do contexto.
Em vários benchmarks, o Falcon Mamba 7B supera modelos líderes de tamanho similar, como o Llama 3.1 8B e o Mistral 7B. É o primeiro modelo Mamba de grande escala para uso geral, capaz de lidar com várias tarefas de geração de texto.
Este modelo de código aberto oferece aos pesquisadores e desenvolvedores a oportunidade de explorar e aproveitar o potencial da arquitetura SSLM, com a promessa de avanços no processamento de sequências de texto longas e melhoria da eficiência de geração.