Mistral AI和NVIDIA联合发布了Mistral NeMo,这是一个新的120亿参数的小型语言模型,在多项基准测试中表现优于Gemma 2 9B和Llama 3 8B。
Mistral NeMo的主要特点:
- 120亿参数
- 128K上下文窗口
- 在NVIDIA DGX Cloud AI平台上训练
- 使用NVIDIA TensorRT-LLM和NeMo框架优化
- 以Apache 2.0许可证发布
- 使用FP8数据格式进行高效推理
- 为企业用例设计
性能:
- 在多轮对话、数学、常识推理、世界知识和编码基准测试中超过Gemma 2 9B和Llama 3 8B
- 在MMLU基准测试中略低于Gemma 2 9B
主要功能:
- 支持11种语言的多语言能力
- 基于Tiktoken的新Tekken分词器,比SentencePiece更高效
- 先进的指令微调,提高指令遵循、推理和代码生成能力
部署:
- 可在单个NVIDIA L40S、GeForce RTX 4090或RTX 4500 GPU上运行
- 与使用Mistral 7B的现有系统兼容
- 可在各种平台上轻松部署,只需几分钟
这次合作利用了Mistral AI在训练数据方面的专长和NVIDIA优化的硬件/软件生态系统。Mistral NeMo旨在为企业提供一个强大而实用的AI解决方案,可以轻松集成到商业应用中。