Llama 3.1が流出したと報じられており、8B、70B、405Bパラメータモデルのベンチマーク結果も含まれています。70Bバージョンでさえ、いくつかのベンチマークでGPT-4oを上回っており、オープンソースモデルが複数のベンチマークでGPT-4oやClaude Sonnet 3.5のようなクローズドソースモデルを初めて上回ったことを示しています。
流出したモデルカードの主な詳細:
- 2023年12月までの公開データ15T+トークンで学習
- ファインチューニングデータには公開の指示データセットと1500万の合成サンプルを含む
- 英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語をサポート
このモデルは128kのコンテキスト長を持ち、推論のスケーラビリティを向上させるためにグループクエリアテンションを使用しているとされています。
想定される用途には、多言語商用アプリケーションと研究が含まれます。指示調整されたモデルはアシスタントのようなチャットに最適化されており、事前学習モデルは様々な自然言語生成タスクに適応できます。
トレーニングインフラ:
- カスタムトレーニングライブラリとMetaのGPUクラスター
- H100-80GBハードウェアで39.3M GPU時間
- 推定CO2e排出量11,390トン(再生可能エネルギー使用により市場ベースで0トン)
様々なタスクのベンチマークスコアが報告されており、Llama 3.1モデルは多くのオープンソースおよびクローズドソースのチャットモデルを上回っています。
安全性への配慮:
- 人間が生成したデータと合成データを組み合わせた多角的なデータ収集アプローチ
- 品質管理のためのLLMベースの分類器
- モデルの拒否と拒否トーンの削減に焦点
- 安全性データに敵対的プロンプトを組み込み
- 追加の安全対策を備えたより大きなAIシステムの一部としてのデプロイメントを意図
開発者は、エージェントシステムを構築する際、特に長いコンテキストウィンドウ、多言語機能、サードパーティツール統合などの新機能を利用する場合、システムレベルの安全対策を実装する必要があります。
[参照論文とソースへのリンクは省略されています]