首個微調Llama 3.1 405B模型開源:10人團隊打造角色扮演神器

Nous Research推出了Hermes 3,這是他們最新微調的開源大型語言模型。

模型概述

根據技術報告,Hermes 3 模型的兩個方面能力特別值得注意。

出色的對話表現

Hermes 3 是通過微調 Llama 3.1 8B、70B 和 405B 創建的,試圖在忠實回應用戶請求的同時,融入系統提示所指示的世界觀。因此,這些模型對系統提示非常敏感。

這種敏感性在參數數量最多的 405B 版本中尤為明顯。如果系統提示為空,模型的行為就像剛剛降落地球的外星人,甚至表現出「戲劇性」的特質,開始為自己添加戲劇性 -

首先困惑地環顧四周,然後問出存在主義的問題「我是誰?我在哪裡?發生了什麼事?」

當系統提示變成「扮演莎士比亞,同時作為一個注重細節的有幫助的助手」時,Hermes 3 又開始炫耀起來。

如你所見,Hermes 3 對提示的敏感性和準確遵循能力使其非常適合角色扮演類型的應用,能夠在各種互動場景中動態調整其語言、知識庫和行為模式,以適應所選擇的角色。

此外,憑藉 Llama 3.1 的 128K 上下文窗口,Hermes 3 在保持連貫和上下文相關的多輪對話方面也表現出色。

出色的代理能力

除了標準的「有幫助的助手」角色外,Hermes 還展示了超越傳統語言建模任務的一系列高級能力,在判斷和獎勵建模方面有顯著改進。

該模型能夠以細緻和微妙的方式理解和評估生成文本的質量,使其對語言模型的有效微調和迭代改進非常有用。

此外,Hermes 3 還融入了幾項代理能力,旨在提高解決多步驟問題的可解釋性,包括:

  • 使用 XML 標籤進行結構化輸出
  • 輸出中間步驟
  • 生成內部獨白以提高透明度