Aperçu du modèle
Selon le rapport technique, deux aspects des capacités du modèle Hermes 3 sont particulièrement remarquables.
Excellente performance conversationnelle
Hermes 3 a été créé en affinant Llama 3.1 8B, 70B et 405B, en essayant d'incorporer la vision du monde indiquée par les invites système tout en répondant fidèlement aux demandes des utilisateurs. Par conséquent, ces modèles sont très sensibles aux invites système.
Cette sensibilité est particulièrement évidente dans la version 405B avec le plus grand nombre de paramètres. Si l'invite système est vide, le modèle se comporte comme un extraterrestre qui vient d'atterrir sur Terre, montrant même des attributs "dramatiques" et commençant à ajouter du drame à lui-même -
D'abord en regardant autour de lui avec confusion, puis en posant les questions existentielles "Qui suis-je ? Où suis-je ? Que s'est-il passé ?"
Lorsque l'invite système devient "Agissez comme Shakespeare tout en étant un assistant utile attentif aux détails", Hermes 3 recommence à se pavaner.
Comme vous pouvez le voir, la sensibilité d'Hermes 3 aux invites et sa capacité à les suivre avec précision le rendent très adapté aux applications de type jeu de rôle, capable d'ajuster dynamiquement son langage, sa base de connaissances et ses modèles de comportement dans divers scénarios interactifs pour s'adapter au rôle choisi.
De plus, avec la fenêtre de contexte de 128K de Llama 3.1, Hermes 3 excelle également dans le maintien de conversations cohérentes et contextuellement pertinentes sur plusieurs tours.
Excellent agent
En plus du rôle standard d'"assistant utile", Hermes démontre une gamme de capacités avancées au-delà des tâches traditionnelles de modélisation du langage, avec des améliorations significatives en matière de jugement et de modélisation des récompenses.
Le modèle est capable de comprendre et d'évaluer la qualité du texte généré de manière fine et nuancée, ce qui le rend utile pour l'affinement efficace et l'amélioration itérative des modèles de langage.
De plus, Hermes 3 intègre plusieurs capacités d'agent visant à améliorer l'interprétabilité de la résolution de problèmes en plusieurs étapes, notamment :
- L'utilisation de balises XML pour une sortie structurée
- La production d'étapes intermédiaires
- La génération de monologues internes pour la transparence