Les LLMs servent à de nombreuses applications, allant du traitement du langage naturel à l’analyse d’images et de sons. Malgré leur utilité, les très gros LLMs consomment beaucoup de ressources. Souvent, ils ne répondent pas précisément aux besoins spécifiques des applications. Par conséquent, une nouvelle stratégie d’optimisation a émergé, consistant à fusionner plusieurs LLMs. Cette méthode améliore leurs performances tout en réduisant les coûts.
Avantages de la Fusion de LLMs
La fusion des LLMs tire parti des capacités de différents modèles. Elle forme un système unifié qui bénéficie des forces de chaque modèle. Pour cela, nous utilisons la technique de l’interpolation linéaire sphérique, ou SLERP. Elle préserve les caractéristiques des espaces paramétriques des modèles originaux. Ainsi, elle garantit une intégration sans anomalies et sans dégradation des performances.
Économie de Ressources grâce aux LLMs Fusionnés
Fusionner des LLMs est une méthode économique pour les ressources informatiques. Développer des modèles traditionnels demande beaucoup de calcul GPU et une grande consommation d’énergie. Par ailleurs, la fusion permet de développer de nouvelles compétences sans ré-apprentissage complet. Elle permet d’économiser du temps et des ressources. De plus, les performances des petits LLMs fusionnés peuvent égaler celles de modèles plus grands, comme ChatGPT-4. Cela dépend des tâches et des méthodes de fusion utilisés.
Méthodes Innovantes et Performances des Modèles Fusionnés
La fusion des modèles LLM est une avancée prometteuse. Cependant, son efficacité dépend de l’intuition humaine et de la connaissance des domaines d’application. Ce fait peut limiter son potentiel. Des méthodes automatisées permettraient un gain de temps appréciable. Certains utilisent des paramètres de fusion aléatoires et testent les résultats jusqu’à trouver les plus performants. Cette méthode a été testée avec succès pour créer un mathématicien japonais, à partir de LLM de maths (en anglais) et d’un LLM de langue japonaise.
Le Merging des LLMs: peut-il faire apparaître des Capacités Émergentes?
L’augmentation de la taille des LLMs augmente les performances des LLM, cela est avéré. Certains pensent aussi qu’il existe une taille critique à partir de laquelle des capacités dites émergentes, totalement imprévues, peuvent apparaître. D’autres contestent cette possibilité, car ils considèrent que le phénomène de l’émergence est le résultat d’erreurs de métriques ou de données insuffisantes. Dans le cas de la fusion des LLM, il ne s’agit pas de faire apparaître des capacités émergentes, a priori imprévisibles. Le LLM fusionné du mathématicien japonais est effectivement impressionnant, mais c’est quelque chose qu’on pouvait prévoir. Il résulte d’une fusion synergique de fonctionnalités spécifiques. Toutefois, la méthode du merging s’avère particulièrement efficace pour traiter des informations toujours plus complexes.