Aller au contenu
Logo TW3 Partners
  • Produit
  • Services
  • A propos
  • Ressources
    • Rapports
    • Blog
  • Contact
  • Produit
  • Services
  • A propos
  • Ressources
    • Rapports
    • Blog
  • Contact
  • English
  • Français

Améliorer l’efficacité des LLMs grâce des méthodes de Merging

Ces dernières années, les LLMs ont reçu une multitude d’applications, depuis le traitement du langage naturel, jusqu’à celui des images et des sons, en passant par le codage informatique etc. Toutefois les « très gros » LLMs sont gourmands en termes de ressources et peuvent ne pas être suffisamment précis pour des applications spécifiques. Une nouvelle approche de l’optimisation de ces modèles utilise la fusion (ou merging ) de plusieurs LLMs pour améliorer les performances tout en réduisant les coûts. 

Votre transformation digitale commence ici

Explorez le potentiel de l’IA générative pour optimiser vos processus, créer de nouveaux leviers de croissance et sécuriser votre transition numérique. TW3 Partners vous accompagne avec des solutions stratégiques adaptées à votre métier.

Contactez-nous pour en parler

L’avantage principal des LLMs fusionnés réside dans l’amalgame des capacités des différents modèles. La fusion permet de créer un modèle unifié qui hérite des forces de ses constituants, ce qui lui permet de réaliser un éventail de tâches plus large, et de répondre à nouvelles problématiques. La fusion des LLMs utilise la technique de l’interpolation linéaire sphérique ou SLERP. Cette méthode préserve les propriétés géométriques de l’espace paramétrique du modèle, pour préserver la qualité des outputs du modèle fusionné. La SLERP est préférée à l’interpolation linéaire traditionnelle car elle assure une transition douce entre les paramètres du modèle, réduisant les anomalies ou la dégradation de la performance du modèle.

La fusion de LLMs s’avère être une stratégie « économe », notamment en termes de ressources informatiques. Le développement de modèles traditionnels exige une puissance de calcul GPU considérable et une consommation d’énergie importante. La loi d’échelle bien connue des LLMs suggère une corrélation entre la taille du modèle et ses capacités de « raisonnement », linguistiques et de généralisation. En fusionnant des modèles de taille plus modeste, de nouvelles capacités peuvent être développées sans nécessiter un ré-apprentissage complet, ce qui permet d’économiser à la fois du temps et des moyens matériels. L’efficacité des petits LLMs fusionnés peut même être comparable à celle de modèles plus grands, comme ChatGPT-4, mais cela dépend des tâches spécifiques et des techniques de fusion utilisées. Par exemple la méthode TINYLLM, qui apprend de plusieurs grands LLMs lui servant de professeurs, elle a montré au final qu’elle surpassait nettement ces derniers dans des tâches de raisonnement commun (common sense) et d’interprétation biomédicale, malgré une taille considérablement plus petite. En utilisant des métriques −précision, efficacité et rapidité dans la compréhension du langage et dans les tâches génératives−, les modèles fusionnés ont montré de très bonnes performances sur divers benchmarks, y compris le classement Open LLM Leaderboard. 

Faites passer votre entreprise à l’ère de l’IA générative

Profitez de notre expertise pour intégrer l’intelligence artificielle de manière stratégique, sans compromettre la sécurité ni la cohérence métier. TW3 Partners vous guide avec une approche personnalisée et efficace.

Discuter avec un expert

La fusion des modèles est donc bien une approche prometteuse pour le développement des LLMs. Toutefois, elle s’appuie encore largement sur l’intuition humaine et la connaissance (plus ou moins étendue) des domaines d’utilisation, ce qui est susceptible de limiter son potentiel. Dans leur article intitulé Evolutionary Optimization of Model Merging Recipes, les auteurs proposent une approche dite « évolutionnariste » pour automatiser la fusion des LLMs en cherchant de façon automatique quelles sont les combinaisons optimales de modèles open source. Ils s’appuient sur « l’intelligence collective » de ces derniers, et évitent ainsi de faire appel à un entraînement supplémentaire. Cette approche a été testée avec un grand succès sur la fusion d’un LLM de langue japonaise (avec des capacités limitées en mathématiques) et d’un modèle mathématique (peu doué en japonais).  Une autre expérience, Automerger, crée de nouveaux modèles en sélectionnant au hasard deux modèles issus du top-20 du Open LLM Leaderboard, et leur appliquant, là aussi de façon aléatoire, la méthode d’interpolation SLERP. Après un grand nombre d’essais, certains de ces modèles vont se révéler avoir des performances de tâches de benchmark supérieures à celles de modèles déjà présents sur le Leaderboard. Ils finiront donc par l’intégrer.

Il a été souvent avancé que le up scaling des LLMs pourrait faire apparaître des capacités dites émergentes qui ne seraient pas simplement déduites de l’extrapolation des performances observées à une échelle plus petite. Il y a en fait un débat animé autour de cette possibilité. Certains pensent que, au-delà d’une certaine taille, il y a une sorte de « transition de phase » qui se manifeste par une brutale augmentation des performances. D’autres en revanche contestent son existence, considérant qu’il s’agit d’un mirage associé à l’application de métriques inappropriées ou à des statistiques insuffisantes. 

L’IA générative : de l’expérimentation à la transformation concrète

Découvrez dans notre livre blanc comment intégrer l’IA générative de manière efficace, durable et responsable dans votre entreprise. Études de cas, stratégie d’adoption, orchestration, SEO, RH, marketing… Un condensé de retours d’expérience et de conseils concrets pour passer à l’action.

Télécharger le livre blanc Demander un diagnostic personnalisé

Si après cette courte digression, l’on revient maintenant à notre propos, le merging des LLMs, notre exemple du « modèle mathématicien parlant japonais », quoique spectaculaire, ne correspond pas à une capacité émergente non-prédictible, car il mélange de façon synergétique les fonctionnalités visées (la maîtrise du japonais, d’une part, celle des mathématiques, d’autre part). Néanmoins, il est clair que les LLMs fusionnées ouvrent la voie à de nouvelles façons, toujours plus efficaces, de traiter l’information, et contribuent à faire progresser les applications de l’IA dans des domaines, eux aussi toujours plus complexes.

Logo TW3 Partners
Suivez-nous
Linkedin Youtube

Inscrivez-vous à notre
Newsletter

Perspectives

S'abonner sur LinkedIn

Conditions Générales de Services

Mentions légales

politique de confidentialité

TW3 Partners - Capital 10'000€ - © 2025 Tous droits réservés
Logo TW3 Partners
  • Produit
  • Services
  • À propos
  • Rapports
  • Blog
  • Contact
  • English
  • Produit
  • Services
  • À propos
  • Rapports
  • Blog
  • Contact
  • English
Logo TW3 Partners
  • Product
  • Services
  • About
  • Reports
  • Blog
  • Contact
  • English
  • Product
  • Services
  • About
  • Reports
  • Blog
  • Contact
  • English