AccueilContact

MobileLLM- Optimisation des Modèles de Langage Sub-milliardaires

Publié dans Intelligence Artificielle
11 juillet 2024
1 min read
MobileLLM- Optimisation des Modèles de Langage Sub-milliardaires

MobileLLM: Optimisation des Modèles de Langage Sub-milliardaires pour les Cas d’Utilisation sur Appareils. En ICML 2024.

Ce dépôt contient le code d’entraînement de MobileLLM introduit dans notre travail : "", publié à ICML 2024. Dans ce travail, nous considérons de manière exhaustive plusieurs facteurs de conception pour obtenir des LLM de haute qualité avec moins d’un milliard de paramètres. Nous avons intégré (1) la fonction d’activation SwiGLU, (2) des architectures profondes et minces, (3) le partage d’embedding, (4) l’attention de requête groupée pour construire MobileLLM. MobileLLM-125M/350M atteint une remarquable amélioration de 2,7%/4,3% de précision par rapport aux modèles précédents de 125M/350M SoTA sur des tâches de raisonnement de bon sens sans pré-entraînement. Dans notre version mise à jour, nous démontrons en outre que notre philosophie de conception s’étend efficacement à des modèles plus grands, avec des résultats SoTA pour MobileLLM-600M/1B/1.5B.

Source de l’article


Share

Article précédent
Narration immersive sur la Navigation et la Recherche de Code

Articles similaires

4D Contrastive Superflows
12 juillet 2024
1 min
© 2024, All Rights Reserved.

Liens Rapides

Partenariats et opportunités publicitairesContactez nous

Réseaux Sociaux