Ce dépôt contient le code d’entraînement de MobileLLM introduit dans notre travail : "", publié à ICML 2024. Dans ce travail, nous considérons de manière exhaustive plusieurs facteurs de conception pour obtenir des LLM de haute qualité avec moins d’un milliard de paramètres. Nous avons intégré (1) la fonction d’activation SwiGLU, (2) des architectures profondes et minces, (3) le partage d’embedding, (4) l’attention de requête groupée pour construire MobileLLM. MobileLLM-125M/350M atteint une remarquable amélioration de 2,7%/4,3% de précision par rapport aux modèles précédents de 125M/350M SoTA sur des tâches de raisonnement de bon sens sans pré-entraînement. Dans notre version mise à jour, nous démontrons en outre que notre philosophie de conception s’étend efficacement à des modèles plus grands, avec des résultats SoTA pour MobileLLM-600M/1B/1.5B.