Le projet MM-Instruct vise à améliorer les capacités de suivi des instructions des grands modèles multimodaux en introduisant un ensemble de données visuelles d’instructions diverses et de haute qualité. Contrairement aux ensembles de données existants axés sur les questions-réponses, MM-Instruct couvre un large éventail d’instructions, y compris l’écriture créative, la résumé et l’analyse d’images. Le processus de construction de MM-Instruct repose sur l’utilisation de modèles de langage pré-entraînés pour générer des données d’instructions visuelles à partir de jeux de données de légendes d’images conventionnels. Ces instructions sont ensuite associées à des images et utilisées pour générer des réponses cohérentes à ces paires instruction-image. MM-Instruct offre un pipeline automatisé de génération de données et sert de banc d’essai pour évaluer les capacités de suivi des instructions des modèles multimodaux existants. Le modèle LLaVA-Instruct, formé sur les données générées, démontre des améliorations significatives par rapport aux modèles LLaVA-1.5.