AccueilContact

Amélioration des modèles multimodaux avec des données d'instructions visuelles diverses

Publié dans Intelligence Artificielle
4 juillet 2024
1 min read
Amélioration des modèles multimodaux avec des données d'instructions visuelles diverses

Le projet MM-Instruct vise à améliorer les capacités de suivi des instructions des grands modèles multimodaux en introduisant un ensemble de données visuelles d’instructions diverses et de haute qualité. Contrairement aux ensembles de données existants axés sur les questions-réponses, MM-Instruct couvre un large éventail d’instructions, y compris l’écriture créative, la résumé et l’analyse d’images. Le processus de construction de MM-Instruct repose sur l’utilisation de modèles de langage pré-entraînés pour générer des données d’instructions visuelles à partir de jeux de données de légendes d’images conventionnels. Ces instructions sont ensuite associées à des images et utilisées pour générer des réponses cohérentes à ces paires instruction-image. MM-Instruct offre un pipeline automatisé de génération de données et sert de banc d’essai pour évaluer les capacités de suivi des instructions des modèles multimodaux existants. Le modèle LLaVA-Instruct, formé sur les données générées, démontre des améliorations significatives par rapport aux modèles LLaVA-1.5.

Source de l’article


Share

Article précédent
Analyse du bytecode - Démêler les failles de sécurité Lua de Factorio

Articles similaires

4D Contrastive Superflows
12 juillet 2024
1 min
© 2024, All Rights Reserved.

Liens Rapides

Partenariats et opportunités publicitairesContactez nous

Réseaux Sociaux