AccueilContact

Cambrien-1 (8 minutes de lecture)

Publié dans Intelligence Artificielle
2 juillet 2024
6 min read
Cambrien-1 (8 minutes de lecture)

Cambrian-1: Une Exploration Complète et Vision-Centrique des MLLMs

Cambrian-1 est une famille de MLLMs multimodaux conçus avec une approche vision-centric. Alors que des modèles linguistiques plus puissants peuvent améliorer les capacités multimodales, les choix de conception pour les composants visuels sont souvent insuffisamment explorés et déconnectés de la recherche sur l’apprentissage de la représentation visuelle.

Cambrian-1 est structuré autour de cinq piliers clés, offrant chacun des aperçus importants de l’espace de conception des MLLMs:

  • Représentations Visuelles : Nous explorons divers encodeurs visuels et leurs combinaisons.
  • Conception du Connecteur : Nous concevons un nouveau connecteur dynamique et spatialement conscient qui intègre les caractéristiques visuelles de plusieurs modèles avec les MLLMs tout en réduisant le nombre de jetons.
  • Données d’Ajustement des Instructions : Nous sélectionnons des données d’ajustement d’instructions visuelles de haute qualité à partir de sources publiques, en mettant l’accent sur l’importance de l’équilibrage de la distribution.
  • Recettes d’Ajustement des Instructions : Nous discutons des stratégies et des pratiques d’ajustement des instructions.
  • Étalonnage : Nous examinons les benchmarks MLLM existants et introduisons un nouveau benchmark centré sur la vision, “CV-Bench”.

Cambrian-1 n’atteint pas seulement des performances de pointe, mais sert également de livre de recettes complet et ouvert pour les MLLMs ajustés aux instructions. Nous fournissons des recettes détaillées d’ajustement et d’évaluation. Nous espérons que notre publication inspirera et accélérera les avancées dans les systèmes multimodaux et l’apprentissage de la représentation visuelle.

Analyse des Benchmarks

Nous comparons les performances entre les paramètres désactivés et activés de la vision à travers les MLLMs formés avec 23 différentes colonnes vertébrales de vision. Nos résultats révèlent que certains benchmarks tels que MMMU et AI2D sont moins dépendants des entrées visuelles, tandis que d’autres comme MMVP et MME connaissent des baisses de performance significatives, indiquant leur évaluation efficace de la multimodalité.

En analysant les performances des MLLMs à travers divers benchmarks, des clusters distincts émergent, catégorisés comme “Général”, “Connaissance”, “Graphique & OCR” et “Centré sur la Vision”. Nous constatons également que les benchmarks centrés sur la vision sont sous-représentés dans le paysage d’évaluation actuel.

Recettes d’Ajustement des Instructions

Les MLLMs connectent des colonnes vertébrales LLM pré-entraînées et de vision en utilisant un connecteur tel qu’un projecteur MLP. Diverses études ont suggéré différentes méthodologies d’entraînement optimales pour les MLLMs.

  • Entraînement en Une Étape vs Deux Étapes : Un travail récent suggère de sauter l’entraînement préalable du connecteur pour réduire les coûts de calcul sans nuire aux performances. Nous expérimentons avec 0, 0,5M et 1,2M de données d’adaptateur. Suivant la méthode de LLaVA, nous réglons initialement uniquement le connecteur, puis décongelons à la fois le LLM et le connecteur pour l’ajustement des instructions avec un mélange de données de 737K. Les résultats indiquent que l’entraînement préalable du connecteur améliore les performances, et l’utilisation de plus de données d’adaptateur les améliore encore, nous menant à standardiser sur une approche d’entraînement en deux étapes avec 1,2M de données d’adaptateur.
  • Geler vs Décongeler l’Encodeur Visuel : Il existe également des pratiques mixtes concernant le gel ou le dégel des colonnes vertébrales de vision lors du fine-tuning. Certains soutiennent que le dégel de la colonne vertébrale de vision dégrade significativement les performances. Nos expériences démontrent qu’avec un taux d’apprentissage raisonnable du modèle de vision, le dégel bénéficie aux performances sur tous les benchmarks, sauf pour un changement marginal dans les benchmarks de Connaissance.

MLLMs en tant qu’Évaluateur de Modèles de Vision

Les MLLMs offrent une évaluation plus réaliste des représentations visuelles que les benchmarks traditionnels comme ImageNet-1k. Nous utilisons un ajustement d’instructions en deux étapes avec 1,2M de données d’adaptateur et 737K de données de fine-tuning pour comparer une variété de modèles de vision sur les performances MLLM en aval. Nos évaluations montrent que les modèles supervisés par le langage présentent des avantages significatifs dans toutes les catégories de benchmarks, en particulier dans les tâches OCR & graphique. Cependant, malgré la taille plus petite de l’ensemble de données des modèles SSL comme DINOv2, ils se comportent de manière compétitive dans les benchmarks centrés sur la vision.

  • Réduction de l’Écart entre les Modèles CLIP et SSL : Nous observons que DINOv2 se situe à mi-chemin entre les modèles SSL et CLIP sur les tâches VQA générales et de connaissance, surpassant même certains modèles CLIP sur les benchmarks centrés sur la vision avec une résolution plus élevée. Nous étudions le dégel des colonnes vertébrales de vision et l’augmentation de la quantité de données de fine-tuning visuel pour réduire cet écart. Nous observons que en dégelant la colonne vertébrale de vision, le MLLM basé sur DINOv2 fine-tuné avec 5M de données dépasse le MLLM entraîné avec un modèle CLIP sur 0,7M de données. De plus, l’écart entre DINOv2 et les modèles CLIP est réduit dans le cadre de l’expérience avec 5M de données.

  • Combinaison de Plusieurs Encodeurs Visuels : Comme observé, différents modèles de vision excellent dans différents aspects des performances MLLM. Nous explorons le potentiel de combiner plusieurs encodeurs visuels pour tirer parti de leurs représentations distinctives. Étant donné que différents modèles de vision utilisent des architectures et des résolutions d’image variables, nous interpolons les jetons visuels de sortie à un nombre fixe, 576. Les résultats sont tabulés, où nous observons des améliorations constantes des performances avec l’ajout de plus de modèles.

Spatial Vision Aggregator (SVA) : Une Nouvelle Conception de Connecteur

Pour agréger efficacement les caractéristiques de plusieurs encodeurs visuels et réduire la perte d’informations lors de l’interpolation, nous utilisons un ensemble de requêtes latentes apprenables qui interagissent avec plusieurs caractéristiques visuelles à travers des couches d’attention croisée. En particulier, notre approche incorpore deux nouveaux principes de conception centrés sur la vision :

  1. Nous encodons un biais inductif spatial en localisant explicitement l’espace d’agrégation pour chaque jeton dans la requête.
  2. Nous effectuons l’agrégation des caractéristiques visuelles plusieurs fois à travers les couches LLM, permettant au modèle de référencer à plusieurs reprises les informations visuelles nécessaires.

Données d’Ajustement des Instructions pour l’Entraînement des MLLMs

Les travaux précédents soulignent l’importance des données dans l’entraînement des MLLMs, mais les investigations explicites sont limitées. Dans cette étude, nous rassemblons toutes les données d’ajustement des instructions disponibles et examinons la curation des données en améliorant la diversité, en équilibrant les sources et en améliorant les mélanges.

  • Collecte de Données : Nous utilisons d’abord des benchmarks multimodaux existants et des ensembles de données impliquant des données d’interaction visuelle, telles que la réponse à des questions visuelles (VQA) et des données OCR. Nous collectons également un petit volume de données de suivi d’instructions en langage de haute qualité pour maintenir sa capacité linguistique.

  • Moteur de Collecte de Données Internet Ciblé : Nous introduisons également un moteur de données conçu pour créer des données d’ajustement des instructions multimodales basées sur la connaissance à grande échelle, fiables et de haute qualité.

  • Cambrian-10M : À cette fin, nous créons un grand ensemble de données d’ajustement des instructions, que nous appelons Cambrian-10M. Cet ensemble contient environ 9784k points de données, offrant une gamme diversifiée de données pour notre travail et les recherches futures. Nous visualisons sa composition.

  • Curation des Données : Cambrian-10M est un grand ensemble de données d’ajustement des instructions provenant de diverses sources de données, avec un ratio de données déséquilibré entre les catégories. Ici, nous prenons une étape préliminaire pour étudier la curation des données en améliorant l’équilibrage des données et en ajustant les ratios de données.

  • Équilibrage des Données : Nous suivons les travaux précédents pour définir des seuils t pour le nombre de points de données provenant d’une seule source de données. Nous choisissons t = 150k, 250k, 350k et 450k dans cette section et observons un effet de coude, constatant qu’un seuil entre 250k et 350k fonctionne le mieux pour Cambrian-10M.

  • Ratio de Données : Étant donné les différentes capacités des différents types de données d’ajustement des instructions visuelles, il est essentiel d’équilibrer le ratio de ces types de données. Nous menons des expériences pilotes avec une taille de jeu de données fixe de 1350k, examinant l’impact de différents ratios de données sur les performances en aval. Nous visualisons les résultats et résumons nos conclusions.

  • Cambrian-7M : En appliquant un filtrage des données à Cambrian-10M avec notre ratio de données identifié, nous créons un ensemble de données plus petit mais de meilleure qualité appelé Cambrian-7M. Nous mettons en évidence les avantages d’un ensemble de données bien équilibré et soigneusement organisé. Malgré un nombre inférieur d’échantillons, Cambrian-7M démontre des performances améliorées.

  • Atténuation du Phénomène de la “Machine à Réponses” via des Prompts Système : Ici, nous étudions un phénomène que nous appelons la “machine à réponses”. Nous observons qu’un MLLM bien entraîné peut exceller dans les benchmarks VQA, mais manquer de capacités conversationnelles de base et se contenter de produire des réponses courtes et brèves. Pour y remédier, nous constatons qu’incorporer des prompts système supplémentaires pendant l’entraînement atténue ce phénomène. Nous ajoutons des prompts tels que “Répondez à la question en utilisant un seul mot ou une phrase.” avant les questions qui génèrent une seule réponse en un mot ou une phrase. Nous observons qu’après l’intégration de ces prompts système, les performances du modèle sur les benchmarks restent inchangées, tandis que sa capacité conversationnelle s’améliore significativement.

Performance de Pointe des MLLMs

Enfin, nous tirons parti des insights de toutes nos études précédentes pour entraîner un modèle Cambrian haute performance. Nous nous entraînons avec trois tailles différentes de colonnes vertébrales LLM : LLaMA-3-Instruct-8B, Vicuna-1.5-13B et Hermes-2-Yi-34B. Notre tour visuel utilise une combinaison de quatre modèles - SigLIP, CLIP, DINOv2 et OpenCLIP ConvNeXt. Nous utilisons 2,5M de données d’adaptateur et les données d’ajustement des instructions Cambrian-7M. Nous évaluons nos modèles sur les benchmarks et tabulons les résultats. Cambrian-1 dépasse d’autres modèles open-source tels que LLaVA-NeXT et Mini-Gemini, et atteint des performances comparables sur un certain nombre de benchmarks avec les meilleurs modèles propriétaires tels que GPT-4V, Gemini-Pro et MM-1.

En conclusion, Cambrian-1 est une famille de MLLMs de pointe qui atteignent des performances de premier plan sur divers benchmarks et excellent dans les tâches centrées sur la vision. Nous fournissons les poids du modèle, le code open-source, les ensembles de données et des recettes détaillées pour l’entraînement et l’évaluation du modèle. Nous espérons que notre travail renforcera la communauté de recherche ouverte et accélérera la recherche à la fois dans l’apprentissage de la représentation visuelle et les systèmes multimodaux.

Source de l’article


Tags

#MLLM#Vision Centrique#Benchmarking

Share

Article précédent
Choisir le bon plan de rémunération des ventes pour vos premiers représentants d'entreprise

Articles similaires

4D Contrastive Superflows
12 juillet 2024
1 min
© 2024, All Rights Reserved.

Liens Rapides

Partenariats et opportunités publicitairesContactez nous

Réseaux Sociaux