Cambrian-1 est une famille de MLLMs multimodaux conçus avec une approche vision-centric. Alors que des modèles linguistiques plus puissants peuvent améliorer les capacités multimodales, les choix de conception pour les composants visuels sont souvent insuffisamment explorés et déconnectés de la recherche sur l’apprentissage de la représentation visuelle.
Cambrian-1 est structuré autour de cinq piliers clés, offrant chacun des aperçus importants de l’espace de conception des MLLMs:
Cambrian-1 n’atteint pas seulement des performances de pointe, mais sert également de livre de recettes complet et ouvert pour les MLLMs ajustés aux instructions. Nous fournissons des recettes détaillées d’ajustement et d’évaluation. Nous espérons que notre publication inspirera et accélérera les avancées dans les systèmes multimodaux et l’apprentissage de la représentation visuelle.
Nous comparons les performances entre les paramètres désactivés et activés de la vision à travers les MLLMs formés avec 23 différentes colonnes vertébrales de vision. Nos résultats révèlent que certains benchmarks tels que MMMU et AI2D sont moins dépendants des entrées visuelles, tandis que d’autres comme MMVP et MME connaissent des baisses de performance significatives, indiquant leur évaluation efficace de la multimodalité.
En analysant les performances des MLLMs à travers divers benchmarks, des clusters distincts émergent, catégorisés comme “Général”, “Connaissance”, “Graphique & OCR” et “Centré sur la Vision”. Nous constatons également que les benchmarks centrés sur la vision sont sous-représentés dans le paysage d’évaluation actuel.
Les MLLMs connectent des colonnes vertébrales LLM pré-entraînées et de vision en utilisant un connecteur tel qu’un projecteur MLP. Diverses études ont suggéré différentes méthodologies d’entraînement optimales pour les MLLMs.
Les MLLMs offrent une évaluation plus réaliste des représentations visuelles que les benchmarks traditionnels comme ImageNet-1k. Nous utilisons un ajustement d’instructions en deux étapes avec 1,2M de données d’adaptateur et 737K de données de fine-tuning pour comparer une variété de modèles de vision sur les performances MLLM en aval. Nos évaluations montrent que les modèles supervisés par le langage présentent des avantages significatifs dans toutes les catégories de benchmarks, en particulier dans les tâches OCR & graphique. Cependant, malgré la taille plus petite de l’ensemble de données des modèles SSL comme DINOv2, ils se comportent de manière compétitive dans les benchmarks centrés sur la vision.
Réduction de l’Écart entre les Modèles CLIP et SSL : Nous observons que DINOv2 se situe à mi-chemin entre les modèles SSL et CLIP sur les tâches VQA générales et de connaissance, surpassant même certains modèles CLIP sur les benchmarks centrés sur la vision avec une résolution plus élevée. Nous étudions le dégel des colonnes vertébrales de vision et l’augmentation de la quantité de données de fine-tuning visuel pour réduire cet écart. Nous observons que en dégelant la colonne vertébrale de vision, le MLLM basé sur DINOv2 fine-tuné avec 5M de données dépasse le MLLM entraîné avec un modèle CLIP sur 0,7M de données. De plus, l’écart entre DINOv2 et les modèles CLIP est réduit dans le cadre de l’expérience avec 5M de données.
Combinaison de Plusieurs Encodeurs Visuels : Comme observé, différents modèles de vision excellent dans différents aspects des performances MLLM. Nous explorons le potentiel de combiner plusieurs encodeurs visuels pour tirer parti de leurs représentations distinctives. Étant donné que différents modèles de vision utilisent des architectures et des résolutions d’image variables, nous interpolons les jetons visuels de sortie à un nombre fixe, 576. Les résultats sont tabulés, où nous observons des améliorations constantes des performances avec l’ajout de plus de modèles.
Pour agréger efficacement les caractéristiques de plusieurs encodeurs visuels et réduire la perte d’informations lors de l’interpolation, nous utilisons un ensemble de requêtes latentes apprenables qui interagissent avec plusieurs caractéristiques visuelles à travers des couches d’attention croisée. En particulier, notre approche incorpore deux nouveaux principes de conception centrés sur la vision :
Les travaux précédents soulignent l’importance des données dans l’entraînement des MLLMs, mais les investigations explicites sont limitées. Dans cette étude, nous rassemblons toutes les données d’ajustement des instructions disponibles et examinons la curation des données en améliorant la diversité, en équilibrant les sources et en améliorant les mélanges.
Collecte de Données : Nous utilisons d’abord des benchmarks multimodaux existants et des ensembles de données impliquant des données d’interaction visuelle, telles que la réponse à des questions visuelles (VQA) et des données OCR. Nous collectons également un petit volume de données de suivi d’instructions en langage de haute qualité pour maintenir sa capacité linguistique.
Moteur de Collecte de Données Internet Ciblé : Nous introduisons également un moteur de données conçu pour créer des données d’ajustement des instructions multimodales basées sur la connaissance à grande échelle, fiables et de haute qualité.
Cambrian-10M : À cette fin, nous créons un grand ensemble de données d’ajustement des instructions, que nous appelons Cambrian-10M. Cet ensemble contient environ 9784k points de données, offrant une gamme diversifiée de données pour notre travail et les recherches futures. Nous visualisons sa composition.
Curation des Données : Cambrian-10M est un grand ensemble de données d’ajustement des instructions provenant de diverses sources de données, avec un ratio de données déséquilibré entre les catégories. Ici, nous prenons une étape préliminaire pour étudier la curation des données en améliorant l’équilibrage des données et en ajustant les ratios de données.
Équilibrage des Données : Nous suivons les travaux précédents pour définir des seuils t pour le nombre de points de données provenant d’une seule source de données. Nous choisissons t = 150k, 250k, 350k et 450k dans cette section et observons un effet de coude, constatant qu’un seuil entre 250k et 350k fonctionne le mieux pour Cambrian-10M.
Ratio de Données : Étant donné les différentes capacités des différents types de données d’ajustement des instructions visuelles, il est essentiel d’équilibrer le ratio de ces types de données. Nous menons des expériences pilotes avec une taille de jeu de données fixe de 1350k, examinant l’impact de différents ratios de données sur les performances en aval. Nous visualisons les résultats et résumons nos conclusions.
Cambrian-7M : En appliquant un filtrage des données à Cambrian-10M avec notre ratio de données identifié, nous créons un ensemble de données plus petit mais de meilleure qualité appelé Cambrian-7M. Nous mettons en évidence les avantages d’un ensemble de données bien équilibré et soigneusement organisé. Malgré un nombre inférieur d’échantillons, Cambrian-7M démontre des performances améliorées.
Atténuation du Phénomène de la “Machine à Réponses” via des Prompts Système : Ici, nous étudions un phénomène que nous appelons la “machine à réponses”. Nous observons qu’un MLLM bien entraîné peut exceller dans les benchmarks VQA, mais manquer de capacités conversationnelles de base et se contenter de produire des réponses courtes et brèves. Pour y remédier, nous constatons qu’incorporer des prompts système supplémentaires pendant l’entraînement atténue ce phénomène. Nous ajoutons des prompts tels que “Répondez à la question en utilisant un seul mot ou une phrase.” avant les questions qui génèrent une seule réponse en un mot ou une phrase. Nous observons qu’après l’intégration de ces prompts système, les performances du modèle sur les benchmarks restent inchangées, tandis que sa capacité conversationnelle s’améliore significativement.
Enfin, nous tirons parti des insights de toutes nos études précédentes pour entraîner un modèle Cambrian haute performance. Nous nous entraînons avec trois tailles différentes de colonnes vertébrales LLM : LLaMA-3-Instruct-8B, Vicuna-1.5-13B et Hermes-2-Yi-34B. Notre tour visuel utilise une combinaison de quatre modèles - SigLIP, CLIP, DINOv2 et OpenCLIP ConvNeXt. Nous utilisons 2,5M de données d’adaptateur et les données d’ajustement des instructions Cambrian-7M. Nous évaluons nos modèles sur les benchmarks et tabulons les résultats. Cambrian-1 dépasse d’autres modèles open-source tels que LLaVA-NeXT et Mini-Gemini, et atteint des performances comparables sur un certain nombre de benchmarks avec les meilleurs modèles propriétaires tels que GPT-4V, Gemini-Pro et MM-1.
En conclusion, Cambrian-1 est une famille de MLLMs de pointe qui atteignent des performances de premier plan sur divers benchmarks et excellent dans les tâches centrées sur la vision. Nous fournissons les poids du modèle, le code open-source, les ensembles de données et des recettes détaillées pour l’entraînement et l’évaluation du modèle. Nous espérons que notre travail renforcera la communauté de recherche ouverte et accélérera la recherche à la fois dans l’apprentissage de la représentation visuelle et les systèmes multimodaux.