Nous proposons une méthodologie novatrice de synthèse de données axée sur les personas, exploitant diverses perspectives au sein d’un grand modèle de langage (LLM) pour créer des données synthétiques diversifiées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub - une collection de 1 milliard de personas diversifiés automatiquement issus de données web. Ces 1 milliard de personas (~13% de la population mondiale), agissant comme des porteurs distribués de connaissances mondiales, peuvent exploiter presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En présentant les cas d’utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d’instructions (c’est-à-dire des invitations d’utilisateurs), de textes riches en connaissances, de PNJ de jeux et d’outils (fonctions) à grande échelle, nous démontrons que la synthèse de données axée sur les personas est polyvalente, évolutive, flexible et facile à utiliser, pouvant potentiellement entraîner un changement de paradigme dans la création de données synthétiques et leurs applications pratiques, ce qui pourrait avoir un impact profond sur la recherche et le développement de LLM.
De: Xin Chan []
[v1] Ven, 28 juin 2024 17:59:01 UTC (2,583 Ko)
arXivLabs est un cadre qui permet aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Tant les individus que les organisations travaillant avec arXivLabs ont adopté nos valeurs d’ouverture, de communauté, d’excellence et de respect de la vie privée des utilisateurs. arXiv s’engage à ces valeurs et ne travaille qu’avec des partenaires qui les respectent. Avez-vous une idée de projet qui ajoutera de la valeur à la communauté d’arXiv ? Contactez-nous