Création de Données Synthétiques avec 1 Milliard de Personas

Publié dans Intelligence Artificielle

3 juillet 2024

2 min read

Création de Données Synthétiques avec 1 Milliard de Personas

Computer Science > Computation and Language

Titre: Scaling Synthetic Data Creation with 1,000,000,000 Personas

Auteurs: Xin Chan et 4 autres

Nous proposons une méthodologie novatrice de synthèse de données axée sur les personas, exploitant diverses perspectives au sein d’un grand modèle de langage (LLM) pour créer des données synthétiques diversifiées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub - une collection de 1 milliard de personas diversifiés automatiquement issus de données web. Ces 1 milliard de personas (~13% de la population mondiale), agissant comme des porteurs distribués de connaissances mondiales, peuvent exploiter presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En présentant les cas d’utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d’instructions (c’est-à-dire des invitations d’utilisateurs), de textes riches en connaissances, de PNJ de jeux et d’outils (fonctions) à grande échelle, nous démontrons que la synthèse de données axée sur les personas est polyvalente, évolutive, flexible et facile à utiliser, pouvant potentiellement entraîner un changement de paradigme dans la création de données synthétiques et leurs applications pratiques, ce qui pourrait avoir un impact profond sur la recherche et le développement de LLM.

Métadonnées supplémentaires

Commentaires: Travail en cours
Sujets: Computation and Language (cs.CL); Machine Learning (cs.LG)
Citer comme: [cs.CL]

Historique des soumissions

De: Xin Chan []

[v1] Ven, 28 juin 2024 17:59:01 UTC (2,583 Ko)

Accès à l’article

Voir un PDF de l’article intitulé Scaling Synthetic Data Creation with 1,000,000,000 Personas, par Xin Chan et 4 autres auteurs

Domaine actuel: cs.CL

Références et Citations

Exporter la citation BibTeX

Marque-page

Outils bibliographiques et de citation

Code, Données et Médias Associés à cet Article

Liens vers le code

Démonstrations

Répliquer
Hugging Face Spaces
TXYZ.AI

À propos de arXivLabs

arXivLabs est un cadre qui permet aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Tant les individus que les organisations travaillant avec arXivLabs ont adopté nos valeurs d’ouverture, de communauté, d’excellence et de respect de la vie privée des utilisateurs. arXiv s’engage à ces valeurs et ne travaille qu’avec des partenaires qui les respectent. Avez-vous une idée de projet qui ajoutera de la valeur à la communauté d’arXiv ? Contactez-nous

Source de l’article

Article précédent

Doggo - client DNS en ligne de commande

Article suivant

Conseils de test A B

Création de Données Synthétiques avec 1 Milliard de Personas

Computer Science > Computation and Language

Titre: Scaling Synthetic Data Creation with 1,000,000,000 Personas

Auteurs: Xin Chan et 4 autres

Métadonnées supplémentaires

Historique des soumissions

Accès à l’article

Contexte actuel de navigation

Références et Citations

Marque-page

Code, Données et Médias Associés à cet Article

Démonstrations

Articles Connexes

À propos de arXivLabs

Share

Articles similaires

Création de Données Synthétiques avec 1 Milliard de Personas

.css-1m0jvhi{box-sizing:border-box;margin:0;min-width:0;display:block;color:var(--theme-ui-colors-heading,#edf2f7);font-weight:bold;-webkit-text-decoration:none;text-decoration:none;margin-bottom:1rem;font-size:1.25rem;position:relative;}Auteurs: Xin Chan et 4 autres

Share

Articles similaires

Auteurs: Xin Chan et 4 autres