AccueilContact

Création de Données Synthétiques avec 1 Milliard de Personas

Publié dans Intelligence Artificielle
3 juillet 2024
2 min read
Création de Données Synthétiques avec 1 Milliard de Personas

Computer Science > Computation and Language

Titre: Scaling Synthetic Data Creation with 1,000,000,000 Personas

Auteurs: Xin Chan et 4 autres

Nous proposons une méthodologie novatrice de synthèse de données axée sur les personas, exploitant diverses perspectives au sein d’un grand modèle de langage (LLM) pour créer des données synthétiques diversifiées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub - une collection de 1 milliard de personas diversifiés automatiquement issus de données web. Ces 1 milliard de personas (~13% de la population mondiale), agissant comme des porteurs distribués de connaissances mondiales, peuvent exploiter presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En présentant les cas d’utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d’instructions (c’est-à-dire des invitations d’utilisateurs), de textes riches en connaissances, de PNJ de jeux et d’outils (fonctions) à grande échelle, nous démontrons que la synthèse de données axée sur les personas est polyvalente, évolutive, flexible et facile à utiliser, pouvant potentiellement entraîner un changement de paradigme dans la création de données synthétiques et leurs applications pratiques, ce qui pourrait avoir un impact profond sur la recherche et le développement de LLM.

Métadonnées supplémentaires

  • Commentaires: Travail en cours
  • Sujets: Computation and Language (cs.CL); Machine Learning (cs.LG)
  • Citer comme: [cs.CL]

Historique des soumissions

De: Xin Chan []

[v1] Ven, 28 juin 2024 17:59:01 UTC (2,583 Ko)

Accès à l’article

  • Voir un PDF de l’article intitulé Scaling Synthetic Data Creation with 1,000,000,000 Personas, par Xin Chan et 4 autres auteurs

Contexte actuel de navigation

  • Domaine actuel: cs.CL

Références et Citations

  • Exporter la citation BibTeX

Marque-page

  • Outils bibliographiques et de citation

Code, Données et Médias Associés à cet Article

  • Liens vers le code

Démonstrations

  • Répliquer
  • Hugging Face Spaces
  • TXYZ.AI

Articles Connexes

  • Recommandations et Outils de Recherche

À propos de arXivLabs

arXivLabs est un cadre qui permet aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Tant les individus que les organisations travaillant avec arXivLabs ont adopté nos valeurs d’ouverture, de communauté, d’excellence et de respect de la vie privée des utilisateurs. arXiv s’engage à ces valeurs et ne travaille qu’avec des partenaires qui les respectent. Avez-vous une idée de projet qui ajoutera de la valeur à la communauté d’arXiv ? Contactez-nous

Source de l’article


Share

Article précédent
Doggo - client DNS en ligne de commande
Article suivant
Conseils de test A B

Articles similaires

4D Contrastive Superflows
12 juillet 2024
1 min
© 2024, All Rights Reserved.

Liens Rapides

Partenariats et opportunités publicitairesContactez nous

Réseaux Sociaux