Résumé
Dans cet article, nous présentons Ctrl-G, un cadre adaptable qui facilite le contrôle tractable et flexible de la génération de modèles de langage pour suivre de manière fiable des contraintes logiques. En combinant tout LLM prêt à la production avec un modèle de Markov caché, Ctrl-G permet aux sorties LLM de respecter des contraintes logiques représentées sous forme d’automates finis déterministes. Nous montrons que Ctrl-G, appliqué à un modèle TULU2-7B, surpasse GPT3.5 et GPT4 dans la tâche d’édition de texte interactive : spécifiquement, pour la génération d’insertions/continuations de texte suivant des contraintes logiques, Ctrl-G atteint un taux de satisfaction humaine supérieur de plus de 30% par rapport à GPT4. Lorsqu’il est appliqué à des modèles de langage de taille moyenne (par exemple, GPT2-large), Ctrl-G bat également ses homologues pour la génération contrainte avec de larges marges sur des benchmarks standard. De plus, dans le cadre d’une étude de preuve de concept, nous expérimentons Ctrl-G sur le benchmark de mathématiques de l’école primaire pour aider le raisonnement LLM, préfigurant l’application de Ctrl-G, ainsi que d’autres approches de génération contrainte, au-delà des tâches traditionnelles de génération de langage.
Tags