Nous proposons un cadre qui utilise LLM pour soutenir les modèles RL. Ce cadre affine les décisions RL en fonction des contextes du monde réel et fournit des actions raisonnables lorsque les agents RL prennent des décisions erronées.
- Cas 1: LLM estime que l’action prise par l’Agent RL était déraisonnable et donne une explication raisonnable et des actions recommandées.
- Cas 2: LLM considère que le mouvement effectué par l’Agent RL n’est pas le mouvement avec la plus haute occupation moyenne actuelle, mais il est raisonnable, après quoi LLM donne une explication et une recommandation.
- Cas 3: Une ambulance doit passer par l’intersection, mais l’Agent RL ne prend pas en compte le fait que l’ambulance doit être priorisée. LLM modifie l’action de l’Agent RL pour prioriser le passage de l’ambulance par l’intersection.
- Installer TransSimHub: Cloner le dépôt GitHub et suivre les étapes d’installation.
- Installer HARLA: Cloner le dépôt GitHub et installer les dépendances.
- Exécuter HARLA localement: Entraîner le modèle RL, tester l’effet du modèle RL, et essayer RL+LLM.
Tous les actifs et le code de ce dépôt sont sous licence MIT sauf indication contraire. Les données linguistiques sont sous licence CC0. Veuillez citer notre projet s’il vous aide dans votre recherche.
HARLA explore simplement la combinaison de RL et LLM, plus de travaux seront mis à jour dans le futur. Bienvenue pour étoiler!
- Yufei Teng: Merci d’avoir édité la vidéo.
- **Merci à tous ceux qui prêtent attention à notre travail. Espérons que notre travail puisse vous aider.
Source de l’article