Titre: PerlDiff: Synthèse contrôlable de vues de rue en utilisant des modèles de diffusion de mise en page perspective
[Submitted on 8 Jul 2024]
Résumé: La génération contrôlable est considérée comme une approche potentiellement vitale pour relever le défi de l’annotation des données 3D, et la précision de cette génération contrôlable devient particulièrement impérative dans le contexte de la production de données pour la conduite autonome. Les méthodes existantes se concentrent sur l’intégration d’informations génératives diverses dans les entrées de contrôle, en utilisant des cadres tels que GLIGEN ou ControlNet, pour produire des résultats louables en génération contrôlable. Cependant, de telles approches restreignent intrinsèquement les performances de génération aux capacités d’apprentissage des architectures de réseau prédéfinies. Dans cet article, nous explorons l’intégration d’informations de contrôle et introduisons PerlDiff (Perspective-Layout Diffusion Models), une méthode de génération efficace d’images de vues de rue qui exploite pleinement les informations géométriques 3D de perspective. Notre PerlDiff utilise des a priori géométriques 3D pour guider la génération d’images de vues de rue avec un contrôle précis au niveau de l’objet dans le processus d’apprentissage du réseau, ce qui se traduit par une sortie plus robuste et contrôlable. De plus, il démontre une supériorité en termes de contrôlabilité par rapport aux méthodes de contrôle de mise en page alternatives. Les résultats empiriques justifient que notre PerlDiff améliore nettement la précision de la génération sur les ensembles de données NuScenes et KITTI. Nos codes et modèles sont disponibles publiquement sur [lien].
Tags: Computer Vision and Pattern Recognition (cs.CV)