Dans le domaine de l’ingénierie électrique et des sciences des systèmes, plus précisément dans le traitement audio et de la parole, une nouvelle approche révolutionnaire a été développée : DEX-TTS. Ce modèle acoustique, conçu pour la synthèse de la parole basée sur des références, offre des représentations de style améliorées. En se basant sur un cadre général de TTS par diffusion, DEX-TTS intègre des encodeurs et des adaptateurs pour gérer les styles extraits de la parole de référence. Les innovations clés incluent la différenciation des styles en catégories invariantes dans le temps et variantes dans le temps pour une extraction efficace du style, ainsi que la conception d’encodeurs et d’adaptateurs avec une grande capacité de généralisation. De plus, des stratégies de patchification superposée et d’incorporation de patch de convolution-fréquence sont introduites pour améliorer les réseaux de diffusion basés sur DiT pour le TTS. DEX-TTS offre des performances exceptionnelles en termes d’évaluation objective et subjective dans des ensembles de données multi-locuteurs en anglais et multi-locuteurs émotionnels, sans recourir à des stratégies de pré-entraînement. Enfin, les résultats de comparaison pour le TTS général sur un ensemble de données à locuteur unique confirment l’efficacité de notre infrastructure de diffusion améliorée. Des démonstrations sont disponibles ici.