Une équipe du laboratoire Hunyuan de Tencent a créé une nouvelle IA, « Hunyuan Video-Foley », qui apporte enfin une qualité sonore réaliste aux vidéos générées. Elle est conçue pour écouter les vidéos et générer une bande son de haute qualité parfaitement synchronisée avec l’action à l’écran.
Avez-vous déjà regardé une vidéo générée par une IA et eu l’impression qu’il manquait quelque chose? Les visuels peuvent être époustouflants, mais ils ont souvent un silence étrange qui rompt le charme. Dans l’industrie cinématographique, le son qui remplit ce silence – le bruit des feuilles, le clapotis du tonnerre, le tintement d’un verre – est appelé art Foley, et c’est un métier minutieux exercé par des experts.
Atteindre ce niveau de détail est un énorme défi pour l’IA. Pendant des années, les systèmes automatisés ont eu du mal à créer des sons convaincants pour les vidéos.
Comment Tencent résout-il le problème de l’audio généré par l’IA pour les vidéos?
Une des principales raisons pour lesquelles les modèles vidéo vers audio (V2A) ont souvent pêché dans le département du son était ce que les chercheurs appellent « déséquilibre de modalité ». Essentiellement, l’IA écoutait davantage les instructions textuelles qui lui étaient données que la vidéo réelle.
Par exemple, si vous donniez à un modèle une vidéo d’une plage animée avec des gens qui marchent et des mouettes qui volent, mais que l’instruction textuelle ne disait que « le son des vagues de l’océan », vous obtiendriez probablement juste le son des vagues. L’IA ignorerait complètement les pas dans le sable et les cris des oiseaux, rendant la scène sans vie.
En plus de cela, la qualité de l’audio était souvent médiocre, et il n’y avait tout simplement pas suffisamment de vidéos de haute qualité avec du son pour entraîner efficacement les modèles.
L’équipe Hunyuan de Tencent a abordé ces problèmes sous trois angles différents :
1. Tencent a réalisé que l’IA avait besoin d’une meilleure éducation, alors ils ont construit une immense bibliothèque de 100 000 heures de vidéo, d’audio et de descriptions textuelles pour qu’elle puisse apprendre. Ils ont créé un pipeline automatisé qui filtrait le contenu de faible qualité sur internet, éliminant les clips avec de longs silences ou un audio compressé et flou, garantissant que l’IA apprenait à partir du matériel le meilleur possible.
2. Ils ont conçu une architecture plus intelligente pour l’IA. Pensez à lui apprendre à bien jongler. Le système accorde une attention incroyablement étroite au lien audio-visuel pour obtenir le timing parfait – comme faire correspondre le bruit d’un pas exactement au moment où une chaussure frappe le trottoir. Une fois ce timing verrouillé, il intègre ensuite l’instruction textuelle pour comprendre l’ambiance générale et le contexte de la scène. Cette approche double garantit que les détails spécifiques de la vidéo ne sont jamais négligés.
3. Pour garantir que le son était de haute qualité, ils ont utilisé une stratégie d’entraînement appelée Alignement de Représentation (REPA). C’est comme avoir un ingénieur du son expert regardant constamment par-dessus l’épaule de l’IA pendant sa formation. Il compare le travail de l’IA aux caractéristiques d’un modèle audio pré-entraîné et de qualité professionnelle pour le guider vers la production d’un son plus propre, plus riche et plus stable.
Les résultats parlent d’eux-mêmes
Lorsque Tencent a testé Hunyuan Video-Foley par rapport à d’autres modèles IA de premier plan, les résultats audio étaient clairs. Ce n’était pas seulement que les mesures basées sur l’ordinateur étaient meilleures ; les auditeurs humains ont systématiquement évalué sa production comme étant de meilleure qualité, mieux adaptée à la vidéo et plus précisément chronométrée.
Dans l’ensemble, l’IA a apporté des améliorations en faisant correspondre le son à l’action à l’écran, tant en termes de contenu que de timing. Les résultats sur plusieurs ensembles de données d’évaluation soutiennent cette affirmation.
Le travail de Tencent contribue à combler l’écart entre les vidéos silencieuses de l’IA et une expérience de visionnage immersive avec un son de qualité. Il apporte la magie de l’art Foley dans le monde de la création de contenu automatisée, ce qui pourrait être une capacité puissante pour les cinéastes, les animateurs et les créateurs du monde entier.


