Stable Video Diffusion : Stability AI présente son premier modèle de génération de vidéo
Stability AI, une entreprise de renommée basée à Londres et San Francisco, a récemment élargi son portfolio avec le lancement de Stable Video Diffusion. Ce modèle, faisant suite à leur succès avec Stable Diffusion pour la génération d’images, est actuellement en phase de preview et réservé à la recherche.
Stable Video Diffusion est un modèle de diffusion latente capable de créer des clips vidéo courts. Il comprend deux versions : SVD et SVD-XT, générant respectivement 14 et 25 images par seconde. Les utilisateurs peuvent ajuster le taux de FPS (3 à 30) pour des effets variés.
Le modèle peut générer des clips basés sur des invites textuelles et a été développé grâce à un processus d’entraînement rigoureux, utilisant plus de 2 millions d’images et 300 000 vidéos de sources diverses. Son efficacité a été démontrée dans des études de préférence utilisateur, surpassant d’autres modèles concurrents.
Limitations du modèle
Malgré ses capacités, Stable Video Diffusion présente des limites, notamment la durée maximale des clips (4 secondes) et des difficultés à générer des mouvements fluides, des visages et des personnes. Stability AI prévoit d’améliorer et d’étendre ses modèles, notamment avec des outils de texte-vidéo pour des applications variées.
Le code est accessible sur le dépôt GitHub de Stability AI, et les poids pour l’exécution locale sont disponibles sur Hugging Face.
Pour tester le modèle, deux solutions sont proposées : stable-video-diffusion sur Replicate et un Google Colab.
Stable Video Diffusion promet d’être une avancée significative dans la génération de contenu vidéo, avec des applications potentielles en publicité, éducation et divertissement. Les chercheurs soulignent l’importance du choix des données pour la qualité du résultat, et leur approche structurée en trois étapes pour l’entraînement du modèle.
En dépit de ses capacités impressionnantes, le modèle fait face à des défis, comme la génération de mouvements fluides et la représentation précise des visages et des personnes. Les modifications et extensions prévues par Stability AI visent à surmonter ces limitations.
Pour en savoir plus et expérimenter avec ce modèle, les intéressés peuvent accéder au code sur le dépôt GitHub de Stability AI et télécharger les poids nécessaires depuis Hugging Face. De plus, des démos sont disponibles sur Replicate et Google Colab pour tester la création de vidéos.
La recherche derrière Stable Video Diffusion a été menée par une équipe internationale d’experts, et le papier détaillant leurs travaux est accessible au public.