Seedance 2.0 sur Higgsfield : Worflow

Labo Des Réseaux

Seedance 2.0 est disponible sur Higgsfield : https://higgsfield.ai/s/higgsfield-seedance-2-0-labodesreseaux-GyhZoO

Transcript

00:04Ce que tu vois là, c'est de l'IA.

00:11Pas de caméra, pas d'acteur, pas d'animateur, pas de budget de production.

00:24Seed Dance 2.0 vient de changer les règles du jeu et il est dispo sur X-Field.

00:33Seed Dance 2.0, c'est le modèle de vidéo IA de ByteDance et disons-le, c'est actuellement le

00:40modèle le plus performant du marché.

00:42Ses atouts, il est possible de faire des multiplans, plusieurs scènes au sein d'une même vidéo avec des personnages

00:47cohérents du début à la fin.

00:48Et pas besoin d'outils complexes, il suffit simplement d'indiquer dans ton prompt les différentes scènes pour que le

00:54modèle les intègre à ta vidéo.

00:55Le son est généré en même temps que la vidéo et on a du lip-sync sur les dialogues, une

01:00physique réaliste, collision, mouvement, matière crédible,

01:04la possibilité d'apporter des contrôles caméra et de faire de la réalisation, tracking, slow motion, bullet time.

01:12Pour la durée, on aura la possibilité de faire jusqu'à 15 secondes de vidéo et la génération de vidéo

01:17elle-même est plutôt rapide, entre 2 et 3 minutes par vidéo.

01:21Alors sur le papier, c'est très bien, mais qu'en est-il en vrai ?

01:25Dans cette vidéo, on va tester SeedDance 2.0 et ses différentes capacités.

01:30Ça tombe bien, le modèle est maintenant disponible sur Xfield.

01:33Et on notera, on a de la chance car on peut utiliser SeedDance 2.0 en France, ce qui n

01:39'est pas le cas de tous les pays.

01:40Il est notamment toujours indisponible aux Etats-Unis et au Japon au moment où j'enregistre cette vidéo.

01:46Et point important, si tu veux utiliser SeedDance 2.0 au meilleur prix, Xfield est actuellement l'une des options

01:53les plus intéressantes.

01:54En comparant avec d'autres plateformes, c'est sur Xfield que le coût par génération ressort comme le plus bas.

02:01Du coup, sur Xfield, j'ai déjà réalisé l'ensemble de mes tests et je vais t'expliquer un peu

02:06ces derniers, les résultats obtenus et parfois les limites auxquelles je me suis heurté.

02:12Car si SeedDance 2.0 est un modèle qui impressionne, son utilisation peut être parfois un peu frustrante vis-à

02:20-vis des restrictions du modèle.

02:21Je vais t'expliquer ça en détail.

02:23Donc là, je suis sur Xfield dans l'onglet Create Video.

02:27Et du coup, à gauche, je vais avoir ma barre de prompte avec la possibilité donc de sélectionner le modèle

02:33SeedDance 2.0.

02:35J'ai également l'accès à la version 2.fast qui coûte un peu moins de crédit.

02:39En texte ou vidéo, par exemple, SeedDance 2.0, c'est 90 crédits.

02:43Si je passe sur le modèle Fast, là, c'est 53 crédits.

02:47Et comme je te disais, il y a la possibilité de faire jusqu'à 15 secondes de vidéo.

02:52Au niveau des formats, on a 16 9e, 9 16e et les autres formats classiques.

02:57Et au niveau de la résolution, pour l'instant, c'est 720p maximum sur le modèle standard.

03:03Pour les références, je peux donner à SeedDance des images, des vidéos et des audios.

03:07Soit je charge mes éléments, soit je vais directement dans ma bibliothèque d'images Xfield.

03:12Si j'ai généré des images sur Xfield.

03:15Et la particularité pour SeedDance, il va falloir que je soumette l'éligibilité du design.

03:21Par exemple, celui-ci que je n'ai pas encore soumis.

03:23Je fais Check Eligibility.

03:25Et ensuite, il est Accepté ou Refusé.

03:28Et par exemple, là, j'ai vu certains se faire refuser.

03:31Pour te donner une idée, les visages humains, j'ai un peu de mal.

03:34Et j'ai aussi des problèmes avec le style animé.

03:37A toi de tester.

03:37Là, c'est passé avec ces deux personnages références en style animé.

03:41Et pour ce premier test, j'ai voulu tester le lip-sync.

03:45Et du coup, je leur ai donné un dialogue en français.

03:47Un premier personnage, le personnage blond qui dit

03:49« Tu penses pouvoir donner la solution ? »

03:51Et l'autre qui répond « Je ne sais pas, je pense qu'on est bloqué. »

03:54Voyons ce que ça donne.

03:56« Tu penses pouvoir me donner la solution ? »

04:03« Je ne sais pas, je pense qu'on est bloqué. »

04:06Donc, un très bon résultat sur le lip-sync.

04:10Après, j'ai réussi aussi avec un visage humain en image to video avec mon avatar.

04:15Et c'est pareil, là, je lui ai donné un texte à prononcer en français.

04:19« Bonjour, bienvenue sur le Labo des Réseaux.

04:22Aujourd'hui, on va parler de vidéo IA. »

04:26Donc là, super résultat au niveau du lip-sync.

04:29Et ce que j'ai essayé de faire, vu qu'on peut donner de l'audio,

04:32j'ai donné un sample de ma voix.

04:34Donc, au départ, j'ai essayé en lui disant de faire prononcer à l'avatar l'audio que je lui

04:38ai donné.

04:39« Donc, Cédric 2.0, c'est quoi ? »

04:44« C'est une personne virtuelle. »

04:47Alors là, il a dit un peu n'importe quoi.

04:49Par contre, il a bien repris ma voix.

04:50Et du coup, j'ai affiné avec mon image de référence,

04:53avec un audio de référence avec ma voix.

04:56Et par contre, dans le prompt, cette fois-ci, je lui ai indiqué,

04:59utilise cette voix pour faire dire à l'avatar

05:02« Bonjour, bienvenue sur le Labo des Réseaux.

05:03Aujourd'hui, on va parler de vidéo IA. »

05:05Et voilà ce que ça donne.

05:07« Salut, bienvenue sur le Labo des Réseaux.

05:09Aujourd'hui, on va parler de vidéo IA. »

05:12C'est donc assez impressionnant de voir qu'avec le simple de ma voix,

05:15et il a pu créer facilement un avatar avec ma voix personnalisée

05:20et répéter le texte que je lui ai donné en prompte, avec un super lepsi.

05:24Un des tests qu'il me tardait le plus de faire,

05:26c'est cette capacité à pouvoir créer une vidéo

05:29à partir de beaucoup d'éléments différents.

05:33Donc, ça va être 12 éléments,

05:34mais en vérité, ça va être jusqu'à 9 images.

05:37Et ensuite, on va pouvoir y ajouter de l'audio ou de la vidéo.

05:41Sur mes premiers tests, c'était un peu un échec.

05:43J'ai essayé de mettre un maximum d'images.

05:45Il a semblé quand même un peu bloqué.

05:47Du coup, j'ai revu un peu les ambitions à la baisse

05:50en lui donnant seulement 5 éléments différents,

05:52ce qui est déjà pas mal.

05:545 images de référence.

05:55Donc, tous ces éléments, c'est des images

05:57que j'ai directement générées

05:59depuis l'outil image de Xfield,

06:02en utilisant notamment Nano Banana 2.

06:05Et c'est ce qui est bien au moment de la création de ma vidéo.

06:07Il me suffit simplement de cliquer sur Upload Media.

06:11Et quand je vais dans Images Generation,

06:13j'ai du coup accès à toutes les images

06:14que j'ai créées sur Xfield.

06:16Donc là, en référence, je lui ai donné

06:18l'image de mon perso principal,

06:20un chat dans sa cuisine avec un tablier bleu.

06:22La photo de son grand-père,

06:24du coup, qu'il va regarder au mur.

06:27La sauce secrète soja de papy,

06:29qui est un élément clé de mon histoire.

06:31Un plateau de sushi.

06:33Le décor de la cuisine dans lequel

06:34il va préparer ses sushis.

06:36Et le décor du salon pour la fin de la séquence,

06:39où il va servir à table les sushis

06:42à sa femme et à sa mère,

06:45très émue, puisqu'il a utilisé

06:46la sauce secrète de son grand-père.

06:49Au niveau du prompt, du coup,

06:50j'ai raconté un petit peu cette histoire.

06:52Et j'ai mon histoire de 15 secondes

06:53avec tous les éléments cités présents dedans.

06:58Voilà le résultat.

07:13Bon, ça, c'était pour tester

07:14quelques fonctionnalités clés.

07:16Et là, on va continuer les tests.

07:18Et cette fois-ci, on va mettre à l'épreuve

07:21les capacités du modèle.

07:23Petite parenthèse, pour les promptes,

07:25si tu utilises CloudXfield à partager un CloudSkill

07:29pour t'aider à rédiger des prompts parfaits

07:31sur SidDance 2.0,

07:33je te mets le lien pour accéder à ce CloudSkill

07:35en description de la vidéo.

07:37Un CloudSkill, ça s'intègre facilement

07:39depuis tes paramètres Cloud.

07:41Après, si tu as plus l'habitude d'utiliser

07:43ChatGPT, il y a également des GPTs

07:45spécialisés dans la rédaction de prompts

07:48SidDance 2.0.

07:49Après, tu peux aussi utiliser

07:51un chatbot de façon classique

07:53pour composer tes prompts, ça marche très bien.

07:55Au cours de mes tests, moi, j'ai testé

07:57les prompts en français, en anglais, en JSON.

08:01La compréhension de SidDance 2.0 est très bonne.

08:04Sur cette nouvelle série de tests,

08:06on va faire du texte tout vidéo.

08:09Et on va commencer par un test

08:10pour tester la physique réaliste

08:12et la caméra immersive

08:14avec un style POV,

08:16avec notamment un chevalier

08:17sur le champ de bataille.

08:33Voilà, assez cool,

08:35avec aussi cet effet de ralenti

08:36ajouté à la séquence

08:37comme demandé dans le prompt.

08:39L'ensemble est plutôt cohérent,

08:41ça bouge vite, c'est fluide

08:43et on n'a pas de grosses anomalies,

08:45donc vraiment un très bon résultat.

08:47Un autre test pour le POV,

08:49mais cette fois-ci sur un ring de catch,

08:51un peu plus rigolo, on va voir ce que ça donne.

09:08Donc c'est dommage,

09:09on a une petite incohérence au milieu

09:11au moment où le catcheur tente de se retourner.

09:13Sinon la vidéo est réussie et très marrante.

09:15Et ce qui est étonnant,

09:16c'est que cette vidéo,

09:18j'ai essayé de la refaire

09:19avec le bouton Rerun,

09:20donc en utilisant exactement

09:22les mêmes paramètres

09:23et le même prompt,

09:24mais la deuxième fois,

09:25il me l'a refusé.

09:26Là vraiment, on voit

09:27les limites actuelles de Seed Dance

09:29qui est un modèle

09:29avec des restrictions

09:31et cette restriction,

09:32elle peut être aléatoire.

09:34Test numéro 2,

09:35cette fois-ci avec une course poursuite

09:36urbaine la nuit.

09:38On va tester ici

09:39le tracking caméra

09:40et aussi l'effet bullet time.

09:42Et voilà ce que ça donne.

09:53Très sympa

09:54et j'ai fait le même test aussi

09:55mais cette fois-ci

09:56en format vertical

09:57ici aussi avec un résultat

09:58très maîtrisé.

10:14On notera d'ailleurs sur ce test,

10:16au départ dans mon prompt,

10:17j'avais mentionné la ville de Tokyo

10:19et je me suis fait plusieurs fois bloquer

10:21et du coup j'ai changé

10:22pour une ville japonaise.

10:24Dans ce souci de protection de droit,

10:25c'est des petits détails

10:27qui peuvent empêcher Seed Dance

10:29de réaliser ta vidéo.

10:30Donc mieux vaut utiliser

10:32des termes plus génériques

10:33que des termes précis.

10:35En tout cas,

10:35si tu vois que ça bloque,

10:36tu peux toujours changer là-dessus.

10:38D'ailleurs,

10:38à noter dans Xfield,

10:39quand j'ai une vidéo qui bloque,

10:41mes crédits sont remboursés.

10:43Donc ça c'est bien.

10:44Je peux faire mes tests

10:45sans avoir peur

10:46à ce que je sois censuré

10:48et perdre des crédits.

10:49Donc n'hésite pas comme ça

10:50si tu as une idée,

10:51si ça ne marche pas du premier coup,

10:52à modifier un peu ton prompt

10:54pour obtenir un résultat viable.

10:56Sur le test numéro 3,

10:58on a testé le multi-plan

11:00avec dans mon prompt

11:00une indication

11:01plan numéro 1,

11:02plan numéro 2,

11:03plan numéro 3,

11:04simple,

11:05avec une scène de cambriolage

11:07et voyons un peu ce que ça donne.

11:22Donc là,

11:22plutôt sympa,

11:23il a réussi à caler tous mes plans.

11:25Malgré tout,

11:26on voit que le modèle

11:26a encore des difficultés

11:28sur certains détails.

11:29Par exemple,

11:30sur la gestion des portes,

11:31mais ça,

11:31c'est quelque chose

11:32qui est commun

11:33à l'ensemble

11:34des modèles vidéo IA

11:35pour le moment.

11:36ça reste de très bonnes factures

11:37malgré quelques petites incohérences

11:40et surtout,

11:41les plans s'enchaînent

11:42de façon dynamique

11:43alors qu'il y a

11:44beaucoup d'action.

11:45Quelques tests

11:45plus basiques maintenant,

11:47mais aussi en mode réaliste

11:49avec ici,

11:50un homme qui marche

11:51sur les quais

11:52avec un style caméra portée

11:53type documentaire.

12:01Rien de spécial,

12:02mais on a la cohérence

12:03et l'ambiance sonore

12:05qui est maîtrisée.

12:06Une scène classique

12:07aussi en texte ou vidéo

12:08dans un café

12:08avec un serveur parisien.

12:20On a du réalisme,

12:21de la cohérence,

12:22une bonne ambiance sonore.

12:24Seed dance 2.0,

12:25ça peut typiquement

12:26être un modèle parfait

12:27quand tu cherches

12:28du b-roll

12:29pour tes créations vidéo.

12:30On va maintenant

12:30passer sur des tests

12:32en image to vidéo.

12:34Donc,

12:34on l'a déjà vu rapidement,

12:35on a généralement

12:36des restrictions

12:37en ce qui concerne

12:38les visages humains.

12:39Même si, étrangement,

12:40parfois ça passe,

12:41on l'a vu avec mon avatar

12:43en début de vidéo.

12:44Mais par exemple,

12:45pour l'avoir testé

12:45sur CapCut

12:46pour Seed Dance 2.0,

12:48normalement,

12:49aucun visage humain

12:50n'est possible

12:51en image to vidéo.

12:53Malgré tout,

12:54moi,

12:54j'ai réussi

12:55en image to vidéo

12:56avec cette illustration,

12:58même si,

12:59pour le coup,

12:59on est un peu

13:00dans le personnage fantastique

13:02et pas le 100% réel

13:04au niveau du style.

13:05Donc,

13:05c'est peut-être pour ça aussi

13:06que Seed Dance

13:07a bien voulu faire

13:08ma vidéo.

13:09Et j'ai retesté

13:11le lip-sync

13:12avec la prononciation

13:13d'une phrase en français.

13:14Alors,

13:14ça partait très bien

13:15et par contre,

13:16il m'a un peu foiré

13:17la fin de la phrase.

13:18Je grandis quand je mange

13:20et je meurs quand je bois.

13:23Qui suis-je ?

13:25Sur différents tests

13:26sur Seed Dance,

13:27en français,

13:27j'ai eu quelques ratés

13:29et par contre,

13:29on voit qu'il maîtrise

13:30un peu plus

13:31la langue de Shakespeare.

13:33En anglais,

13:33on a moins de problèmes.

13:35Donc,

13:35sur d'autres tests

13:36avec des visages humains,

13:37j'ai eu des refus complets.

13:39J'ai notamment essayé

13:40de faire le même prompt

13:40qu'avec le serveur,

13:42mais cette fois-ci

13:42en mettant une image

13:44de serveur en référence.

13:45Et là,

13:46je n'ai pas eu de résultat.

13:47Et j'ai eu pas mal

13:48de soucis également

13:49avec des images

13:50de référence

13:51en style anime japonais.

13:53Là,

13:53par exemple,

13:54j'ai essayé

13:555-6 images différentes

13:57en style animé

13:58et aucune n'était éligible

14:00à l'image to video.

14:02Donc,

14:02on le sait,

14:03il y a eu beaucoup de bruit

14:03autour de Seed Dance 2.0

14:05à son annonce,

14:07beaucoup de pression

14:07de la part des studios

14:09hollywoodiens

14:09et des studios d'animation

14:11et ce qui explique aussi

14:12pourquoi le modèle

14:14est actuellement

14:14pas mal bridé.

14:15En image to video,

14:17j'ai voulu également

14:18tester une création

14:19de publicité

14:20avec une canette

14:21de soda

14:22de la marque

14:23Velsa

14:23qui est une marque à inventer.

14:25J'ai essayé d'abord

14:26en français.

14:26Voyons ce que ça donne.

14:29Une vague de fraîcheur.

14:32Une explosion de goût.

14:35Velsa révit l'instant.

14:37Velsa.

14:39Ouvre les Stianet.

14:40Bon là,

14:40au niveau du texte,

14:41c'est pas terrible.

14:42Au niveau de la cohésion,

14:43il y a aussi

14:43des petites anomalies.

14:45Voyons sur un format

14:46horizontal.

14:54une vague de fraîcheur.

14:56Une explosion de goût.

14:58Velsa réveille l'instant.

15:00Velsa.

15:01Ouvre les Stier.

15:02Donc là,

15:03pareil au niveau du texte,

15:03c'est pas trop maîtrisé.

15:05Et par contre,

15:05j'ai essayé la même chose

15:06mais cette fois-ci

15:07avec un texte anglais.

15:09Ça,

15:09c'est la version verticale.

15:23Là,

15:25c'est beaucoup mieux maîtrisé

15:26au niveau de l'audio

15:27et par contre,

15:28la version horizontale

15:29en anglais,

15:30je pense que c'est

15:30la meilleure de toutes.

15:46Donc voilà pas mal

15:47d'opportunités aussi

15:49niveau publicitaire

15:49en projet de création.

15:51En y mettant un peu de temps,

15:52on peut obtenir

15:53de très bons résultats.

15:54Et pour le fun,

15:55ma canette de soda,

15:56j'ai voulu aussi

15:57l'intégrer

15:58en image de référence

15:59à une scène

16:00plus généraliste.

16:01Donc j'ai repris

16:02l'exemple de mon serveur

16:03et cette fois-ci,

16:04il va servir du Velsa.

16:15Donc là,

16:16pour le coup,

16:16le produit est super bien intégré.

16:18On va finir cette vidéo

16:19avec des tests de style.

16:21Donc déjà,

16:22le style animé,

16:23on a vu

16:24une très grosse difficulté

16:26en image to vidéo

16:27avec le style animé

16:28quasi bloqué.

16:30En texte to vidéo,

16:31c'est pareil,

16:31j'ai eu beaucoup

16:32de difficultés

16:32selon les promptes.

16:33Et ce que j'ai fait,

16:34c'est que j'ai fait part

16:35de ces difficultés

16:36à mon chatbot

16:38pour qu'il m'aide

16:38à essayer de lisser

16:40un maximum les promptes

16:41pour pas que j'ai de référence

16:43protégée au sein des promptes.

16:44Et là,

16:45typiquement,

16:45il s'en est sorti

16:46avec stylized

16:48today animated look.

16:50Ce qui nous donne

16:50un style animé sympa,

16:52même si différent

16:53du style animé japonais.

17:07après,

17:08en faisant preuve

17:08de créativité,

17:09par exemple,

17:10là,

17:10j'ai un style

17:11film noir.

17:22Encore ici,

17:23avec une image

17:23de référence

17:24de mon personnage

17:26kangourouman,

17:27j'ai reproduit

17:28un style un peu

17:29comics,

17:30dessin animé.

17:40Là,

17:41on a du

17:42Clamation,

17:43de la pâte à modeler.

17:59Ici,

17:59on a un style

18:00marionnette de bois

18:01assez poétique.

18:17Ici,

18:18j'ai réussi,

18:18après plusieurs tentatives,

18:19de faire un style

18:20un peu

18:21meupette,

18:22marionnette,

18:23mais il a pas mal

18:23bloqué là-dessus

18:24et c'est pareil,

18:25il a fallu changer le prompt

18:26pour qu'il passe

18:27outre les restrictions.

18:42Là,

18:43j'ai réussi

18:44à faire

18:45le style

18:45dessin animé

18:471990.

19:03Bon,

19:03par contre,

19:04c'est un peu

19:04n'importe quoi

19:04au niveau de l'histoire

19:05et sûrement

19:06une de mes créations

19:07préférées

19:08faites avec

19:08Seed Dance,

19:09le style

19:11papercrafted

19:11avec des chevaliers

19:12et un dragon

19:13en papier.

19:29à toi d'explorer,

19:30de tester

19:31tes styles.

19:32Comme je te le disais,

19:33n'hésite pas

19:33à essayer

19:34de reprompter,

19:35de modifier

19:36tes prompts

19:36si tu vois

19:37que Seed Dance

19:38te bloque

19:38la première

19:39ou la deuxième fois.

19:40tu peux réussir

19:41à passer

19:41outre les restrictions

19:42en modifiant

19:44un petit peu

19:44les prompts.

19:45Mon impression générale,

19:46Seed Dance 2.0,

19:47c'est un super modèle

19:48mais il faut réussir

19:50à le prendre en main

19:51et s'accommoder

19:52des restrictions.

19:53Donc,

19:53tout n'est pas parfait,

19:54ça en décevra

19:55peut-être certains

19:56notamment avec

19:57tout le teasing

19:58qu'on a eu

19:58avant la sortie du modèle.

20:00Mais voilà,

20:01c'est aussi un modèle

20:02qui risque d'évoluer

20:03que ce soit en stabilité,

20:05en fonctionnalité

20:05et en champ des possibles.

20:07Seed Dance 2.0

20:08a vraiment tout

20:09pour devenir

20:09le modèle référence

20:11pour la création

20:12de vidéos IA.

20:13Et je te rappelle,

20:14il est donc disponible

20:15en France

20:15sur Xfield

20:16avec d'ailleurs

20:17tous les autres

20:18modèles du marché,

20:20modèles vidéo

20:20et modèles images.

20:22C'était Boris,

20:23merci et à bientôt

20:24sur le Labo des Réseaux.

Catégorie

Transcription

Commentaires

Recommandations