Créer des images et vidéos avec l’IA, est-ce vraiment si simple ?
- Roxane Vannier

- 20 nov.
- 6 min de lecture

Pourquoi l’IA bluffe (presque) tout le monde ?
Vous avez sûrement vu cette vidéo : Will Smith mange des spaghettis, mais d’une façon si étrange qu’on ne sait plus vraiment si on doit rire ou être mal à l’aise. Ce qui n’était à l’origine qu’un « test » viral est désormais devenu un repère pour mesurer les progrès de l’IA générative :
en 2025, ce même scénario donne des résultats d’un réalisme saisissant, peuvent souvent tromper un œil non averti. Chez ROAR Agency, on entend souvent des clients nous dire : « Aujourd’hui, avec une IA comme Sora 2, n’importe quelle équipe peut créer des vidéos super pros, non ? » En réalité, ce n’est pas si mécanique.
PME et IA générative : la réalité derrière l’effet “waouh”
Chez ROAR Agency, on aime rappeler que si les vidéos bluffantes font le buzz sur les réseaux sociaux, l'effet magique : chaque extrait crédible est le fruit d’une dizaine (parfois plus) d’essais, de corrections et de prompts affinés à la main et re-travaillés ensuite sur des outils traditionnels type Photoshop ou autres logiciels de montage.
Même avec des outils de pointe comme Sora, accessibles aujourd’hui via des plateformes spécialisées, il faut accepter beaucoup d’essais / erreurs. De notre côté, il faut en moyenne 10 à 15 essais avant d’obtenir seulement 10 à 20 secondes de vidéo suffisamment exploitable. Cette donnée donne une idée du travail derrière chaque court extrait qui semble pourtant instantané.
Un exemple frappant est la publicité de Noël 2025 de Coca-Cola, produite quasi entièrement avec des IA : pour obtenir à peine une minute de film, les studios ont généré plus de 70 000 clips en 30 jours avant de les assembler et corriger, loin du mythe du “prompt magique” qui sort un spot clé en main (source : Business Insider / System1 Group). Malgré des glitches visibles et la forte polémique qu'elle a suscité chez les créatifs, la campagne obtient un score de 5,9/6 en efficacité créative chez System1, signe qu’une vidéo générée par IA peut réellement fonctionner en termes d’émotion et de mémorisation de marque.
Chez des clients, nous avons vu de nombreux exemples où l’on s’attend à gagner une demi-journée de travail, pour finalement passer des heures à relancer la génération jusqu’à obtenir le rendu voulu. Et sur l’image, c’est pareil : pour une création qui fonctionne, combien de brouillons ratés et de détails à retoucher ?
Pour autant les perspectives deviennent intéressantes pour les PME : ces outils ouvrent des terrains créatifs qui auraient été inaccessibles ou beaucoup trop coûteux il y a quelques années. Décors impossibles, changements de saison instantanés, variations de plans, tests de plusieurs univers graphiques en quelques jours au lieu de plusieurs semaines… L’IA ne remplace pas le tournage ou la création traditionnelle, elle permet d’explorer plus de pistes, plus vite, avec moins de contraintes. Utilisée avec méthode, la génération vidéo devient alors un levier positif : pour prototyper des concepts, créer des versions adaptées à différents publics, enrichir une histoire de marque – tout en gardant l’expertise humaine aux commandes.
3. Derrière la magie : comment fonctionnent ces IA “créatives” ?
Pour simplifier, une IA générative ne “comprend” pas ce qu’elle produit. Elle apprend à imiter le réel :
Elle est entraînée sur des milliards d’exemples (images, textes, vidéos).
On lui montre des contenus partiels et on lui demande de prédire la suite la plus probable : le mot suivant, la forme suivante, le mouvement suivant.
À force de répéter cet exercice à une échelle gigantesque, elle devient capable de générer des contenus qui ont l’air cohérents.
Quand tu écris un prompt, le modèle ne se dit pas :
« Je comprends ce qu’est une consultation d’audioprothésiste. »
Il calcule simplement ce qui ressemble le plus, statistiquement, à toutes les scènes similaires qu’il a déjà vues. C’est ce qui explique :
les résultats bluffants (lumière crédible, textures réalistes, expressions naturelles),
mais aussi les erreurs parfois absurdes : objets impossibles, détails anatomiques faux, incohérences métier.
Les modèles récents ont beaucoup progressé et ouvrent des perspectives très positives (moins de défauts, meilleure cohérence, plus de contrôle). Mais ils restent des machines à produire du plausible, pas des experts métier ni des directeurs artistiques.
Retours d’expérience
Parfois, pour des raisons de contenu, de délais ou de budget, on n’a tout simplement pas la possibilité d’organiser un shooting photo. Dans ces cas-là, on passe par des IA génératives comme ChatGPT Pro, Adobe Firefly ou, plus récemment, Nano Banana.
Ce fut le cas pour l’un de nos clients : nous avions besoin d’une image pour illustrer une publicité avec un audioprothésiste en train de poser un appareil auditif moderne et discret sur une patiente. On a donc rédigé un prompt très détaillé, en décrivant la scène, la lumière, l’ambiance du cabinet, le matériel, etc.
“Photorealistic editorial photograph showing a 55-year-old woman being fitted with a modern, discreet hearing aid by a professional audiologist inside a contemporary hearing care cabin. The scene is captured from a slightly oblique angle for a natural, authentic look. The audiologist, elegantly dressed in smart casual attire (no lab coat), gently places the small, skin-toned hearing aid behind the patient’s ear. Both appear calm, focused, and confident, conveying trust and professionalism. On the wall behind them, a flat-screen TV displays the patient’s audiogram in color. The cabin combines modern medical technology with natural stone walls in the pierres de Castries style, blending warmth and authenticity. Soft, natural daylight filters through the room, creating realistic lighting and textures. Medium shot, shallow depth of field, ultra-detailed, professional lighting, captured with a Canon EOS R5, 50mm lens, f/2.8, for a health magazine or press article.”
Traduction : “Photographie éditoriale photoréaliste montrant une femme de 55 ans se faisant appareiller d'une prothèse auditive moderne et discrète par un audioprothésiste dans un cabinet d'audioprothèse contemporain. La scène est capturée en contre-plongée pour un rendu naturel et authentique. L'audioprothésiste, élégamment vêtu d'une tenue décontractée chic (sans blouse blanche), place délicatement la petite prothèse couleur chair derrière l'oreille du patient. Tous deux paraissent calmes, concentrés et confiants, inspirant confiance et professionnalisme. Sur le mur derrière eux, un écran plat affiche l'audiogramme du patient en couleur. Le cabinet allie technologie médicale moderne et murs en pierre naturelle de style « pierres de Castries », créant une atmosphère chaleureuse et authentique. Une douce lumière naturelle filtre dans la pièce, offrant un éclairage et des textures réalistes. Plan moyen, faible profondeur de champ, éclairage professionnel ultra-détaillé, prise avec un Canon EOS R5, objectif 50 mm, f/2.8, pour un magazine de santé ou un article de presse.”

Résultats :



Le rendu est assez réaliste néanmoins concernant l’aspect technique c’est à revoir. L’appareil auditif
Les premières images générées étaient plutôt réalistes et “pro” au premier coup d’œil : belle lumière, décor cohérent, personnages crédibles. Mais en regardant de près, d’un point de vue métier, ça coinçait : appareil pas assez moderne, pas assez discret, parfois mal positionné. Bref, exploitable comme base, mais pas publiable tel quel pour un client expert de l’audition.
Aujourd’hui, c’est ce qu’on constate au quotidien : l’IA nous permet de générer rapidement une première base de travail très aboutie, qui nous ferait gagner un temps fou par rapport à une création from scratch. Mais derrière, il y a toujours un travail de reprise, de tri et d’ajustement pour enrichir cette base et arriver au niveau de précision et de cohérence attendu.
Conclusion : Même en affinant au maximum nos prompts, il arrive régulièrement que l’IA livre un résultat incohérent ou insatisfaisant, comme l’illustre notre exemple ici avec Gemini. Un phénomène particulièrement révélateur de cette limite est celui des « hallucinations » : l’IA générative peut inventer des éléments absurdes ou erronés, produire des visuels ou des textes qui paraissent crédibles au premier regard mais sont en fait complètement éloignés du réel (comme des objets qui n’existent pas, des mains à 6 doigts, des objets flottants...)

Ce constat ne remet pas en cause l’IA ; au contraire, il souligne toute la nécessité d’une intervention humaine avisée pour transformer ces “premiers jets” bruts en contenus véritablement pertinents pour l’entreprise, et pour repérer et corriger les hallucinations avant publication.
Il est également révélateur du temps d'appropriation nécessaire pour maîtriser ces technologies, de l'art du prompting et de la base de connaissances technique en lien avec le prompt en lui même.
4.Pourquoi adopter une stratégie sur-mesure ?
Même en tirant le meilleur de l’IA, il y a des limites que seule l’expertise humaine permet de dépasser. Chez ROAR Agency, on le constate : pour certaines tâches répétitives ou à faible valeur ajoutée, l’automatisation par l’IA est pertinente et source de gains réels de temps et d’efficacité. Mais dès qu’il s’agit de communication de marque, de créativité ou de contenus à forte dimension stratégique, il faut bien plus que des machines : il faut une vraie équipe experte, capable de piloter, d’analyser et de multiplier les itérations pour arriver à l’excellence qui fait la différence.
C’est précisément ce que propose ROAR Agency avec notre « Content Factory », un service dédié qui combine innovation IA et savoir-faire humain pour produire rapidement des contenus rédactionnels et visuels originaux, performants et adaptés à vos objectifs business.
Contactez-nous dès aujourd'hui pour donner vie à vos projets IA !



Commentaires