Stable Diffusion 3 : Les horreurs générées par l'IA déçoivent les utilisateurs

Stability AI a récemment lancé Stable Diffusion 3 Medium (SD3M), se targuant d'être son modèle de génération d'images le plus avancé à ce jour. Cependant, les retours des utilisateurs, notamment sur le subreddit r/StableDiffusion, sont majoritairement négatifs, dénonçant une qualité d'image médiocre et des résultats souvent déroutants.

Des attentes déçues et des résultats cauchemardesques

Malgré l'amélioration notable du rendu des mains, un problème persistant pour les modèles d'IA, les performances globales de SD3M restent insatisfaisantes. Des utilisateurs comme Coyotewld et quill18 ont exprimé leur frustration face à l'incapacité du modèle à générer des images décentes, même avec des descriptions très détaillées. L'utilisateur quill18 rapporte : "Je n’ai pas pu générer une seule image décente en dehors des prompts d’exemple. J’ai essayé des prompts très descriptifs sans succès. Même un prompt absolument basique comme “photo d’une personne faisant une sieste dans un salon” mène à des monstruosités dignes de Cronenberg."

Pantheon3D a partagé un exemple de prompt SD3 : "femme allongée sur l’herbe, texte disant ‘SD3 sucks’". Bien que la gestion du texte par SD3M montre des progrès, la génération d'images reste problématique, avec un seul résultat satisfaisant signalé sur 20 générations par certains utilisateurs. Perfect-Campaign9551 constate : "Je ne suis pas du tout impressionné. Essayez simplement “femme portant une robe sur la plage”. Vous obtiendrez des résultats horribles." Ces expériences soulèvent la question de savoir si cette version est une plaisanterie, comme le suggèrent certains fils de discussion.

Des exemples d'images générées par Stable Diffusion 3 Medium montrant des anomalies anatomiques et des résultats déroutants.

Une régression perçue par rapport aux modèles concurrents

Le lancement de Stable Diffusion 3 Medium a été difficile, marqué par des problèmes de performance et une désapprobation généralisée. Les rapports d'utilisateurs indiquent que le modèle génère fréquemment des amas de membres incohérents et mutilés, loin des attentes d'un modèle présenté comme le plus sophistiqué de Stability AI. Un fil de discussion sur Reddit, intitulé "Cette version est-elle censée être une blague ? [SD3-2B]", détaille les échecs spectaculaires de SD3 Medium à représenter les êtres humains, en particulier les membres comme les mains et les pieds. Un autre fil, "Pourquoi SD3 est-il si mauvais pour générer des filles allongées sur l'herbe ?", expose des problèmes similaires, certains utilisateurs recevant des images cauchemardesques de créatures difformes.

Certains utilisateurs estiment que le nouveau modèle de Stability AI représente un pas en arrière par rapport à des concurrents de pointe tels que Midjourney ou DALL-E 3. "Il n'y a pas si longtemps, Stable Diffusion rivalisait avec Midjourney. Au moins, nos ensembles de données étaient sûrs et éthiques", a écrit un utilisateur, soulignant une perception de déclin.

Les causes potentielles des défaillances anatomiques

Les échecs de Stable Diffusion 3 suggèrent des difficultés avec les figures humanoïdes. Les utilisateurs attribuent ces défaillances à l'insistance de Stability AI à filtrer le contenu pour adultes (NSFW) des données d'entraînement. Selon cette théorie, lorsque le modèle rencontre un concept peu représenté dans son ensemble de données, il "confabule" sa meilleure interprétation, ce qui peut aboutir à des résultats terrifiants. Des problèmes similaires avaient été observés avec Stable Diffusion 2.0 en 2022, où la censure du contenu nu pouvait entraver la capacité du modèle à générer une anatomie humaine précise.

En 2022, Stability AI avait tenté de remédier à ces problèmes avec Stable Diffusion 2.1 et Stable Diffusion XL, en filtrant davantage le contenu NSFW. La société a annoncé Stable Diffusion 3.0 en février, et la version "Medium" (2 milliards de paramètres) publiée cette semaine est la première à être disponible.

Exemple d'image générée par IA, montrant une scène d'horreur gothique dans un manoir sombre.

Contexte d'entreprise et perspectives

Le lancement de SD3M intervient dans un contexte difficile pour Stability AI. L'entreprise a connu la démission de son fondateur et PDG, Emad Mostaque, suivie de licenciements. Trois ingénieurs clés ont également quitté l'entreprise peu avant. Les rumeurs concernant la situation financière précaire de l'entreprise circulent depuis 2023.

Pour certains fans de Stable Diffusion, les échecs de SD3M sont le reflet de la mauvaise gestion de l'entreprise. Des blagues sombres sur une éventuelle faillite ont émergé suite à la publication des résultats décevants du modèle. L'entraînement de l'IA sur des images sans contenu pornographique pose un dilemme pour les entreprises d'IA, le contenu NSFW occupant une part importante d'Internet, tout en présentant des risques éthiques et de sécurité.

Malgré ces critiques, des efforts communautaires pourraient permettre d'affiner le modèle. Les utilisateurs espèrent que le caractère ouvert de Stable Diffusion permettra un affinement par la communauté. Bien que certains résultats soient catastrophiques, des utilisateurs ont noté que SD3M performe relativement bien avec le texte, un défi de longue date pour les modèles de génération d'images.

L'art de l'horreur généré par IA : Prompts et Outils

Le genre de l'art d'horreur, conçu pour évoquer la peur, le suspense et l'inquiétude, trouve de nouvelles voies d'expression grâce à l'IA. Les prompts pour Stable Diffusion dans ce domaine visent à créer des images effrayantes et mystérieuses, qu'il s'agisse de terreur gothique ou de créatures cauchemardesques.

La création d'images d'horreur avec l'IA peut être facilitée par des plateformes comme OpenArt, qui offre 35 images gratuites d'art d'horreur générées par IA, disponibles en différents formats et en haute résolution. Ces images peuvent être personnalisées via une fonction "ouvrir dans l'éditeur" pour régénérer des créations inspirées de l'horreur.

Pour écrire des prompts efficaces dans Stable Diffusion, plusieurs éléments sont clés :

Description détaillée : Préciser le sujet principal et la scène pour guider l'IA.
Modificateurs et attributs : Ajouter des détails sur l'apparence, le décor ou l'ambiance.
Style artistique et médium : Inclure des références à des styles ou des artistes spécifiques.
Tags de résolution et de qualité : Utiliser des termes comme "résolution 8K" ou "détails élevés".
Mots-clés : Employer des termes comme "éclairage cinématographique" ou "couleurs vives".
Vérification et expérimentation : Tester différents mots-clés pour comprendre leur impact.

Voici quelques exemples de prompts conçus pour le genre de l'horreur :

Scène d'horreur gothique dans un manoir sombre et hanté, style victorien, atmosphère inquiétante, ombres détaillées.
Forêt effrayante la nuit, brumeuse et mystérieuse, style dark fantasy, arbres tordus, yeux brillants.
Intérieur d'asile abandonné, délabré et inquiétant, style film d'horreur, lumières vacillantes, ambiance troublante.
Paysage urbain d'apocalypse zombie, style post-apocalyptique, bâtiments en ruine, rues désolées, ciel menaçant.
Clown sinistre dans une ruelle sombre, style bande dessinée d'horreur, traits exagérés, sourire menaçant.
Poupée hantée dans un vieux grenier, style horreur vintage, porcelaine fissurée, éclairage inquiétant.
Transformation de loup-garou sous une pleine lune, style dark fantasy, expression intense, pose dynamique.
Silhouette fantomatique dans un cimetière brumeux, style horreur classique, lueur éthérée, pierres tombales.
Vampire dans un château gothique, style romance noire, élégant mais menaçant, ambiance éclairée à la bougie.
Scène de possession démoniaque, style horreur d'exorcisme, corps contorsionné, expressions intenses.
Carnaval effrayant la nuit, style cirque d'horreur, manèges inquiétants, clowns troublants.
Sorcière exécutant un rituel sombre, style horreur occulte, symboles anciens, runes lumineuses.
Enlèvement extraterrestre dans une zone rurale, style horreur de science-fiction, lumières inquiétantes, expressions terrifiées.
Artefact maudit dans une bibliothèque sombre, style horreur lovecraftienne, livres anciens, aura menaçante.
Créature mutante dans un laboratoire, style horreur corporelle, traits grotesques, équipement scientifique.
Reflet de miroir hanté, style horreur psychologique, réalité déformée, atmosphère inquiétante.
Forêt de conte de fées sombre, style fantaisie tordue, créatures malveillantes, enchantée mais sinistre.
Repaire de tueur en série, style horreur slasher, outils tachés de sang, ambiance glaçante.
Enfant possédé dans une chambre effrayante, style horreur surnaturelle, jouets inquiétants, ombres troublantes.
Horreur indicible des profondeurs marines, style horreur cosmique, monstruosité tentaculaire, eaux sombres.
Village maudit sous une lune de sang, style horreur folklorique, rituels inquiétants, atmosphère menaçante.
Parc d'attractions hanté, style horreur abandonné, manèges délabrés, figures fantomatiques.
Rituel sombre dans un temple ancien, style horreur occulte, symboles inquiétants, torches vacillantes.
Spectacle de marionnettes sinistre, style théâtre d'horreur, marionnettes effrayantes, scène sombre.
Église abandonnée inquiétante, style horreur gothique, vitraux brisés, silence troublant.

L'utilisation de plateformes en ligne comme OpenArt permet de créer rapidement des images IA gratuitement, en explorant de nombreux modèles et en s'inspirant de créations existantes.

L’IA A PRIS LE CONTRÔLE | Court-métrage d’horreur sur l’intelligence artificielle

tags: #stable #diffusion #3 #horror