Maîtriser les Prompts pour Stable Diffusion

Introduction à Stable Diffusion et à l'Art du Prompt Engineering

Stable Diffusion est un modèle d'intelligence artificielle générative, développé en 2022 par Stability AI en collaboration avec des chercheurs open-source et des entreprises comme Runway. Ce modèle, basé sur l'apprentissage profond, excelle dans la génération d'images photoréalistes à partir de descriptions textuelles, une technique communément appelée text-to-image.

La dernière version, Stable Diffusion 3.5, sortie en octobre 2024, produit des images encore plus réalistes grâce à une gigantesque base de données comprenant plus d'un milliard d'images sélectionnées et améliorées. L'outil est gratuit, open-source, et peut être installé localement sur un ordinateur, offrant la possibilité de générer des images de toutes thématiques via l'utilisation de prompts, ou invites, en français contenant des mots-clés généralistes et spécifiques.

La communauté autour de Stable Diffusion est très active, et de nombreuses extensions ont vu le jour pour accroître de manière significative la qualité des rendus obtenus. De nombreuses IA génératrices d'images utilisent le script TEXT-TO-IMAGE, d'où l'importance cruciale des descriptions textuelles que l'on va écrire pour générer l'image souhaitée. Ces descriptions sont souvent écrites en anglais, car la plupart des bases de données contenant les milliards de paires texte-image utilisées comme références par l'IA sont dans cette langue.

Illustration conceptuelle montrant une personne interagissant avec une interface d'IA générative d'images sur un écran d'ordinateur, avec des éléments visuels stylisés de Stable Diffusion.

Qu'est-ce qu'un Prompt dans Stable Diffusion ?

Un prompt est une consigne écrite qui sert à guider Stable Diffusion dans la création d'images. Plus le prompt est précis et détaillé, plus le résultat généré correspondra à vos attentes. Stable Diffusion interprète les prompts pour générer des images qui respectent les instructions données, que ce soit pour le style artistique, les couleurs, ou les détails spécifiques de la scène.

Capacités de Stable Diffusion 3.5

Avant de se lancer dans la création d'images avec une IA générative comme Stable Diffusion, il est important de bien comprendre les capacités et les limites du modèle choisi pour adapter vos prompts de manière optimale. Stable Diffusion continue d'évoluer rapidement, avec des mises à jour régulières qui apportent des améliorations significatives.

Voici les principales évolutions techniques entre les versions précédentes (notamment SDXL 1.0 et SDXL Turbo) et la dernière version Stable Diffusion 3.5, sortie en 2024 :

Qualité ultra-réaliste : Stable Diffusion 3.5 génère des images encore plus détaillées et précises, particulièrement adaptées à la création de visuels de qualité professionnelle.
Création rapide : la version « Turbo » génère désormais des images presque instantanément, rendant le processus de création encore plus rapide.
Édition simplifiée des images : grâce aux fonctions inpainting (modifier facilement des parties d’une image existante) et outpainting (agrandir l’image sans perte de cohérence), vous pouvez ajuster et enrichir vos visuels en quelques clics.
Contrôle créatif avancé : vous pouvez mieux gérer l'éclairage, les textures et la perspective dans vos créations, pour un rendu très fidèle à votre imagination.

Stable Diffusion 3.5 marque un tournant dans la génération d’images grâce à ses performances améliorées et ses nouvelles fonctionnalités.

Comment créer un Prompt Efficace pour Stable Diffusion ?

Pour créer un prompt efficace pour Stable Diffusion, il convient de suivre un certain nombre de règles. Maîtriser les meilleures techniques de prompt est essentiel pour obtenir des résultats de haute qualité.

Étape 1 : Définir le Sujet et le Contexte

Commencez par indiquer qui ou ce que vous souhaitez générer. Mentionnez la scène, l'environnement ou l'ambiance pour que Stable Diffusion comprenne le cadre avant d'ajouter des détails stylistiques. Il est recommandé d'employer des noms précis pour le sujet et le décor (par exemple, « serre victorienne » plutôt que « jardin »).

Exemple : "Un lac de montagne paisible à l'aube avec de la brume sur l'eau."

Étape 2 : Ajouter la Direction Stylistique

Citez des mouvements artistiques, des médiums, des caméras ou des artistes pour orienter le rendu. Combinez deux ou trois influences pour garder un équilibre sans surcharger le modèle. Limitez-vous à 2 ou 3 références stylistiques pour éviter les rendus confus.

Exemple : "inspiré des décors Studio Ghibli, textures aquarelle, lumière ambiante douce."

Vous pouvez sélectionner des studios, licences, ou plateformes qui vous plaisent, notamment par rapport au style visuel et à leur univers. Faites entre 1 et 3 choix.

Il est également possible de sélectionner 1 ou 2 artistes dont le style vous plaît, tels que Greg Manchess, Stanley Lau (artgerm), Alphonse Mucha, Rembrandt, Hildebrandt, JMW Turner, Greg Rutkowski, Stefan Kostic, Wayne Barlowe, William Bouguereau, Ilya Kuvshinov, Krenz Cushart.

Étape 3 : Ajuster Qualité et Composition

Précisez l'éclairage, l'optique, la composition ou la résolution. Ces indications contrôlent le niveau de détail et le rendu cinématographique de la scène. Ajoutez la direction de lumière ou des termes photo/cinéma pour plus de profondeur et de finition.

Exemple : "contre-jour doré, objectif 35 mm, ultra détaillé, rendu 4K."

Utilisez le slider pour indiquer le niveau de détail que vous souhaitez : si vous voulez une image très détaillée, choisissez une valeur élevée.

Comment voulez-vous que votre scène soit éclairée ? Comment le sujet doit-il être mis en valeur ?

Étape 4 : Utiliser les Prompts Négatifs pour Affiner

Listez les éléments à éviter comme le flou, les membres en trop ou les watermarks. Les prompts négatifs aident SDXL et SD3 à se concentrer sur les éléments essentiels. Incluez un bref prompt négatif ciblant les artefacts propres à votre scène.

Exemple : "négatif : flou, mains déformées, watermark, membres supplémentaires."

Prenez quelques secondes pour ajouter des problèmes courants comme "flou", "membres en trop" ou "watermark". Vous gagnerez du temps par rapport aux retouches.

Étape 5 : Itérer avec Seeds et Variations

Régénérez avec différentes seeds pour obtenir de la variété tout en conservant le même prompt. Enregistrez les seeds qui fonctionnent afin de pouvoir affiner ou upscale plus tard. Utilisez les contrôles de seed du playground pour relancer la même composition lorsque vous trouvez un rendu convaincant.

Conseils pour une Rédaction de Prompts Optimale

Vérifier la Syntaxe

La syntaxe est importante pour obtenir des résultats précis et cohérents. Commencez toujours votre prompt par le sujet principal, suivi de l'arrière-plan et des détails. Séparez chaque élément par des virgules pour éviter toute confusion pour l’IA.

Exemple : "Un chat noir, assis sur un canapé rouge, dans une pièce éclairée par une lampe tamisée."

Astuce : Si vous débutez, optez pour des prompts courts, entre 10 et 60 mots, et évitez de surcharger vos descriptions. Une écriture concise et claire produit souvent de meilleurs résultats.

Préciser les Couleurs et l'Éclairage

Les couleurs et l'éclairage influencent directement l'ambiance de l'image générée. Décrivez la couleur dominante et précisez les nuances pour guider l'IA.

Exemple : "Une forêt mystérieuse sous une lumière bleuâtre, éclairée par une pleine lune, avec des ombres profondes."

Pour l'éclairage, utilisez des termes comme « coucher de soleil », « lumière diffuse » ou « ombres contrastées ». Pour des effets avancés, mentionnez des techniques spécifiques comme « éclairage volumétrique » ou « lumière paramétrique ».

Utiliser des Prompts Négatifs Efficacement

Les prompts négatifs sont essentiels pour exclure des éléments indésirables. Ajoutez ce que vous ne voulez pas voir dans votre image pour un rendu plus précis. Dans Stable Diffusion, les prompts négatifs s’utilisent facilement via l’interface et offrent une flexibilité accrue pour ajuster vos résultats. Notez que l’IA peut parfois mal interpréter des instructions négatives complexes, donc soyez clair et direct.

Exemple : "Une ville futuriste illuminée de néons, sans voitures ni passants."

Sélectionner un Mode ou un Style Prédéfini

Stable Diffusion propose une large palette de modes et de styles pour enrichir vos créations :

Modes artistiques : peinture à l'huile, dessin au crayon, aquarelle, etc.
Styles prédéfinis : impressionnisme, surréalisme, pop-art, futurisme…

Exemple : "Une peinture à l’huile de style impressionniste représentant un champ de lavande au lever du soleil."

Ces options permettent d’orienter Stable Diffusion vers une esthétique particulière tout en gardant la flexibilité de personnalisation.

Ajuster le Poids des Termes

Stable Diffusion permet de modifier le poids de certains termes ou paramètres pour influencer leur importance dans l'image générée :

Augmenter le poids : utilisez des parenthèses doubles ((...)) pour mettre l'accent sur un élément.
Réduire le poids : utilisez des crochets [...] pour atténuer l’importance d’un élément.

Exemple : "((Un dragon rouge)) dans un ciel orageux, [arc-en-ciel]."

L’outil IP-Adapter dans la section “Control Type” permet également d’ajuster ces paramètres visuellement dans l'interface. Cependant, évitez de pousser les valeurs à l’extrême pour ne pas compromettre la qualité du rendu.

Infographie expliquant la syntaxe des prompts Stable Diffusion, avec des exemples d'ajustement de poids et de prompts négatifs.

Erreurs Fréquentes et Solutions Rapides

Trop de mots-clés empilés

Des listes de prompts copiées au hasard peuvent se contredire. Clarifiez votre idée centrale et supprimez les adjectifs redondants.

Oublier le ratio d'image

Adaptez le prompt au cadrage visé. Mentionnez "portrait vertical" ou "format cinéma large" pour guider la composition.

Ignorer les prompts négatifs

Prenez quelques secondes pour ajouter des problèmes courants comme "flou", "membres en trop" ou "watermark". Vous gagnerez du temps par rapport aux retouches.

Générateurs de Prompts pour Stable Diffusion

Un générateur de prompts est un outil disponible sur le web qui propose de générer des “prompts”, à savoir les instructions données aux logiciels d’IA générative comme Stable Diffusion. Cet outil, également appelé prompt helper ou prompt builder, vous permet de gagner du temps en créant des consignes optimisées, beaucoup plus rapidement et simplement. Il peut également vous donner des idées de styles ou de mises en scène.

Les meilleurs Prompt Builders pour Stable Diffusion :

Hugging Face : cette plateforme open-source franco-américaine donne accès à de puissants prompts generators pour vos images. Les modèles de prompts sont libres d’accès sur simple inscription, et la grande majorité sont testés et validés par la communauté.
PromptoMANIA : un prompt helper pour créer des images sur-mesure destinés à tous les modèles d’IA generative comme Stable Diffusion. Vous y trouverez des paramètres avancés pour générer des dessins, des portraits plus ou moins réalistes ou encore des paysages originaux.
PromptHero : cette plateforme devenue une référence dans le domaine se présente comme une bibliothèque de prompts triée par modèle d’IA. Si vous avez besoin d’inspiration, c’est PromptHero qu’il faut privilégier !

Exemples de Prompts pour Stable Diffusion

Prompt pour générer un portrait de femme

Prompt : Modelshoot style, (extremely detailed CG unity 8k wallpaper) full body portrait of the most beautiful fitness girl in the world, (action scene), ((extreme close up)), beautiful fitness girl jogging in the forest, (running), ((tanned skin:1. 3)), (blush) long hair, (freckles:0. 75), detailed symmetrical face, (medium blonde hair:1. 2), (low ponytail hair), ((blue eyes)), reflective eyes, mascara, makeup, (red lipstick), (shiny lips), (white sclera), (strong jaw), prominent cheekbones, (sweat), detailed lighting, rim lighting, dramatic lighting, chiaroscuro, white sports bra, ((white top)), (fitness watch), ((black baseball hat)), ((yoga pants)), (pants), White sneakers, forest trail, (blue sky), white clouds, (muscles:1. 2), toned, legs, thighs, calves, (from side:1. 4), trending on ArtStation, trending on CGSociety, Intricate, High Detail, dramatic, professional majestic impressionism oil painting by Waterhouse, John Constable, Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, makoto shinkai kyoto, trending on artstation, trending on CGsociety.

Style : Portrait, Ratio d'aspect : 1.5, Taille : 2048 x 3072

Commentaire : Bien que le résultat puisse être satisfaisant, ce prompt est complexe. De nombreux critères peuvent être omis et la rédaction peut prendre beaucoup de temps.

Prompt pour générer une image réaliste

Prompt : A photo of a doctor scribbling notes on a desk. The patient is present in the background. The desk is messy and disorganized. The doctor looks frustrated.

Style : Realistic photo, Ratio d'aspect : 1:1, Taille : 1024 x 1024

Commentaire : Cette image peut être de mauvaise qualité si le prompt n'est pas optimisé. L'IA peut ne pas répondre de façon pertinente aux instructions et générer une confusion logique. Un meilleur prompt aurait pu être : "A realistic photo of a doctor scribbling notes on a disorganized desk, while his patient waits in the background."

Prompt pour générer une image de Science-fiction

Prompt : Steampunk digital art of an inventor’s workshop, with intricate machines, gears, and steam engines.

Style : Sci-fi, Ratio d'aspect : 1:1, Taille : 1024 x 1024

Commentaire : Cette image appartient à l'univers Steampunk, une sous-catégorie du genre de la Science-fiction. Le thème a donc d'emblée été précisé (Steampunk), ainsi que le décor (atelier de l'inventeur). Des éléments de détail ont été ajoutés (machines, engrenages, moteurs à vapeur) afin de traduire au mieux l'atmosphère qui se dégage de la pièce.

Prompt pour générer une photo de style documentaire

Prompt : Documentary-style photography of a bustling marketplace in Marrakech, with spices and textiles.

Style: Realistic photo, Ratio d'aspect: 1:1, Taille: 1024 x 1024

Commentaire : Cette image ressemble à une véritable photographie prise dont le style (documentaire) et le lieu (marché de Marrakech) ont été précisés dans le prompt afin de bien définir le contexte de prise de vue. Des éléments réels ont été inclus (épices, textiles) de façon à capturer l'essence du lieu.

Guide d'aide à la diffusion stable

Comparaison avec d'Autres Générateurs d'Images IA

Stable Diffusion vs Midjourney

Midjourney et Stable Diffusion font partie des meilleurs générateurs d'images par IA. Midjourney est idéal si vous recherchez une simplicité d'utilisation maximale et des images artistiques de grande qualité. Sa version web intuitive et son interface facile via Discord permettent une prise en main immédiate, même pour les débutants. Cependant, ses possibilités de personnalisation restent limitées.

Stable Diffusion convient parfaitement si vous souhaitez plus de flexibilité créative. Ce modèle open-source propose des fonctionnalités avancées comme l’inpainting ou l’outpainting. Il nécessite néanmoins un peu plus d’expérience technique ou l’usage d’une plateforme dédiée.

Verdict : Midjourney pour débuter facilement, Stable Diffusion pour davantage de contrôle créatif.

Stable Diffusion vs GPT-4o Image (ex-DALL·E)

Stable Diffusion et GPT-4o Image sont deux poids lourds parmi les générateurs d’images IA. Stable Diffusion offre une liberté totale de personnalisation grâce à son approche open-source. Idéal si vous avez des compétences techniques et souhaitez explorer toutes les possibilités offertes par l'IA.

GPT-4o Image est devenu une référence grâce à son intégration intuitive dans ChatGPT. Facile à prendre en main au quotidien, il permet de créer et modifier des images en temps réel, directement depuis une conversation.

Verdict : Stable Diffusion si vous recherchez un outil puissant et très adaptable.

tags: #prompter #stable #diffusion