Stable Diffusion : Maîtriser l'Art des Prompts et des Tags

Stable Diffusion est une technique puissante pour générer des images de haute qualité à l'aide de modèles d'apprentissage automatique. L'élaboration de prompts efficaces est cruciale pour obtenir les résultats souhaités. Cet article explore les outils, les techniques et les considérations nécessaires pour créer des prompts performants dans Stable Diffusion.

Comprendre les Outils de Tagging d'Images

Pour guider Stable Diffusion, il est essentiel de fournir des descriptions précises. Des modèles comme CLIP et des systèmes comme DeepDanbooru jouent un rôle clé dans la génération de ces descriptions, ou "tags".

CLIP : Apprentissage par Association Langage-Image

CLIP (Contrastive Language-Image Pretraining) est un modèle d'apprentissage par association et d'apprentissage "zero-shot". Il a été entraîné sur un vaste ensemble de données d'images et de légendes textuelles, ce qui lui permet de comprendre et de générer une grande variété de tags pour les images.

DeepDanbooru : Spécialiste des Styles Anime

DeepDanbooru est un système de tagging d'images qui utilise l'apprentissage profond pour attribuer automatiquement des tags aux images. Il se concentre principalement sur les images de style anime, mais peut également être utilisé pour tout type d'image de dessin animé.

Ces deux outils peuvent être utilisés pour générer des tags qui serviront ensuite de prompts pour les modèles de Stable Diffusion.

L'Importance du Prompt Négatif

Le prompt négatif est une approche qui utilise des "textual inversions" ou des termes contrastants dans les prompts pour encourager un modèle linguistique à générer de meilleures réponses ou prédictions. Il permet de spécifier ce que vous *ne* voulez pas voir dans l'image générée.

Exemples de Prompts Négatifs

Un exemple de prompt négatif est l'utilisation de l'embedding EasyNegative, que l'on peut trouver sur CivitAI et Hugging Face. En incorporant EasyNegative dans un prompt négatif, il peut aider à améliorer la qualité des réponses générées.

Une autre approche du prompt négatif consiste à utiliser bad_prompt_v2, une textual inversion qui peut être employée pour corriger les problèmes de "fixation des mains" dans les sorties générées.

Guide d'aide à la diffusion stable

Construire un Prompt Efficace : Étapes et Considérations

Développer un processus pour construire de bons prompts est la première étape que tout utilisateur de Stable Diffusion aborde. Un bon prompt doit être détaillé et spécifique.

1. Définir le Sujet

Le sujet est ce que vous voulez voir dans l'image. Une erreur courante est de ne pas décrire suffisamment le sujet. Par exemple, si vous voulez générer une sorcière lançant un sort, un prompt vague comme "sorcière lançant un sort" laissera trop de place à l'imagination.

Il faut se demander : Comment voulez-vous que la sorcière apparaisse ? Avez-vous des mots-clés pour la décrire plus spécifiquement ? Que porte-t-elle ? Quel type de magie lance-t-elle ? Est-elle debout, en train de courir ou de flotter dans les airs ? Stable Diffusion ne peut pas lire dans nos pensées.

Pour un exemple plus précis, supposons qu'elle soit puissante et mystérieuse, et qu'elle utilise la magie de la foudre. Elle porte une tenue en cuir avec des gemmes et est assise sur un rocher. Elle porte un chapeau.

Infographie : Éléments clés d'un prompt détaillé pour Stable Diffusion

2. Choisir le Médium

Le médium est le matériau utilisé pour créer une œuvre d'art. Quelques exemples sont l'illustration, la peinture à l'huile, le rendu 3D et la photographie. L'ajout du mot-clé digital art peut modifier le style des images pour qu'elles ressemblent davantage à des graphismes informatiques.

3. Spécifier le Style

Le style fait référence au style artistique de l'image. Il peut s'agir de styles d'artistes célèbres, de mouvements artistiques ou de styles de rendu spécifiques.

4. Considérer la Résolution et les Détails Supplémentaires

La résolution représente la netteté et le niveau de détail de l'image. Bien que l'ajout de mots-clés liés à la résolution puisse avoir un effet, il n'est pas toujours significatif si les images sont déjà assez nettes.

Les détails supplémentaires sont des "édulcorants" ajoutés pour modifier une image. Vous pouvez contrôler la couleur générale de l'image en ajoutant des mots-clés de couleur. La lumière est également essentielle pour créer des images réussies ; les mots-clés d'éclairage peuvent avoir un impact considérable sur l'apparence de l'image.

Techniques Avancées de Prompting

Au-delà des bases, plusieurs techniques permettent d'affiner davantage les résultats.

Gestion de la Longueur des Prompts

En raison des limitations de certains modèles (comme GPT-3), les prompts positifs ont généralement une limite de tokens (environ 75). Dans des interfaces comme WebUI, il est possible d'écrire des prompts plus longs. WebUI contourne cette limitation en regroupant les mots du prompt et en soumettant plusieurs groupes de 75 tokens. Une option "Increase coherency by padding from the last comma within n tokens" peut aider à éviter les coupures de mots entre les groupes.

Ordre et Priorité des Prompts

L'ordre dans lequel les prompts sont placés peut être considéré comme une priorité. Le prompt précédent ancre le contenu principal de l'écran.

L'utilisation de `/` ou `+` peut forcer la séparation des mots du prompt. Il est à noter que les symboles répétés adjacents seront filtrés.

Pondération des Mots-Clés

Le poids de chaque mot-clé est différent. La syntaxe WebUI pour ajuster le poids est `(prompt:num)` ou `((prompt))`. Le poids amélioré est de 0.1 à 100. La réduction du poids s'effectue avec `[]` ou `(word:0.952)`.

NAI utilise `{}` pour l'amélioration, sans possibilité de spécifier un poids.

Mélange de Prompts et Planification

WebUI utilise `|` pour séparer plusieurs mots-clés afin de mélanger différents éléments. Le programme générera une image pour chaque combinaison.

La planification de prompts (prompt scheduling) permet de mélanger deux mots-clés. Le facteur (`factor`) détermine à quelle étape le mot-clé1 est remplacé par le mot-clé2, par exemple, pour 30 étapes d'échantillonnage.

Un exemple classique est le mélange de visages de célébrités. En utilisant plusieurs noms de célébrités avec des poids de mots-clés, on peut ajuster les traits du visage. Cette technique permet d'obtenir des effets similaires au "prompt-to-prompt", en générant des paires d'images très similaires avec des modifications.

Schéma expliquant le fonctionnement du mélange de prompts dans Stable Diffusion

Comprendre les Tokens

Les tokens ne sont pas identiques aux mots. Le modèle CLIP convertit automatiquement le prompt en tokens, une représentation numérique des mots qu'il connaît. Si un mot n'est pas reconnu, il peut être décomposé en plusieurs sous-mots. Par exemple, "dream" est un token et "beach" en est un autre.

AUTOMATIC1111 n'a pas de limite de tokens stricte. Si un prompt dépasse la limite du tokenizer CLIP (75 tokens), il commence un nouveau bloc de 75 tokens, portant la limite effective à 150. Le mot-clé `BREAK` peut être utilisé pour démarrer un nouveau bloc avant d'atteindre la limite.

Le Processus Itératif de Construction de Prompts

Il faut aborder la construction de prompts comme un processus itératif. Commencez par un prompt simple avec le sujet, le médium et le style. Générez au moins 4 images à la fois pour observer les résultats.

La plupart des prompts ne fonctionnent pas à 100 % du temps. Ajoutez au maximum deux mots-clés à la fois. L'ajout de mots-clés au prompt négatif peut également faire partie de ce processus itératif.

Utilisation de Modèles Personnalisés

L'utilisation d'un modèle personnalisé est le moyen le plus simple d'obtenir un style spécifique, garanti. Grâce à la vaste communauté open-source, des milliers de modèles personnalisés sont disponibles gratuitement. Lors de l'utilisation d'un modèle, il faut être conscient que la signification d'un mot-clé peut changer.

Prompts Régionaux

Il est possible de spécifier différents prompts pour différentes régions de l'image en utilisant l'extension Regional Prompter.

Considérations Éthiques : Biais et Stéréotypes

Il est important de noter que chaque mot-clé peut avoir des associations involontaires. Les biais et les stéréotypes sont un sujet important dans les modèles d'IA. Par exemple, si vous spécifiez des "yeux bleus", cela peut générer des personnages majoritairement européens, car c'est une caractéristique fortement corrélée dans les données d'entraînement.

Lorsque vous utilisez des noms de célébrités, par exemple, vous pouvez vouloir leur visage, mais il y a aussi un effet sur la pose et la tenue du sujet. Ces éléments sont des compositions globales. L'apprentissage d'un modèle est essentiellement un apprentissage par association.

Tableau comparatif des différents outils et techniques de prompting pour Stable Diffusion

tags: #stable #diffusion #tag