AI Visual Voice: Comeback der Creative Direction
Die Komposition ist zentriert, das Licht ausgewogen, die Haut glatt. Und doch fühlt sich das Bild nicht richtig an. Das liegt nicht am Tool, es liegt an der fehlenden Creative Direction. Die KI erzeugt ohne kreative Führung nur Mittelmaß. Kreativität lebt von Abweichung – KI optimiert auf das Erwartbare. Überzeugender Content beginnt vor dem Prompt: Mit einem klaren Briefing und einer Haltung. Markenfit entsteht erst, wenn die Markensprache tief in der KI verankert ist.
Kein neues Phänomen – KI hat es nur verstärkt
„Fade Perfektion“ gibt es nicht nur bei generierten Bildern. Auch Fotografie kann sich nach KI anfühlen, wenn die Postproduktion zu perfekt ist. Jede Unebenheit wegretuschiert, jedes Licht kontrolliert, jede Farbe zu sauber abgestimmt. Wenn die Basis jeder Art Direction Stock-Fotografie, Pinterest-Moodboards, References aus dem letzten Cannes-Gewinner sind und Looks durch Rekombination, statt durch eine eigene – neue – Idee entstehen.
Und nun zur KI: Sie reproduziert den Durchschnitt aller Bilder, mit denen sie trainiert wurde. Wer einen generischen Prompt eingibt, bekommt ein generisches Ergebnis.
Creative Direction ist die entscheidende Instanz
Was herausragende Kampagnen von der Masse abhebt ist eine Storyline mit einer klaren Kernidee. Viele Marken setzen KI ein, ohne diese Basis zu legen. Das Ergebnis ist Hochglanz ohne Kern und ohne Message. Wenn das dann noch skaliert wird, droht die Marke zu verwässern.
Wer mit KI arbeitet, fasst seine Gedanken in Worte und versucht der KI zu vermitteln, wie das Ergebnis auszusehen hat. Um damit die Markensprache zu treffen, ist eine neue Basis notwendig: Eine Visual Voice – in Worte übersetzte visuelle Richtlinien, gleich einer Tone of Voice. Wer nicht beschreiben kann, was die Bildsprache ausmacht, wie sich die Bildwelten anfühlen sollen und welche Art von Bildern die Markenwelt ausschließt, der kann KI nicht sinnvoll einsetzen.
Kampagnen, die mit starker Kreation überzeugen (mit oder ohne KI), feiern die Imperfektion: Mit Bewegungsunschärfe, die echt wirkt. Mit Überbelichtung, hartem Gegenlicht und Schatten und Charakteren, denen man ansieht, dass sie gelebt haben. Mit Kompositionen, die zum Weiterimaginieren einladen und Leerflächen, die atmen. Mit Szenen, die mitten in einem Moment beginnen, nicht schnöde Anfang und Ende zeigen.
Die Visual Voice ist der neue Tone of Voice
KIs werden hauptsächlich über Textprompts angesteuert. Das erfordert neue Skills, und zwar nicht nur, wie man Prompts wirkungsvoll schreibt und strukturiert, sondern auch, wie die Markenidentität in Worte gefasst werden kann.
Nur wer beschreiben kann, was die Bildsprache ausmacht und wie sich die Bildwelten anfühlen sollen, kann KI markenkonform einsetzen. Damit das wiederholbar und auch vom gesamten Team einheitlich umgesetzt werden kann, sollte eine “Visual Voice” definiert werden. Sie ist das visuelle Äquivalent zum Tone of Voice: in Worte übersetzte Bildrichtlinien, die präzise genug sind, um die KI ausreichend zu briefen. Je präziser die Visual Voice, desto weniger Interpretation bleibt dem Modell, und desto weniger füllt es die Lücken mit Durchschnitt.
In 3 Schritten von der CI zur Visual Voice
Ein CI-Manual definiert, was eine Marke hat. Eine Visual Voice definiert, wie sie wirkt. Der Weg von einem zum anderen ist kürzer als gedacht, aber er braucht einen klaren Prozess.
Schritt 1: Destillieren
CI-Manuals enthalten oft Bilder als Beispiele: Kampagnenmotive, Lifestyle-Aufnahmen, Moodboard-Referenzen. Der erste Schritt ist, diese Bilder zu analysieren: Was haben sie gemeinsam? Welches Licht? Welche Distanz zu den Personen? Welche Stimmung? Hilfreich sind dabei LLMs wie Claude oder ChatGPT, die aus der Gesamtheit der Bilder eine übergeordnete, ausformulierte Bildsprache erstellen können.
Schritt 2: Vom Element zur Entscheidung. Bildsprache-Guidelines bleiben häufig auf der Ebene von Adjektiven: "warm", "authentisch", "lebendig". Im zweiten Schritt übersetzen wir jedes Adjektiv in eine konkrete visuelle Entscheidung. Was bedeutet “warm” für diese Marke, durch welche Elemente vermitteln wir “Wärme”? Erst wenn Adjektive in Entscheidungen übersetzt sind, können sie als Briefing funktionieren.
Schritt 3: Ausschlüsse definieren. Für eine Marke, die Nähe kommuniziert, könnte das heißen: keine Vogelperspektive, keine Studiosetups, Models schauen in der Regel nicht direkt in die Kamera. Ausschlüsse verhindern, dass KI die Lücken mit Durchschnitt füllt.
Eine gut definierte Visual Voice funktioniert als System-Prompt für Automatisierung, als Briefing-Grundlage für externe Partner:innen und als Maßstab für interne Qualitätssicherung.
Unser Tipp:
Manchmal hat sich die tatsächliche Bildsprache von der im CD-Manual festgehaltenen wegentwickelt. Hier kann man zweierlei tun: entweder, das ist eine gewollte Evolution, dann nehmt die Bilder der letzten Kampagnen und Social-Media-Posts als grundlage, um eine neue Visual Voice zu entwickeln. Oder die Visual Voice ist genau der richtige Hebel, um wieder mehr zurück zu der ursprünglichen Markensprache zurückzufinden.
—
Du wilst noch mehr Tipps rund um Generative AI? Informiere dich hier zu unseren Inhouse-Trainings für Unternehmen und Agenturen oder unseren offenen Trainings für Einzelbuchungen.