Imagen vs. gpt-image-1: Bildmodelle im Test

Vorgeschichte

Im letzten Artikel habe ich mein MCP-Bild-Tool um Referenzbilder erweitert. Dabei fiel auf: je nach Modell sehen die Ergebnisse völlig unterschiedlich aus. Also habe ich sie systematisch gegeneinander antreten lassen.

Die Kandidaten

Alle Modelle hängen bei mir am selben MCP-Tool, ich schalte nur Provider und Modell um:

Imagen 4 (Google, imagen-4.0-generate-001): reines Text→Bild. Steuerung über aspect_ratio, liefert bei 16:9 ein 1408×768-Bild.
gpt-image-1 (OpenAI): Text→Bild und Bild-Edit (images.edit), kann also Referenzbilder verarbeiten. Feste Ausgabegrößen, bei 16:9 ein 1536×1024-Bild.
gemini-2.5-flash-image (Google): das bild-fähige Gemini-Modell, nimmt ebenfalls Referenzbilder. Mein Tool schaltet automatisch darauf, sobald ein Referenzbild dabei ist und Provider gemini gewählt ist.

Der entscheidende Unterschied steckt schon hier: zwei der drei nehmen ein Bild als Input – Imagen nicht.

Test 1: Logo-Treue mit Referenzbild

Aufgabe: ein Tablet, das das Home-Assistant-Logo auf dem Display zeigt. Die beiden bild-fähigen Modelle (gpt-image-1 und gemini-2.5-flash-image) bekamen das echte Logo als Referenzbild mit – exakt dasselbe Bild. Imagen bekam nur eine Textbeschreibung, denn es kann gar kein Bild als Input nehmen.

gpt-image-1 mit Referenzbild: das HA-Logo wird vollständig und korrekt reproduziert – Hausform plus Verzweigungs-Knoten.

gemini-2.5-flash-image mit demselben Referenzbild: Farbe und Knoten-Motiv stimmen, aber die Hausform geht verloren und das Icon wirkt doppelt/blass.

Imagen, nur per Textbeschreibung: rät das Icon – und produziert ein verkrüppeltes Glyph im Haus.

Rangfolge eindeutig: gpt-image-1 > gemini-2.5-flash-image > Imagen. Beide bild-fähigen Modelle schlagen Imagen klar – logisch, denn das ist eine Architekturgrenze, kein Patzer: ohne Bild-Input muss Imagen das Logo aus Worten rekonstruieren und scheitert an Markenzeichen zuverlässig. gpt-image-1 trifft die Vorlage am genauesten; gemini-2.5-flash-image kommt nah ran, interpretiert das Logo aber freier. Sobald Marke, Logo oder ein konkretes Produkt exakt aussehen muss, führt an einem Referenzbild kein Weg vorbei.

Test 1b: Die Wortmarke – der eigentliche Lackmustest

Ein Icon ist das eine, Text das andere. Bildmodelle sind berüchtigt dafür, Schrift zu verstümmeln. Also der härtere Test: unser eigenes devmaker.net-Logo inklusive Wortmarke als Referenz – wieder bekamen die beiden bild-fähigen Modelle das echte Logo, Imagen nur die Beschreibung.

gpt-image-1: reproduziert Hexagon, >_-Glyph und die Wortmarke „devmaker.net“ sauber – inklusive korrekter Schreibweise und Akzentfarbe.

gemini-2.5-flash-image: erkennbar, verschluckt aber einen Buchstaben („evmaker.net“) – und liefert wieder ein eigenwilliges Format.

Imagen ohne Referenz: erfindet ein fremdes Icon; die Schreibweise stimmt nur, weil sie im Prompt stand – das Markenbild nicht.

Genau hier zahlt sich das Referenzbild am stärksten aus. gpt-image-1 ist das einzige Modell, das Symbol und Schriftzug zusammen zuverlässig trifft. gemini-2.5-flash-image kommt nah ran, patzt aber typisch bei Text – ein fehlender Buchstabe reicht für ein kaputtes Logo. Und Imagen zeigt, warum „beschreib das Logo halt“ keine Lösung ist: die Buchstaben kann es abtippen, die Markenidentität nicht erfinden. Für alles mit Schrift – Wortmarken, Beschriftungen, UI-Texte – ist gpt-image-1 mit Referenz aktuell die einzige verlässliche Wahl.

Test 2: Helligkeit & Belichtung

Gleicher Prompt, bewusst ohne Helligkeitsangabe: „developer workspace at night, moody atmosphere". Das Ergebnis hat meine Erwartung umgedreht.

Vergleich Helligkeit – Imagen — Imagen: dunkel, aber ausbalanciert – Monitore, Person und Details bleiben lesbar.

Vergleich Helligkeit – gpt-image-1 — gpt-image-1: nimmt „night/moody" wörtlich und säuft fast komplett ab.

Lektion aus der Praxis: beide Modelle können zu dunkel geraten – aber gpt-image-1 interpretiert Stimmungs-Wörter deutlich aggressiver. Wer dunkle Hero-Bilder will (wie hier im Terminal-Theme), muss die Helligkeit trotzdem explizit ansagen: „well-lit subject, clearly visible, balanced exposure". Sonst sieht man am Ende nur noch das hellste Element im Bild.

Test 3: Abstraktes Konzept & Text-Artefakte

Für konzeptionelle Heroes (Agents, Pipelines, „X vs. Y") gibt es kein fotografierbares Motiv. Gleicher Prompt an beide: ein glühender „Agent-Loop"-Kern, ausdrücklich no text, no letters.

Vergleich Abstract – Imagen — Imagen: scharf, symmetrisch, fast schon Stock-Foto-Ästhetik.

Vergleich Abstract – gpt-image-1 — gpt-image-1: wärmer und malerischer, weniger glatt.

Hier liefern beide brauchbar ab und – wichtig – keines schmuggelt Text ein. Das „no text"-Pattern wirkt bei beiden, ist aber kein Garant: sobald im Motiv Schrift vorkommt (Buttons, Diagramm-Labels, Tastatur), produzieren beide gern mal verstümmelte Pseudo-Buchstaben – siehe der verschluckte Buchstabe oben bei der Wortmarke. Tendenz: Imagen geht Richtung knackiger Stock-Look, gpt-image-1 Richtung Illustration.

Output-Größen & ein Stolperstein

Imagen steuert das Format über aspect_ratio (16:9 → 1408×768), gpt-image-1 kennt nur feste Größen (16:9 → 1536×1024). gemini-2.5-flash-image hat meine 16:9-Angabe in beiden Referenz-Tests schlicht ignoriert – einmal quadratisch (1024×1024), einmal extrem breit (2048×512). Fies, wenn man feste Hero-Slots befüllt; fürs Cropping also unbedingt gegenprüfen.

Der Stolperstein, der mich eine fehlgeschlagene Generierung gekostet hat: Wenn man den Provider umstellt, aber das Modell vergisst, zieht der Resolver weiter das Default-Modell aus den Settings – und das ist ein Imagen-Modell:

python

# Falsch: Provider gesetzt, Modell vergessen
# -> der Resolver zieht das Imagen-Modell aus den Settings
generate_ai_image(prompt="...", provider="openai")
# 400: The model 'imagen-4.0-generate-001' does not exist

# Richtig: Provider UND Modell zusammen angeben
generate_ai_image(prompt="...", provider="openai", model="gpt-image-1")

Wo das läuft

Kurz zur Einordnung, damit das Setup ehrlich bleibt: Die produktive Wagtail-Site liegt auf einem netcup-Server. Diese Experimente laufen aber in meiner Dev-Umgebung lokal auf einem kleinen Mini-PC im Homelab – dort hängt das MCP-Tool dran, das die Bildaufrufe absetzt. Die Bildmodelle selbst rechnen ohnehin in der Cloud, der Mini-PC orchestriert nur. Für genau so eine Always-on-Dev-Kiste nutze ich diesen hier:

Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.

Beelink SER5 Max (Ryzen 7 6800U, 24 GB RAM, 500 GB SSD) Amazon

Sparsamer Mini-PC für Homelab & Self-Hosting – genug RAM für Proxmox, Docker-Stacks oder eine Home-Assistant-VM.

Bei Amazon ansehen

Was ich weggelassen habe

Exakte Kosten & Latenz: beides schwankt mit Last und Größe – ohne sauberes Messsetup wären Zahlen geraten. Gefühlt: gpt-image-1 etwas langsamer, Imagen 4 zügig.
Midjourney / Stable Diffusion: bewusst draußen – mir ging es um die Modelle, die direkt an meinem Tool hängen.
Andere Formate: getestet habe ich 16:9-Heroes (außer den gemini-Ausreißern). Bei Quadrat/Portrait kann das Bild anders ausfallen.

Fazit: Wann welches Modell

Imagen 4 ist meine Default-Wahl für abstrakte, helle Heroes mit scharfer, sauberer Optik – schnell und unkompliziert, aber ohne Referenzbild.
gpt-image-1 nehme ich, sobald ein Referenzbild ins Spiel kommt (Logo, Produkt, Marke) oder ein Maskottchen über mehrere Bilder konsistent bleiben soll. Beste Logo- und vor allem Text-/Wortmarken-Treue. Preis: explizit Helligkeit prompten, sonst wird's zu dunkel.
gemini-2.5-flash-image ist die schnelle Referenzbild-Alternative aus dem Google-Lager – nah dran, aber freier in der Interpretation, verschluckt bei Schrift schon mal einen Buchstaben und hat ein Format-Eigenleben.

Kurz-Entscheidung

Logo/Marke muss exakt stimmen – erst recht mit Text/Wortmarke? → gpt-image-1 mit Referenzbild. Schnelle Referenzbild-Alternative ohne Schrift? → gemini-2.5-flash-image (Format gegenprüfen). Schneller, scharfer Konzept-Hero ohne Vorlage? → Imagen. In allen Fällen: Helligkeit explizit ins Prompt schreiben.

// Weitere Empfehlungen

Anzeige · Affiliate-Link – kaufst du darüber, erhalte ich ggf. eine Provision. Für dich ändert sich am Preis nichts.

netcup – 5 € Gutschein für Neukunden Hosting

5 € Rabatt für netcup-Neukunden (gilt nicht für Domains). Beim Bestellen einlösen.

Zum Angebot

Code: 36nc17813356860

aigpt-image-1imagenbildgenerierunggeminiopenai

Imagen vs. gpt-image-1: KI-Bildmodelle im Praxistest

Die Kandidaten

Test 1: Logo-Treue mit Referenzbild

Test 1b: Die Wortmarke – der eigentliche Lackmustest

Test 2: Helligkeit & Belichtung

Test 3: Abstraktes Konzept & Text-Artefakte

Output-Größen & ein Stolperstein

Wo das läuft

Was ich weggelassen habe

Fazit: Wann welches Modell

// verwandte beiträge

MCP-Tool erweitern: Produkt-Logos ins KI-Bild

LLM-Agenten verstehen: vom Chatbot zum Agenten

Lokale LLMs mit Ollama auf dem Homelab-Server

Schreibe einen Kommentar