Nano Banana 2 ist der inoffizielle Name für Googles kommende Text-zu-Bild-KI, die intern auch unter den Bezeichnungen GemPix 2 oder Jpix 2 entwickelt wird. Ein interner Codename, „Ketchup“, wurde ebenfalls entdeckt. Diese KI wird voraussichtlich eng mit Gemini 3, Googles nächstem großen Sprachmodell, integriert sein und dessen kognitive Fähigkeiten nutzen. Die Enthüllungen stammen aus einem kurzen Zeitraum, in dem das Modell versehentlich über die externe Plattform Media.io öffentlich zugänglich war, was KI-Enthusiasten die Möglichkeit gab, seine Fähigkeiten zu testen.
Technische Verbesserungen und neue Architektur
Die Leaks deuten auf signifikante technische Fortschritte hin:
- Native 2K-Auflösung: Bilder werden standardmäßig in hoher Auflösung generiert.
- 4K-Upscaling: Eine integrierte Funktion zur Hochskalierung auf 4K-Qualität ist vorhanden.
- Verbesserte Textdarstellung: Die Darstellung von Text in Bildern, eine bisherige Schwachstelle vieler KIs, wurde stark verbessert.
- Kohärente Bildgenerierung: Die erzeugten Bilder weisen eine höhere logische Konsistenz und weniger KI-Artefakte auf.
Diese Weiterentwicklung basiert auf einer neuen Architektur, die Bildsynthese und logisches Denken kombiniert.
Revolutionäre Neuerung: Selbstkorrektur durch Gemini 3
Die Kerninnovation von Nano Banana 2 ist ein mehrstufiger, selbstkorrigierender Prozess. Das Sprachmodell Gemini 3 agiert als Qualitätskontrolle. Die Bild-KI erstellt einen Entwurf, der dann von Gemini 3 analysiert wird auf:
- Logikfehler: (z.B. Spiegelungen, Lenkradposition)
- Physikalische Ungenauigkeiten: (z.B. Wasserfüllung im Glas, Schattenwurf, Perspektive)
- Prompt-Genauigkeit: Ob alle Anweisungen exakt umgesetzt wurden.
Bei Fehlern sendet Gemini 3 Korrekturanweisungen zurück an die Bild-KI. Dieser Zyklus aus Generierung, Analyse und Korrektur wiederholt sich, bis das Ergebnis den internen Standards entspricht. Dieses „Denken, bevor sie malt“-Prinzip behebt viele Probleme früherer Modelle.
Geleakte Fähigkeiten und Anwendungsbeispiele
Die durchgesickerten Beispiele demonstrieren tiefes Verständnis und Problemlösungsfähigkeiten:
Präzision und Logik
- Uhrzeit: Exakte Anzeige von 11:15 Uhr.
- Weinglas: Physikalisch korrekte Wölbung der Flüssigkeit bis zum Rand.
Dies zeigt ein tiefes Verständnis für Zahlen, Physik und exakte Prompt-Interpretation.
Kontextverständnis
Ein Nutzer bat um eine Live-Action-Version eines Bildes aus dem Anime Robotech. Die KI erkannte einen spezifischen Roboter und wusste, dass dieser sich in das dargestellte Flugzeug verwandeln kann, was auf ein breites Wissen über Welt und Kultur hindeutet.
Visuelle Problemlösung
- Rekonstruktion: Ein zerrissener Zettel mit einer Notiz wurde virtuell zusammengesetzt und der Text lesbar rekonstruiert.
- Übersetzung: Ein Screenshot eines japanischen Mangas wurde hochgeladen, und die KI übersetzte die Sprechblasen verständlich.
- Mathematik: Die KI löste eine Integralrechnung Schritt für Schritt auf einem Whiteboard, was als mathematisch korrekt bewertet wurde.
Gaming, Physik und Simulationen
Physiksimulation: Eine Skizze mit einer Kugel wurde der KI vorgelegt, und sie zeichnete den physikalisch korrekten Pfad ein, der Konzepte wie Schwerkraft und Impuls berücksichtigte. Dies ist ein potenzieller Gamechanger für Simulationen und Prototypen.
Grafische Aufbereitung: Screenshots aus alten Videospielen wie The Elder Scrolls IV: Oblivion wurden hochgeladen, um eine grafisch aufpolierte „Remastered“-Version zu erstellen. Die Ergebnisse waren beeindruckend modern und detailliert. Es besteht jedoch die Möglichkeit, dass die KI auf Daten existierender Remaster-Versionen zurückgegriffen hat. Das Potenzial für die Modernisierung alter Medien und die Erstellung von Spiel-Assets ist unverkennbar.
Veröffentlichungszeitraum und Vorsichtsmaßnahmen
- Erwarteter Zeitrahmen: Insider deuten auf eine Veröffentlichung zwischen Mitte November und Dezember 2025 hin.
- „Dark Launch“: Es gibt Hinweise auf einen „Dark Launch“, bei dem das Modell bereits im Hintergrund für Tests und Integrationen läuft.
- Integrationen: Die Technologie wird voraussichtlich in die Gemini-App und möglicherweise in Google Fotos integriert.
- Warnung vor unseriösen Anbietern: Nutzer werden davor gewarnt, auf Angebote für verfrühten Zugang zu achten, und sollten auf die offizielle Ankündigung von Google warten.
Häufig gestellte Fragen (FAQ)
Offizieller Name?
„Nano Banana 2“ ist ein inoffizieller Community-Name. Interne Bezeichnungen sind GemPix 2 oder Jpix 2. Der endgültige Marketing-Name ist unbekannt.
Verbesserungen gegenüber bisherigen Modellen?
Der Hauptvorteil ist der mehrstufige, selbstkorrigierende Prozess mit Gemini 3, der logische Fehler, Ungenauigkeiten und Artefakte minimiert.
Kosten?
Unklar. Es ist wahrscheinlich, dass die Technologie in bestehende Google-Produkte integriert wird, möglicherweise mit einer kostenlosen Basisversion und erweiterten Funktionen in einem Abo-Modell.
Quelle der Leaks?
Die Informationen und Bilder stammen aus einem kurzen, versehentlichen öffentlichen Zugangszeitfenster über eine Drittanbieter-Plattform.
Fazit: Ein Quantensprung für die KI-Bildgenerierung
Die Leaks zu Nano Banana 2 deuten auf einen Paradigmenwechsel in der KI-Bildgenerierung hin. Durch die Verknüpfung eines Bildgenerators mit dem kognitiven Rückgrat von Gemini 3 schafft Google eine KI, die nicht nur Bilder erzeugt, sondern auch versteht. Die Fähigkeit zur Selbstkorrektur, tiefes Kontextverständnis und beeindruckende logische Präzision könnten die Schwächen aktueller Bild-KIs beheben. Eine neue Ära der KI-gestützten Kreativität wird erwartet, in der die Grenzen zwischen menschlicher Vorstellungskraft und maschineller Umsetzung weiter verschwimmen.