
Kısa süre önce internette “Nano Banana” takma adıyla gündeme gelen ve yapay zekâ kıyaslama platformu LMArena’da zirveye çıkan yeni modelin, aslında Google DeepMind imzası taşıdığı ortaya çıktı. Şirket, resmi adıyla Gemini 2.5 Flash Image olan bu modeli Gemini uygulamasına eklediğini duyurdu.
GÖRSEL DÜZENLEMEDE YENİ DÖNEM
Gemini’ye yıl başında temel düzenleme özellikleri eklenmiş olsa da, önceki sistemlerde yapılan her değişiklikte görselin beklenmedik biçimde bozulması büyük sorun yaratıyordu. Kullanıcılar istedikleri sonucu almak için defalarca deneme yapmak zorunda kalıyordu.
Yeni model bu sorunu büyük ölçüde ortadan kaldırıyor. Gemini 2.5 Flash Image, düzenlemelerde daha tutarlı sonuçlar veriyor ve orijinal görselin ayrıntılarını “hatırlayarak” değişiklikleri o doğrultuda yapıyor. Bu sayede, örneğin bir kişinin kıyafetini değiştirmek ya da farklı bir tarza uyarlamak mümkün olsa da, görüntü hâlâ aynı kişiye ait gibi kalıyor.
KOLAJ VE YARATICI KOMBİNASYONLAR
Sistem yalnızca tek kare üzerinde çalışmıyor; birden fazla fotoğrafı birleştirip yeni sahneler oluşturabiliyor. Google’ın demosunda, ayrı çekilen bir kadın ve köpek fotoğrafı, köpeğin kucağa alındığı tek karelik bir kompozite dönüştürüldü. Model ayrıca soyut kombinasyonlar da yaparak kullanıcıların yönlendirmelerine göre özgün tasarımlar üretebiliyor.
Gemini 2.5 Flash Image, salı gününden itibaren tüm Gemini kullanıcılarına açıldı. Yakında Gemini API, AI Studio ve Vertex AI üzerinden geliştiriciler için de erişilebilir olacak.
KULLANIM VE FİYATLANDIRMA
Model bireysel kullanıcılar için Google AI Pro aboneliği kapsamında sunuluyor. Bu planın aylık bedeli yaklaşık 20 dolar. Geliştiriciler ise API üzerinden kullanım başına ödeme yapıyor (0,039 dolar/görsel).
Kullanıcılar modeli denemek için Gemini uygulamasını Google Play Store veya App Store’dan indirip AI Pro planına geçebiliyor. Web üzerinden erişmek isteyenler için de “gemini.google” adresinde yükseltme seçeneği bulunuyor.
REKABET HIZLANIYOR
Google’ın bu hamlesi, OpenAI’nin mart ayında GPT-4o ile tanıttığı gelişmiş görsel üretim araçlarının ardından geldi. O dönemde ChatGPT kullanımında büyük sıçrama yaşanmış, özellikle “Studio Ghibli” tarzı görseller sosyal medyada ilgi görmüştü.
Meta da geçen hafta Midjourney’den görsel modelleri lisanslayacağını duyurmuştu. Ayrıca Almanya merkezli Black Forest Labs’ın FLUX modelleri hâlâ en güçlü çözümler arasında gösteriliyor.
Google, yeni modelin şirketi OpenAI’ye karşı kullanıcı avantajı kazandırabileceğini düşünüyor. ChatGPT’nin haftalık kullanıcı sayısı 700 milyona yaklaşırken, Sundar Pichai temmuz ayında Gemini’nin aylık 450 milyon kullanıcıya ulaştığını açıklamıştı.
GÜVENLİK ÖNLEMLERİ VE DEEPFAKE RİSKİ
Tüm görsellerin köşesinde “AI” ibaresi yer alıyor ve Google’ın görünmez SynthID filigranı kullanılıyor. Bu sayede deepfake içeriklerin tespit edilebilmesi hedefleniyor. Yine de şirket, sosyal medyada hızla yayılan sahte görsellerin bu işaretleri gözden kaçırabileceğini kabul ediyor.
Geçmişte Gemini’nin insan portrelerinde tarihsel hatalar yapması (örneğin Elon Musk’ı farklı etnik kökenlerle göstermesi) büyük tepki çekmişti. Google, yeni sürümde bu sorunların giderildiğini ve daha dengeli bir yaklaşım izlendiğini belirtiyor.
Ayrıca Google, kullanım şartlarında mahrem içerik üretimini kesin olarak yasaklıyor. Bu yönüyle şirket, bazı rakiplerinden ayrılıyor. Örneğin Elon Musk’ın şirketi xAI, ünlülere benzeyen cinsel içerikli görsellerin üretilmesine kısıtlama getirmemişti.