Google Gemini Omni: Görsel, ses ve metni videoya dönüştüren yeni model

04:56 / 20.05.2026·224·Teknoloji

Üç yıl önce Google, Gemini projesini başlattığında temel amaç; metin, görsel, ses ve video verileriyle eğitilmiş tek bir çok modlu sinir ağı oluşturmaktı. Bugün Google I/O konferansında şirketin CEO'su Sundar Pichai, bu hedefe yönelik önemli bir adım olan Gemini Omni modelini tanıttı. Pichai'ye göre yeni model, her türlü girdi verisinden istenilen içeriği oluşturabiliyor. Bu konuda Techcrunch.com haber veriyor.

Gemini Omni, kullanıcılara görsel, ses, video ve metinleri birleştirme imkanı sunuyor. Verileri basitçe bir araya getirmekten farklı olarak Omni, hepsini analiz ederek fizik kuralları, kültür, tarih ve bilimsel kavramlara dayalı yüksek kaliteli videolar sunuyor. Ayrıca kullanıcılar, karmaşık yazılımlara ihtiyaç duymadan basit metin komutlarıyla görselleri düzenleyebilecekler.

Google DeepMind temsilcisi Nicole Brichtova, bu yeniliği Gemini zekası ile medya modellerinin görselleştirme yeteneklerini birleştirmenin bir sonraki aşaması olarak nitelendirdi. Örneğin, modele protein katlanması hakkında bir video ders hazırlama komutu verildiğinde, sadece animasyonu oluşturmakla kalmıyor, aynı zamanda süreci açıklayan sesli metni de ekliyor.

Yeni model sayesinde kullanıcılar kendi dijital avatarlarını da oluşturabiliyorlar. Deepfake riskini önlemek amacıyla Google özel bir güvenlik sistemi getirdi: Kullanıcının kendini videoya çekmesi ve belirli sayıları söylemesi gerekiyor. Ancak bundan sonra avatar kaydediliyor ve gelecekteki kullanımlar için onay veriliyor.

Gemini Omni ile oluşturulan tüm videolar, Google'ın SynthID dijital filigranı ile korunuyor. Bu, kullanıcıların videonun yapay zeka tarafından oluşturulup oluşturulmadığını kontrol etmelerini sağlıyor. Sundar Pichai'nin belirttiği gibi, yapay zeka artık sadece metin tahmin etme aşamasından gerçekliği simüle etme aşamasına geçiyor.