İstenen Görseli Oluşturabilen Yapay Zeka: DALL-E 2

Yapay zeka araştırmalarıyla bilinen OpenAI, metin açıklamalarından çarpıcı imajlar üretebilen yapay zeka DALL-E 2 ile yeni bir muvaffakiyete imza attı. Geçen yılın başında çıkan birinci sürümünün üzerine geliştirilen DALL-E 2, gelişmiş derin öğrenme teknikleri ve yapay hudut ağları sayesinde insan hayalini yorumlama yeteneğiyle ilgilerin odağı haline gelmiş durumda. Dilerseniz sunduğu yenilikler ve öne çıkan yanlarıyla DALL-E 2’ye daha yakından bakalım.

San Francisco’daki OpenAI laboratuvarında doğan DALL-E 2’nin en büyük niteliği Generative Adversarial Network (GAN) olarak bilinen makine tahsili modelini kullanmasında gizli. Çalışma formu bakımından Türkçeye Çekişmeli Üretici Ağ olarak çevrilen bu model, son yıllarda muazzam gelişmelere sahne oldu. Bu gelişmelere herkesin bildiği Deepfake’i örnek gösterebiliriz. GAN, artık ise DALL-E 2’ye güç vererek bir metin açıklamasıyla uyuşan harika görseller oluşturmanın önünü açıyor. Pekala Çekişmeli Üretici Ağlar nedir ve nasıl çalışıyor buna kısa bir bakış atalım.

Günümüzde Apple’ın özel projeler kümesinde makine tahsili yöneticisi olarak çalışan Ian Goodfellow’un 2014 yılında tasarladığı GAN, temel olarak üretici ve ayırt edici olarak isimlendirilen iki yapay hudut ağının birbiriyle müsabakası aslına dayanıyor. Bu sistemi bir örnek üzerinden ele alarak GAN’a köpek görselleri ürettirmek istediğimizi varsayalım. Birinci başta yapay zekaya köpeklerin ne olduğunu öğretmemiz gerektiğinden kendisine çok sayıda gerçek köpek görseli sunmamız gerekiyor. Akabinde GAN’ın bünyesindeki üretici ağ, köpeklerin fizikî yapısını öğrendiği için görsel üretimine başlayabilir. Üretilen her görsel daha sonraki süreçte ayırt edici ağa aktarılır ve burada gerçek ve yapay hudut ağının ürettiği uydurma görseller karşılaştırılarak ayırt edilir. Çok kısa vakit içerisinde gerçekleşen bu süreçler devam ettikçe üretici ve ayırt edici ağ ortasındaki rekabet kızışır, bu iki yapay hudut ağı da yetenek açısından gelişmeye başlar. Yani, ayırt edici ağ gitgide geçersiz görselleri daha yanlışsız belirlerken, üretici ağ ise buna karşılık çok daha gerçekçi uydurma görseller üretir.

DALL-E 2’nin Oluşturduğu Görseller

DALL-E’ye dönecek olursak, bu projede yalnızca GAN teknolojisinin kullanılmadığını belirtmekte yarar var. DALL-E 2’nin gerisindeki asıl bilim, son birkaç yılda isminden çokça bahsedilen iki gelişmiş derin öğrenme tekniği, CLIP ve Difüzyon modelleri olarak ön plana çıkıyor. Bu iki derin öğrenme tekniğinin takviyesiyle DALL-E 2, oluşturduğu imgelerdeki anlamsal tutarlılığı müdafaası sayesinde rakiplerinden epeyce ileride. Örneğin, “Ata binen bir astronot” açıklamasıyla DALL-E 2 tarafından üstteki görsellerin oluşturulması, yapay zekanın lisana hakimiyetini gözler önüne seriyor. Ayrıyeten, açıklamaların sonunda yer alan “karakalem” ve “fotogerçekçi” üzere görsellerin üslubunu belirten kavramların dahi dikkate alınması ilgi cazibeli. OpenAI’nin kendi gerçekleştirdiği testlerle oluşturulan öbür görselleri buradaki interaktif içerikten inceleyebilirsiniz.

Birinci versiyonuna kıyasla apayrı bir hale bürünen DALL-E 2, şimdilik herkese açık değil lakin OpenAI birinci kullanım talihine erişmek isteyenler için müracaatları açtı. İlerleyen günlerde bekleme listesine kaydını yaptıranlar bu yapay zekayı deneme hakkına sahip olabilecekler. Niyetlerinizi yorumlarda bizlerle paylaşmayı unutmayın.

Author: admin