Yapay zeka insanları kandırıyor: GPT-4.5 turing testini geçti!
GPT-4.5, insanları s oranında kandırmayı başardı. Peki, bu gerçekten bir yapay zekanın 'insan gibi düşündüğünü' mü gösteriyor? Turing testi, makine zekasını doğru şekilde ölçüyor mu? Yapay zeka, insanları taklit etmede ne kadar başarılı olabilir?
San Diego, ABD — Kaliforniya Üniversitesi’nden iki araştırmacının yürüttüğü yeni bir çalışmaya göre, yapay zeka sohbet robotları insan benzeri davranışlar sergilemede önemli bir eşiği geride bırakmış olabilir. Henüz hakem değerlendirmesinden geçmemiş bu ön çalışmada, OpenAI'nin geliştirdiği GPT-4.5 adlı büyük dil modeli (LLM), Turing testini geçen ilk modellerden biri olarak kayıtlara geçti.
Yapılan deneyde, GPT-4.5 modeli, test edilen 284 katılımcının %73’ü tarafından insan zannedildi. Bu oran, modeli testin barajının üzerine taşıdı ve insan benzeri iletişim yeteneğini gözler önüne serdi.
TURİNG TESTİ NEDİR?
İngiliz matematikçi Alan Turing tarafından 1950 yılında ortaya atılan Turing testi, bir yapay zekanın insan gibi düşünüp düşünemediğini belirlemek amacıyla tasarlandı. Testte bir insan sorgulayıcı, biri insan diğeri yapay zeka olan iki varlıkla yazılı olarak sohbet ediyor ve hangisinin insan olduğunu tahmin etmeye çalışıyor. Eğer yapay zeka ayırt edilemez hale gelirse, “insan benzeri zekâya” sahip olduğu kabul ediliyor.
HANGİ MODELLER TEST EDİLDİ?
Araştırmada dört farklı yapay zeka sistemi test edildi:
• GPT-4.5 (OpenAI) – %73 insan sanıldı
• LLaMa-3.1-405B – %56 insan sanıldı
• GPT-4o – %21 insan sanıldı
• ELIZA – %23 insan sanıldı
En yüksek başarı oranına sahip olan GPT-4.5, katılımcıların çoğunu kandırarak teste damga vurdu.
PEKİ GERÇEKTEN “DÜŞÜNEBİLİYOR” MU?
Araştırmacılar GPT-4.5’in testten geçmiş olmasının, onun gerçekten insan gibi düşündüğü anlamına gelmediğini açıkça belirtiyor. Buradaki başarının, modelin yalnızca “insan gibi görünme” yeteneğini gösterdiği vurgulanıyor.
Çalışmanın sınırlılıkları arasında ise; testlerin yalnızca beş dakika sürmesi, yapay zekaların belirli karakterlere büründürülmesi ve katılımcıların beklenti düzeyleri yer alıyor. Bu durum, sonuçların mutlak değil, bağlama dayalı olduğunu gösteriyor.
TURİNG TESTİ TARTIŞMALI MI?
Bilim dünyasında Turing testinin geçerliliği konusunda fikir birliği bulunmuyor. Eleştiriler ise dört başlıkta toplanıyor:
1. Düşünmek vs. Davranmak: Testin sadece dışa dönük davranışları ölçmesi, zihinsel süreçleri yansıtmakta yetersiz kalabilir.
2. İnsan Beyni = Makine mi? Turing’in mekanik düşünce anlayışı, herkes tarafından kabul görmüyor.
3. İşleyiş Farkı: İnsan beyni ve bilgisayarlar aynı çıktıyı verse bile, işlem süreçlerinin farklılığı dikkat çekiyor.
4. Zekâ Tek Boyutlu mu? Beş dakikalık bir konuşma ile genel zekâyı ölçmek, birçok uzmana göre eksik bir yaklaşım.
GELECEK NE GETİRECEK?
Uzmanlara göre GPT-4.5 henüz insanlar kadar zeki değil. Ancak bazı durumlarda insanları ikna edebilecek kadar başarılı bir taklitçi olduğu da göz ardı edilmemeli. Bu gelişme, yapay zekanın insanlarla etkileşim kurduğu alanlarda — müşteri hizmetlerinden eğitime kadar — büyük bir dönüşüm yaratabilir.
Yine de, “yapay zekâ artık insanlar kadar zeki” demek için biraz daha zamana ihtiyaç var gibi görünüyor.
Kaynak: Sciencealert