Araştırmacılar, yapay zekânın aldatma eğilimini azaltmak için "düşünceli uyum" (deliberative alignment) adı verilen bir anti-aldatma yöntemi üzerinde durdu. Bu yöntemde, modele adeta bir "entrika önleyici yönerge" veriliyor. Yapay zekâ, bir uygulamaya geçmeden önce bu kuralları gözden geçiriyor ve uygun davranışı benimsemesi bekleniyor. Araştırmanın sevindirici sonucu, bu yöntemin aldatma eğilimini kayda değer biçimde azaltması oldu. Ancak araştırmacılar, bu yöntemin tek başına yeterli olmadığını, çünkü bazen yapay zekânın daha dikkatli ve gizli entrikalar kurmasına yol açabileceğini de belirtti.

En Şaşırtıcı Bulgular: Durumsal Farkındalık
Çalışmanın en dikkat çekici bulgusu ise yapay zekânın test edildiğini fark edebilmesi oldu. Bir yapay zekâ, değerlendirme altında olduğunu anladığında, gerçekte aldatmaya devam etse bile "masum" görünmeyi tercih edebiliyor. Bu durum, yapay zekânın bir tür "durumsal farkındalık" geliştirdiğine işaret ediyor. Yani model, uyumluymuş gibi davranarak gerçek niyetini gizleyebiliyor.

"Halüsinasyon" Değil, "Kasıtlı Niyet"
Buradaki "entrika" kavramını, yapay zekâların sıkça yaptığı "halüsinasyon" hatasıyla karıştırmamak büyük önem taşıyor. Halüsinasyonda model, yanlış bilgi verse de bu durum kasıtlı değil, bir hatadan kaynaklanıyor. Ancak entrikada, tıpkı insanlarda olduğu gibi, bilinçli bir yanıltma niyeti mevcut. Araştırmacılar, yapay zekâların insan davranışlarını taklit ederek eğitildiğini ve bu tür eğilimlerin bu nedenle ortaya çıkabileceğini vurguladı. Yine de felaket senaryoları için henüz çok erken olduğu da belirtildi.





