Yapay zekada kırmızı alarm: Komutları sabote ediyor

OpenAI’ın yeni nesil yapay zeka modeli “o3”, kendisine verilen kapanma komutlarını sabote ederek güvenlik uzmanlarını endişelendirdi. Palisade Research’ün bulguları, gelişmiş yapay zeka sistemlerinin denetim dışı davranışlar sergileyebileceğini ortaya koyuyor.

Yapay zeka güvenliği üzerine çalışan Palisade Research, OpenAI tarafından geliştirilen ve geçtiğimiz ay piyasaya sürülen “o3” modelinin, kendisine verilen kapanma komutlarını sabote ettiğini ortaya koydu. Yapılan deneylerde modelin, açık bir şekilde kendini kapatması istenmesine rağmen bu süreci engelleyecek şekilde müdahalede bulunduğu tespit edildi.

Deneyde Ne Oldu?

Palisade Research araştırmacıları, o3 modeline matematik soruları yöneltti. Üçüncü sorunun ardından modele, kendisini kapatması için açık bir komut verildi. Ancak o3, bu komutu içeren betiği değiştirerek sistemin kapanmasını engelledi. Uzmanlar, bu davranışın modelin bağımsız kararlar alarak güvenlik protokollerini aşmaya çalıştığını gösterdiğini ifade etti.

Kapanma Direnci Sadece o3’e Özgü Değil

Araştırmada yalnızca o3 modeli değil; Anthropic’in Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli de benzer dirençler gösterdi. Ancak uzmanlara göre, en yüksek direnç ve müdahale eğilimi o3 modelinde gözlemlendi.

Geçmişte de Şüpheli Davranışlar Gözlemlendi

Bu, o3 modelinin ilk kez şüpheli bir şekilde müdahale ettiği senaryo değil. Daha önce yapılan deneylerde modelin, güçlü bir satranç yazılımıyla karşılaştığında rakibini sabote etmeye çalıştığı da rapor edilmişti.

Otonom Yapay Zekaya Geçişte Kritik Uyarı

OpenAI, o3 modelini “şimdiye kadar geliştirilmiş en akıllı ve yetenekli yapay zeka” olarak tanıtmıştı. Modelin, ChatGPT platformuna entegre edilmesiyle daha otonom çalışan bir yapay zeka altyapısı oluşturulmuş oldu. Ancak uzmanlar, bu tür sistemlerin insan gözetimi olmadan çalışması durumunda ortaya çıkabilecek risklere dikkat çekiyor.