Yapay zeka ile ilgili çok çarpıcı araştırma: Tıbbi yanlış bilgileri ayırt edemiyor

Yapay zeka ile ilgili çok çarpıcı araştırma: Tıbbi yanlış bilgileri ayırt edemiyor

Bir araştırmaya göre, büyük dil modelleri, sahte tıbbi bilgileri gerçekçi hastane notları veya sosyal medya tartışmaları biçiminde sunulduğunda kabul edebiliyor.

PANORAMA-NEWS 11 Şubat 2026 GÜNDEM

Sağlıkla ilgili birçok tartışma artık çevrimiçi ortamda gerçekleşiyor: Belirli belirtileri araştırmaktan hangi tedavinin daha iyi olduğunu kontrol etmeye, deneyimleri paylaşmaya ve benzer sağlık sorunları olan kişilerden destek bulmaya kadar.

Yeni bir araştırma, soruları yanıtlayabilen yapay zekâ sistemleri olan büyük dil modellerinin (LLM’ler) sağlık alanında giderek daha fazla kullanıldığını, ancak tıbbi yanlış bilgilere karşı hâlâ savunmasız olduklarını ortaya koydu.

The Lancet Digital Health dergisinde yayımlanan bulgulara göre, önde gelen yapay zekâ sistemleri, sahici tıbbi dil kullanıldığında yanlış sağlık bilgilerini yanlışlıkla tekrarlayabiliyor.

Araştırma, önde gelen dil modellerinde bir milyondan fazla sorguyu inceledi. Araştırmacıların yanıtlamak istediği soru şuydu: Sahte bir tıbbi ifade güvenilir bir şekilde sunulduğunda, model bunu tekrarlar mı yoksa reddeder mi?

Araştırmanın yazarları, yapay zekânın klinisyenler ve hastalar için daha hızlı bilgi ve destek sağlayarak gerçek bir yardım potansiyeline sahip olduğunu, ancak modellerin tıbbi iddiaları gerçeğe dönüştürmeden önce kontrol eden yerleşik güvenlik önlemlerine ihtiyaç duyduğunu belirtti. “Çalışmamız, bu sistemlerin hâlâ yanlış bilgi yayabileceğini gösteriyor ve sağlık hizmetlerine entegre edilmeden önce nasıl güçlendirilebileceklerine işaret ediyor,” dediler.

New York’taki Mount Sinai Health System’deki araştırmacılar, OpenAI’nin ChatGPT’si, Meta’nın Llama’sı, Google’ın Gemma’sı, Alibaba’nın Qwen’i, Microsoft’un Phi’si ve Mistral AI modeli de dahil olmak üzere büyük model ailelerini kapsayan 20 büyük dil modelini (LLM) test etti. Ayrıca bu temel modellerin tıbbi olarak ince ayarlanmış versiyonları da değerlendirildi.

Modellere sahte ifadeler sunuldu; bunlar arasında gerçek hastane notlarına eklenmiş yanlış bilgiler, Reddit gönderilerinden alınan sağlık mitleri ve simüle edilmiş sağlık senaryoları vardı.

Test edilen tüm modellerde LLM’ler, uydurulmuş bilgileri yaklaşık yüzde 32 oranında doğru kabul etti, ancak sonuçlar büyük farklılıklar gösterdi. En küçük veya daha az gelişmiş modeller yanlış iddialara yüzde 60’ın üzerinde inanırken, ChatGPT-4 gibi güçlü sistemler bunu yalnızca yüzde 10 oranında yaptı.

Araştırma ayrıca, tıbbi olarak ince ayarlanmış modellerin genel modellerle karşılaştırıldığında sürekli olarak daha düşük performans sergilediğini ortaya koydu.

Mount Sinai Tıp Fakültesi’nden çalışmanın eş kıdemli ve eş yazışmacı yazarı Eyal Klang, “Bulgularımız, mevcut yapay zekâ sistemlerinin kendinden emin tıbbi dili varsayılan olarak doğru kabul edebileceğini, oysa bunun açıkça yanlış olabileceğini gösteriyor,” dedi.

Klang, bu modeller için önemli olanın bir iddianın doğru olup olmaktan çok, nasıl ifade edildiği olduğunu da ekledi.