Yapay Zeka Tıbbi Tanı Doğruluğunu Artırabilir mi?

Ekim 2024/Adam Hadhazy

Potansiyel olarak. ChatGPT’nin kendi başına ve doktorlar için bir teşhis yardımcısı olarak ne kadar iyi performans gösterdiğine dair bir araştırma, YZ aracının iyi bir şekilde kullanılabileceği klinik eksiklikleri ortaya koyuyor.

 Stanford Üniversitesi araştırmacılarının yeni bir araştırması, tıbbi teşhislerin ve klinik akıl yürütmenin doğruluğunu artırmak için yapay zekanın bir biçimi olan büyük dil modellerinin kullanılmayan potansiyelini vurguladı.

Araştırmacılar gerçek hastalara dayalı bir dizi vakayı popüler model ChatGPT-4’e ve 50 hekime sundular ve bir tanı istediler. Hekimlerin yarısı tıbbi kılavuzlar ve internet araması gibi geleneksel tanı kaynaklarını kullanırken diğer yarısı tanı aracı olarak ChatGPT’ye sahipti.

Genel olarak, ChatGPT kendi başına oldukça iyi performans gösterdi ve yaklaşık 92’lik bir ortalama puan elde etti; bu da “A” notuna eşdeğerdir. Hem AYZ olmayan hem de YZ destekli gruplardaki doktorlar sırasıyla 74 ve 76’lık ortalama puanlar elde etti; bu da doktorların teşhisle ilgili bir dizi akıl yürütme adımını kapsamlı bir şekilde ifade etmediği anlamına geliyor.

Çalışmanın tamamını okumak için linki tıklatınız. Büyük Dil Modelinin Tanısal Muhakeme Üzerindeki Etkisi: Rastgele Klinik Bir Özet Çalışması

Bilim insanları, sezgiye aykırı bulgunun, hekimlerin bu tür yapay zeka araçlarını daha iyi öğrenmeleri ve en iyi şekilde kullanmaları için daha fazla alana sahip olduklarını gösterdiğini söylüyor. Etkili eğitim ve klinik entegrasyonla, sağlık hizmeti ortamlarındaki büyük dil modellerinin nihayetinde hastalara fayda sağlayabileceğine inanıyorlar.

“Çalışmamız, ChatGPT’nin tıbbi teşhislerde güçlü bir araç olarak potansiyeli olduğunu gösteriyor, bu nedenle hekimlerin kullanımına sunulmasının klinik muhakemeyi önemli ölçüde iyileştirmediğini görmek bizi şaşırttı,” diyor çalışmanın ortak baş yazarı, Stanford Tıp Fakültesi’nde doktora sonrası araştırmacı ve Stanford Klinik Mükemmellik Araştırma Merkezi’nde araştırma görevlisi Ethan Goh . “Bulgular, klinik uygulamada ve sağlık hizmetlerinde hekim-YZ iş birliğinin daha da iyileştirilmesi için fırsatlar olduğunu gösteriyor.”

“Çok olası olan şey, bir insanın bir tanı aldığını hissettiğinde, nedenlerini açıklamak için daha fazla adım atmaya ‘zaman veya alan harcamamasıdır,” diye ekledi Stanford Tıp Fakültesi’nde yardımcı doçent ve makalenin kıdemli yazarı Jonathan H. Chen. “Ayrıca, insan uzmanların genellikle neden doğru kararlar aldıklarını tam olarak açıklayamamaları gibi gerçek bir olgu da var.”

Çalışma yakın zamanda JAMA Network Open’da yayımlandı ve Kasım ayında Amerikan Tıbbi Bilişim Derneği’nin 2024 sempozyumunda kabul edildi .

Tanıların konulması:

 Büyük dil modelleri veya LLM’ler, Kasım 2022’de San Francisco merkezli OpenAI’den  ChatGPT’nin gelmesinden bu yana önem kazandı. LLM’ler, web siteleri ve kitaplar gibi doğal insan dilini içeren büyük miktardaki veriler üzerinde eğitilen programlardır. Bu eğitime dayanarak, LLM’ler doğal dil sorgu girdilerine akıcı, ikna edici yanıt çıktılarıyla yanıt verebilir.

LLM’ler finans ve içerik üretimi de dahil olmak üzere birçok alanda önemli ilerlemeler kaydetti ve sağlık hizmetlerinin de büyük bir benimseyen olması bekleniyor. Goh, en umut verici bilinen uygulamalardan birinin modern tıpta hala çok yaygın ve zararlı olan tanı hatalarını azaltmak olduğunu söylüyor. Bugüne kadar birçok çalışma LLM’lerin çoktan seçmeli ve açık uçlu tıbbi muhakeme sınav sorularını ele alma becerisini gösterdi, ancak YZ araçlarının eğitimin ötesinde ve gerçek klinik uygulamaya kullanımı o kadar iyi incelenmedi.

Goh ve meslektaşları yeni çok merkezli çalışmalarıyla bu boşluğu kapatmaya çalıştılar. Araştırmacılar Stanford Üniversitesi, Beth Israel Deaconess Tıp Merkezi ve Virginia Üniversitesi’nden 50 doktoru işe aldılar. Çoğu doktor dahiliyede uzmanlaşmıştı, ancak acil tıp ve aile hekimliği de temsil ediliyordu.

Bir saatlik süre boyunca, katılımcı hekimler tanısal muhakeme testlerinde görülen ve gerçek hasta geçmişlerine, fiziksel muayenelere ve laboratuvar sonuçlarına dayananlar gibi altı karmaşık klinik öyküyü incelediler. Klinik vakalara yanıt olarak, hekim katılımcılar makul buldukları tanıları ve ek hasta değerlendirme adımlarını sundular.

Tıpkı normal sağlık hizmeti ortamlarında olduğu gibi, katılımcılar kendi tıbbi bilgi ve deneyimlerine ve kendilerine sunulan referans materyallerine güvendiler. Klinik değerlendirmelerinde ChatGPT’yi kullanmak üzere rastgele atanan katılımcıların yaklaşık üçte biri, aracı daha önce sık veya ara sıra kullandığını bildirdi. Sadece ChatGPT ile araca erişimi olan hekimlerin farklı sonuçlarına dayanarak, ChatGPT erişim grubundaki hekimlerin çoğu modelin tanısal öngörüsüne katılmadı veya bunu hesaba katmadı.

ChatGPT erişimi doktorlar için tanı doğruluğunu iyileştirmese de, erişimi olanlar bireysel vaka değerlendirmelerini ChatGPT’yi bir yardımcı olarak kullanmayan doktorlardan ortalama bir dakikadan daha hızlı tamamladılar. Bu bulgular—zaman kazandıran bu yönü hedef alan ek araştırmalarla daha fazla doğrulamaya ihtiyaç duyacak—mesleki kabulün bu erken aşamasında ChatGPT ve benzeri araçların en azından zaman kısıtlı klinik ortamlarda tanı dönüşümünü iyileştirebileceğini öne sürüyor.

Goh, “ChatGPT doktorların hayatlarını daha verimli hale getirmeye yardımcı olabilir” diyor. “Sadece bu zaman tasarrufları bile büyük dil modellerinin kullanımını haklı çıkarabilir ve uzun vadede doktorlar için daha az tükenmişlik anlamına gelebilir.”

İnsan-Yapay Zeka Ekip Çalışmasını Geliştirmek:

 Çalışma, sonuçlarıyla klinik uygulamada hekim-YZ iş birliğinin nasıl iyileştirilebileceğine de işaret ediyor. Goh, hekim güveninin temel bir unsur olduğunu, yani pratikte hekimlerin YZ perspektifini geçerli ve potansiyel olarak doğru olarak dikkatlice değerlendireceklerini öne sürüyor. Bu tür kazanılmış güven, kısmen hekimlerin bir YZ modelinin nasıl eğitildiğini ve hangi materyaller üzerinde eğitildiğini anlamalarından gelebilir.

Goh, her şeyden önce, hasta güvenliğinin herhangi bir YZ klinik uygulamasının merkezinde kalması gerektiğini belirtiyor. YZ yanıtlarının incelendiğinden ve nihai tanı kararı olarak ele alınmadığından emin olmak için hekimlerin tarafında güvenlik önlemlerinin alınması gerektiğini ve hastaların güvenilir bir insan profesyonelin aracılığını beklemeye ve istemeye devam edeceğini tavsiye ediyor. Goh, “YZ  doktorların yerini almıyor,” diyor. “Sadece doktorunuz ilaç yazacak, ameliyat gerçekleştirecek veya başka müdahalelerde bulunacak.”

Ancak Goh, yapay zekanın yardımcı olmak için burada olduğunu söylüyor.

Goh, “Hastaların teşhislerinden daha çok önemsediği şey, sahip oldukları rahatsızlığın doğru şekilde tedavi edildiğinden emin olmaktır,” diyor. “İnsan doktorlar işin tedavi tarafını ele alıyor ve umut, YZ araçlarının işlerini daha da iyi yapmalarına yardımcı olabilmesi.”

Bu çığır açan çalışmanın ardından, Stanford Üniversitesi, Beth Israel Deaconess Tıp Merkezi, Virginia Üniversitesi ve Minnesota Üniversitesi de sağlık hizmetlerinde GenAI çıktılarını daha fazla değerlendirmek için ARiSE (YZ Araştırma ve Bilim Değerlendirmesi) adlı iki kıyıda bir YZ değerlendirme ağı başlattı. ARiSE web sitesinde daha fazla bilgi edinilebilir.

Çalışmanın Stanford’a bağlı diğer yazarları arasında Stanford Üniversitesi Tıp Fakültesi’nden Jason Hom, Eric Strong, Yingjie Weng ve Neera Ahuja; Microsoft ve  Stanford İnsan Merkezli Yapay Zeka Enstitüsü’nden (HAI) Eric Horvitz; Stanford Klinik Mükemmellik Araştırma Merkezi’nden Arnold Milstein; ve Stanford Biyomedikal Bilişim Araştırma Merkezi ve Stanford Klinik Mükemmellik Araştırma Merkezi’nden eş kıdemli yazar Jonathan Chen yer alıyor.

Çalışmanın diğer yazarları arasında VA Palo Alto Sağlık Sistemi’ndeki Uygulamaya Yenilik Merkezi’nde eş baş yazar olan Robert Gallo; Beth Israel Deaconess Tıp Merkezi ve Harvard Tıp Fakültesi’nden Hannah Kerman, Joséphine Cool ve Zahir Kanjee; Virginia Üniversitesi Tıp Fakültesi’nden Andrew S. Parsons; Kaiser Permanente’den Daniel Yang; ve Minnesota Üniversitesi Tıp Fakültesi’nden eş kıdemli yazarlar Andrew PJ Olson ve Beth Israel Deaconess Tıp Merkezi ve Harvard Tıp Fakültesi’nden Adam Rodman yer alıyor.

Not: Bu yazının tercümesinde DeepL tercüme algoritması kullanılmış ve daha sonra revize edilmiştir.

 

https://hai.stanford.edu/news/can-ai-improve-medical-diagnostic-accuracy?utm_source=linkedin&utm_medium=social&utm_content=Stanford%20HAI_linkedin_HAI_202411051034_sf206468629&utm_campaign=&sf206468629=1

https://jamanetwork.com/journals/jamanetworkopen/article-abstract/2825395#google_vignette

Scroll to Top