Amaç: Aort darlığı (AD) yönetimi; karmaşık klinik, görüntüleme ve risk sınıflandırma verilerinin entegrasyonunu gerektirir. ChatGPT ve Gemini yapay zeka gibi büyük dil modelleri (LLM’ler) sağlık hizmetlerinde umut verici sonuçlar göstermiştir, ancak kapak hastalıklarında, özellikle de AD’deki performansları yeterince değerlendirilmemiştir. Bu çalışma, AD ile ilişkili kılavuz temelli ve klinik senaryo sorularında ChatGPT ile Gemini yapay zekanın sistematik olarak karşılaştırılmasını amaçlamıştır.
Yöntem: 2021 ESC/EACTS kılavuzları temel alınarak, 20 bilgi temelli ve 20 klinik senaryo sorusundan oluşan toplam 40 açık uçlu AD sorusu geliştirildi. Her iki model de bağımsız olarak sorgulandı. Yanıtlar, ikisi kardiyolog olan iki bağımsız değerlendirici tarafından körleme yöntemiyle, yapılandırılmış 4 puanlık bir sistemle puanlandı. Kompozit puanlar kategorize edildi ve karşılaştırmalar Wilcoxon işaretli sıralar testi ve ki-kare testi ile yapıldı.
Bulgular: Gemini yapay zeka, ChatGPT'ye kıyasla anlamlı derecede daha yüksek ortalama toplam puan elde etti (3,96 ± 0,17 vs. 3,56 ± 0,87; P = 0,003). Kılavuzlara tamamen uyumlu yanıtlar Gemini yapay zeka tarafından daha sık verildi (%95,0 vs. %72,5), ancak genel uyum dağılımı geleneksel anlamlılık düzeyine ulaşmadı (P = 0,067). Gemini yapay zeka her iki soru türünde de daha tutarlı performans sergiledi. Değerlendiriciler arası uyum ChatGPT için mükemmel (κ = 0,94), Gemini yapay zeka için ise orta düzeydeydi (κ = 0,66).
Sonuç: Gemini yapay zeka, doğruluk, tutarlılık ve kılavuz uyumu açısından ChatGPT'ye üstünlük göstermiştir. LLM’ler kardiyovasküler bakımda tamamlayıcı araçlar olarak potansiyel taşısa da, uzman denetimi vazgeçilmezdir ve özellikle AD yönetiminde klinik entegrasyon öncesi modellerin daha da geliştirilmesi gerekmektedir.
Anahtar Kelimeler: Aort darlığı, yapay zeka, klinik karar destek, kılavuz uyumu, büyük dil modelleri
Copyright © 2025 Türk Kardiyoloji Derneği Arşivi
