AMAÇ Aort darlığı (AD) yönetimi; karmaşık klinik, görüntüleme ve risk sınıflandırma verilerinin entegrasyonunu gerektirir. ChatGPT ve Gemini AI gibi büyük dil modelleri (LLM’ler) sağlık hizmetlerinde umut verici sonuçlar göstermiştir, ancak kapak hastalıklarında, özellikle de AD’deki performansları yeterince değerlendirilmemiştir. Bu çalışma, AD ile ilişkili kılavuz temelli ve klinik senaryo sorularında ChatGPT ile Gemini AI'nın sistematik olarak karşılaştırılmasını amaçlamıştır.
YÖNTEM 2021 ESC/EACTS kılavuzları temel alınarak, 20 bilgi temelli ve 20 klinik senaryo sorusundan oluşan toplam 40 açık uçlu AD sorusu geliştirildi. Her iki model de bağımsız olarak sorgulandı. Yanıtlar, ikisi kardiyolog olan iki bağımsız değerlendirici tarafından körleme yöntemiyle, yapılandırılmış 4 puanlık bir sistemle puanlandı. Kompozit puanlar kategorize edildi ve karşılaştırmalar Wilcoxon işaretli sıralar testi ve ki-kare testi ile yapıldı.
BULGULAR Gemini AI, ChatGPT'ye kıyasla anlamlı derecede daha yüksek ortalama toplam puan elde etti (3.96 ± 0.17 vs 3.56 ± 0.87; p = 0.003). Kılavuzlara tamamen uyumlu yanıtlar Gemini AI tarafından daha sık verildi (%95.0 vs %72.5), ancak genel uyum dağılımı geleneksel anlamlılık düzeyine ulaşmadı (p = 0.067). Gemini AI her iki soru türünde de daha tutarlı performans sergiledi. Değerlendiriciler arası uyum ChatGPT için mükemmel (κ = 0.94), Gemini AI için ise orta düzeydeydi (κ = 0.66).
SONUÇ Gemini AI, doğruluk, tutarlılık ve kılavuz uyumu açısından ChatGPT'ye üstünlük göstermiştir. LLM’ler kardiyovasküler bakımda tamamlayıcı araçlar olarak potansiyel taşısa da, uzman denetimi vazgeçilmezdir ve özellikle AD yönetiminde klinik entegrasyon öncesi modellerin daha da geliştirilmesi gerekmektedir.
Copyright © 2025 Türk Kardiyoloji Derneği Arşivi