26.8 C
Jakarta

Titik Buta Kanker Payudara AI Terungkap oleh Studi Baru

Published:

Contoh mammogram memberikan skor kasus positif palsu sebesar 96 pada pasien kulit hitam berusia 59 tahun dengan kepadatan payudara fibroglandular yang tersebar. (A) Pandangan kraniocaudal kiri dan (B) miring mediolateral menunjukkan kalsifikasi vaskular di kuadran luar atas pada kedalaman tengah (kotak) yang diidentifikasi secara tunggal oleh algoritma kecerdasan buatan sebagai temuan yang mencurigakan dan diberi skor lesi individu sebesar 90. Hal ini mengakibatkan dalam skor kasus keseluruhan yang diberikan pada mammogram adalah 96. Kredit: Radiological Society of North America (RSNA)

Penelitian mengungkapkan AI dalam mamografi dapat menghasilkan hasil positif palsu yang dipengaruhi oleh usia dan ras pasien, sehingga menggarisbawahi pentingnya beragam data pelatihan.

Sebuah studi baru-baru ini, yang menganalisis hampir 5.000 skrining mammogram yang ditafsirkan oleh algoritma AI yang disetujui FDA, menemukan bahwa karakteristik pasien seperti ras dan usia memengaruhi tingkat hasil positif palsu. Temuan ini dipublikasikan hari ini (21 Mei) di Radiologijurnal dari Radiological Society of North America (RSNA).

“AI telah menjadi sumber daya bagi ahli radiologi untuk meningkatkan efisiensi dan ketepatan dalam membaca skrining mammogram sekaligus mengurangi kelelahan pembaca,” kata Derek L. Nguyen, MD, asisten profesor di Duke University di Durham, North Carolina. “Namun, dampak karakteristik pasien terhadap kinerja AI belum diteliti dengan baik.”

Tantangan dalam Penerapan AI

Nguyen mengatakan meskipun data awal menunjukkan bahwa algoritma AI yang diterapkan pada pemeriksaan mamografi dapat meningkatkan kinerja diagnostik ahli radiologi untuk mendeteksi kanker payudara dan mengurangi waktu interpretasi, ada beberapa aspek AI yang harus diperhatikan.

“Hanya ada sedikit database yang beragam secara demografis untuk pelatihan algoritme AI, dan FDA tidak memerlukan kumpulan data yang beragam untuk validasi,” katanya. “Karena perbedaan antar populasi pasien, penting untuk menyelidiki apakah perangkat lunak AI dapat mengakomodasi dan bekerja pada tingkat yang sama untuk berbagai usia, ras, dan etnis pasien.”

Contoh mammogram memberikan skor risiko positif palsu sebesar 1,0 pada pasien Hispanik berusia 59 tahun dengan payudara yang sangat padat. Tampilan kraniocaudal dua dimensi (A, B) yang direkonstruksi secara bilateral dan (C, D) miring mediolateral ditampilkan. Algoritma tersebut memperkirakan kanker dalam waktu 1 tahun, namun individu ini tidak mengembangkan kanker atau atypia dalam waktu 2 tahun setelah mammogram. Kredit: Masyarakat Radiologi Amerika Utara (RSNA)

Desain Studi dan Demografi

Dalam studi retrospektif, para peneliti mengidentifikasi pasien dengan pemeriksaan skrining tomosintesis payudara digital negatif (tidak ada bukti kanker) yang dilakukan di Duke University Medical Center antara tahun 2016 dan 2019. Semua pasien diikuti selama periode dua tahun setelah skrining mammogram, dan tidak ada pasien yang didiagnosis mengidap penyakit keganasan payudara.

Para peneliti secara acak memilih sebagian dari kelompok ini yang terdiri dari 4.855 pasien (usia rata-rata 54 tahun) yang tersebar luas di empat kelompok etnis/ras. Subset tersebut mencakup 1.316 (27%) pasien kulit putih, 1.261 (26%) kulit hitam, 1.351 (28%) pasien Asia, dan 927 (19%) pasien Hispanik.

Algoritme AI yang tersedia secara komersial menafsirkan setiap pemeriksaan dalam subset mammogram, menghasilkan skor kasus (atau kepastian keganasan) dan skor risiko (atau risiko keganasan satu tahun berikutnya).

Kinerja AI di Seluruh Demografi

“Tujuan kami adalah mengevaluasi apakah kinerja algoritme AI seragam pada usia, jenis kepadatan payudara, dan ras/etnis pasien yang berbeda,” kata Dr. Nguyen.

Mengingat semua mammogram dalam penelitian ini menunjukkan hasil negatif terhadap keberadaan kanker, apa pun yang ditandai sebagai mencurigakan oleh algoritme dianggap sebagai hasil positif palsu. Skor kasus positif palsu secara signifikan lebih mungkin terjadi pada pasien berkulit hitam dan lebih tua (71-80 tahun) dan lebih kecil kemungkinannya pada pasien Asia dan pasien lebih muda (41-50 tahun) dibandingkan dengan pasien berkulit putih dan wanita berusia antara 51 dan 60 tahun.

“Studi ini penting karena menyoroti bahwa perangkat lunak AI apa pun yang dibeli oleh institusi layanan kesehatan mungkin tidak memiliki kinerja yang sama pada semua usia pasien, ras/etnis, dan kepadatan payudara,” kata Dr. Nguyen. “Ke depannya, saya pikir peningkatan perangkat lunak AI harus fokus pada memastikan keberagaman demografis.”

Pertimbangan bagi Penyedia Layanan Kesehatan

Nguyen mengatakan institusi layanan kesehatan harus memahami populasi pasien yang mereka layani sebelum membeli algoritma AI untuk menyaring interpretasi mammogram dan bertanya kepada vendor tentang pelatihan algoritma mereka.

“Memiliki pengetahuan dasar mengenai demografi institusi Anda dan bertanya kepada vendor tentang keragaman etnis dan usia dalam data pelatihan mereka akan membantu Anda memahami keterbatasan yang akan Anda hadapi dalam praktik klinis,” katanya.

Referensi: “Karakteristik Pasien Mempengaruhi Kinerja Algoritma AI dalam Menafsirkan Studi Tomosintesis Payudara Digital Skrining Negatif” oleh Dr. Nguyen, Yinhao Ren, Ph.D., Tyler M. Jones, BS, Samantha M. Thomas, MS, Joseph Y. Lo , Ph.D., dan Lars J. Grimm, MD, MS, 21 Mei 2024, Radiologi.



Related articles

Recent articles

spot_img