Page 119 - The-5th-MCAIT2021-eProceeding
P. 119
2. Metodologi Kajian
Data yang digunakan dalam kajian ini merupakan data berstruktur daripada tahun 2015 ke 2018 dan
diperolehi daripada pengakalan data Registri Kardiotorasik IJN. Terdapat sejumlah 8787 data mentah yang
merangkumi keseluruhan data pesakit yang menjalani pembedahan jantung terbuka di IJN, iaitu pembedahan
pintasan koronari arteri (Coronary Artery Bypass Graft, CABG), pembedahan penggantian atau pemuliharaan
injap (Valve Replacement or Repair) dan pembedahan yang melibatkan aorta. Daripada 49 atribut yang dipilih
berdasarkan atribut-atribut yang terdapat di dalam model stratifikasi risiko Bernstein-Parsonnet, EuroSCORE
dan EuroSCORE II, 3 atribut yang mempunyai data hilang melebihi 50% iaitu atribut Planned Operation
(76.9%), Planned Operation Aorta (77.4%) dan CL Pulmonary Hypertension (54.8%) dikeluarkan daripada
analisis selanjutnya disebabkan oleh peratus data hilang yang terlalu tinggi dan mungkin akan menyebabkan
bias jika atribut-atribut ini menjalani proses penggantian data. Selain daripada itu, data latar belakang demografi
pesakit yang diperoleh daripada sistem maklumat pesakit juga ditambah di dalam dataset mentah. Berdasarkan
hasil penyelidikan terdahulu, kajian ini memilih untuk menggunakan perisian RapidMiner bagi pemprosesan
awal data, SMOTE, pembangunan model regresi logistik, Artificial Neural Network (ANN), Random Forest
(RF) dan Naïve Bayes dan seterusnya penilaian prestasi model dengan menggunakan teknik validasi silang
dengan pecahan dataset 60:40, 70:30 dan 80:20.
3. Dapatan Kajian
Berdasarkan penilaian prestasi setiap pecahan dataset, prestasi model jangkaan yang terbaik adalah model
Artificial Neural Network (ANN) dimana semua nilai prestasinya adalah lebih tinggi berbanding Regresi
Logistik, Random Forest dan Naïve Bayes di dalam setiap pecahan dataset. Jadual 1 menunjukkan penilaian
prestasi bagi model ANN adalah yang tertinggi. ANN mempunyai kuasa diskriminasi yang lebih baik
berbanding model regresi logistik, Random Forest (RF) dan Naïve Bayes apabila mempunyai lebih banyak
maklumat atau lebih banyak data yang membolehkan algoritma ANN memjalankan proses latihan pembelajaran
dan membuat jangkaan yang lebih tepat terhadap hasil akhir.
Jadual 1. Perbandingan Penilaian Prestasi Model-Model Jangkaan
Prestasi Logistic Regression Artificial Neural Random Forest Naïve Bayes
Network
Ketepatan (%) 74.46% 82.74% 80.37% 72.75%
AUC 0.818 0.902 0.894 0.801
Kejituan 0.7390 0.8172 0.8180 0.7381
Dapatan Semula 0.7564 0.8435 0.7812 0.7054
Skor-F 0.7476 0.8301 0.7992 0.7213
4. Kesimpulan
Model yang dibangunkan menggunakan algoritma ANN yang mempunyai prestasi yang tertinggi berbanding
algoritma lain dan model regresi logistik. Oleh itu, ANN merupakan algoritma pembelajaran mesin yang
dicadangkan untuk membangunkan model jangkaan bagi pesakit yang menjalani pembedahan jantung terbuka.
Kajian ini juga lebih memfokuskan kepada pemprosesan awal data berbanding kajian-kajian lain.
Walaubagaimanapun, pembangunan model jangkaan ini perlu ditambahbaik dari segi pengumpulan dan
penyediaan data, proses transformasi atribut dan mempelbagaikan lagi atribut-atribut yang relevan.
E- Proceedings of The 5th International Multi-Conference on Artificial Intelligence Technology (MCAIT 2021) [106]
Artificial Intelligence in the 4th Industrial Revolution