Optimasi Penanganan Ketidakseimbangan Data pada Klasifikasi Pengaduan Masyarakat Menggunakan Metode Naïve Bayes

Fitro Praaidinza Muhammad; Maimunah; Setiya Nugroho

doi:10.33365/jtk.v20i2.939

Fitro Praaidinza Muhammad Universitas Muhammadiyah Magelang
Maimunah Universitas Muhammadiyah Magelang
Setiya Nugroho Universitas Muhammadiyah Magelang

DOI: https://doi.org/10.33365/jtk.v20i2.939

Abstrak

Pengaduan masyarakat merupakan salah satu bentuk nyata partisipasi publik yang berperan penting dalam proses evaluasi serta peningkatan kualitas pelayanan publik. Data pengaduan yang masuk, apabila diolah dengan baik, dapat menjadi dasar perumusan kebijakan yang lebih responsif terhadap kebutuhan masyarakat. Akan tetapi, salah satu kendala yang dapat muncul dalam pengolahan data pengaduan adalah masalah ketidakseimbangan data. Ketidakseimbangan ini berpotensi menurunkan kinerja algoritma klasifikasi karena model cenderung bias terhadap kelas mayoritas dan mengabaikan kelas minoritas. Penelitian ini dilakukan dengan tujuan untuk mengoptimalkan penanganan ketidakseimbangan data pada klasifikasi pengaduan masyarakat di Dinas Perhubungan Kota Magelang. Algoritma yang digunakan adalah Naïve Bayes dengan pembobotan data berbasis TF-IDF. Dataset penelitian diambil dari aplikasi LAPOR! dalam rentang waktu 20 Desember 2020 hingga 10 April 2025 dengan total 350 data awal. Setelah melalui tahap pembersihan, eliminasi duplikasi, serta penghapusan data tidak relevan, tersisa 337 data yang kemudian diberi label manual ke dalam tiga kategori, yaitu MRLL dan PJU, Dalops dan Perparkiran, serta Angkutan dan Terminal. Tahap praproses mencakup penghapusan duplikasi, case folding, perbaikan ejaan, penghapusan angka dan tanda baca, stemming, serta penghapusan stopwords. Selanjutnya, pembobotan TF-IDF hanya diterapkan pada data latih untuk mencegah kebocoran informasi. Data dibagi dengan rasio 80% latih dan 20% uji. Untuk mengatasi ketidakseimbangan kelas, tiga pendekatan digunakan, yakni RUS, SMOTE, dan ADASYN. Semua metode diterapkan hanya pada data latih sebelum proses pelatihan model. Evaluasi dilakukan dengan menggunakan metrik akurasi, presisi, recall, dan f1-score. Hasil penelitian menunjukkan bahwa Naïve Bayes tanpa penanganan ketidakseimbangan hanya mencapai akurasi 86,76% dengan presisi 58%, recall 61%, dan f1-score 59%. Penerapan SMOTE maupun ADASYN mampu meningkatkan kinerja model pada beberapa metrik, tetapi kombinasi RUS dan Naïve Bayes memberikan performa paling optimal, yaitu akurasi 94,12%, presisi 89%, recall 96%, dan f1-score 92%. Temuan ini membuktikan bahwa strategi undersampling efektif memperbaiki kemampuan model dalam mengenali kelas minoritas.

Referensi

W. A. Setyarini, “Survei Kepuasan Masyarakat terhadap Pelayanan Pengaduan Masyarakat Lapor Hendi Tahun 2021,” J. Riptek, vol. 16, no. 2, pp. 90–96, 2022, doi: 10.35475/riptek.v16i2.157.

S. E. R. Putri Gunawan and D. Hertati, “Inovasi Pelayanan Pengaduan Masyarakat Melalui Aplikasi Wargaku Berbasis Android di Dinas Komunikasi dan Informatika Kota Surabaya,” J. Ilm. Univ. Batanghari Jambi, vol. 22, no. 3, p. 1360, 2022, doi: 10.33087/jiubj.v22i3.2462.

Y. Sansena, “Implementasi Sistem Layanan Pengaduan Masyarakat Kecamatan Medan Amplas Berbasis Website,” J. Ilm. Teknol. Inf. Asia, vol. 15, no. 2, p. 91, 2021, doi: 10.32815/jitika.v15i2.611.

T. Wijayanti, F. Nugraha, and A. P. Utomo, “Rancang Bangun Sistem Manajemen Pengelolaan Pengaduan Masyarakat Di Kabupaten Kudus,” J. Comput. Inf. Syst. Ampera, vol. 3, no. 1, pp. 56–65, 2022, doi: 10.51519/journalcisa.v3i1.141.

E. Meilinda, R. Sabaruddin, and D. Fitriani, “Model Prototype Sebagai Metode Pengembangan Perangkat Lunak Pada Sistem Informasi Pengaduan Umum,” J. Khatulistiwa Inform., vol. 9, no. 2, pp. 86–91, 2021.

Sunarti, Ridwang, and M. A. M. Hayat, “Klasifikasi Pengaduan Pelayanan Fakultas Teknik Universitas Muhammadiyah Makassar menggunakan Natural Language Processing,” Arus J. Sains dan Teknol., vol. 2, no. 2, pp. 572–579, 2024.

I. G. N. A. Kusuma, I. M. Pradipta, I. M. A. Santosa, and I. M. A. Dharmendra, “Penanganan Ketidakseimbangan Data Pada Klasifikasi Pengaduan Masyarakat,” J. Teknol. Inf. dan Komput., vol. 9, no. 5, pp. 489–496, 2023, doi: 10.36002/jutik.v9i5.2643.

F. Atmaja and E. D. Wahyuni, “Analisis Sentimen Berbasis Aspek pada Sistem Layanan Pengaduan Masyarakat di Kota Surabaya Menggunakan Metode Latent Dirichlet Allocation dan Naive Bayes,” JATI (Jurnal Mhs. Tek. Inform., vol. 9, no. 1, pp. 527–534, 2025, doi: https://doi.org/10.36040/jati.v9i1.12438.

D. Chrisinta and J. E. Simarmata, “Eksplorasi Teknik Web Scraping pada Data Mining: Pendekatan Pencarian Data Berbasis Python,” Fakt. Exacta, vol. 17, no. 1, pp. 58–68, 2024, doi: 10.30998/faktorexacta.v17i1.22393.

N. Nyoman Eny Perimawati, R. Rudolf Huizen, D. Pramana Hostiadi, and M. Sistem Informasi, “Analisa Pengaruh Pre-Procesing Data Untuk Model Deteksi Akun Palsu Pada Media Sosial,” Pros. Semin. Has. Penelit. Inform. dan Komput. Ed. Maret 2025, vol. 2, no. 1, p. 2025, 2025.

A. Agung, A. Daniswara, I. Kadek, and D. Nuryana, “Data Preprocessing Pola Pada Penilaian Mahasiswa Program Profesi Guru,” J. Informatics Comput. Sci., vol. 05, pp. 97–100, 2023.

Y. T. Handika, S. Defit, and G. W. Nurcahyo, “Text Mining dalam Membandingkan Metode Naïve Bayes dengan C.45 dalam Mengidentifikasi Berita Hoax pada Media Sosial,” Rang Tek. J., vol. 5, no. 1, pp. 116–123, 2022.

L. Hermawati, V. Berland, A. Rahmadiah, E. Hutabarat, and D. D. Saputra, “Komparasi Metode Text Mining Terhadap Masalah Pengklasifikasian Narasi Informative & Non Informative Pada twitter @ PLN _ 123,” J. Sistim Inf. dan Teknol., vol. 5, no. 1, pp. 109–120, 2023, doi: 10.37034/jsisfotek.v4i2.191.

D. Rifaldi, Abdul Fadlil, and Herman, “Teknik Preprocessing Pada Text Mining Menggunakan Data Tweet ‘Mental Health,’” Decod. J. Pendidik. Teknol. Inf., vol. 3, no. 2, pp. 161–171, 2023, doi: 10.51454/decode.v3i2.131.

M. H. Mahendra, D. T. Murdiansyah, and K. M. Lhaksmana, “Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer,” DIKE J. Ilmu Multidisiplin, vol. 1, no. 2, pp. 37–43, 2023, doi: 10.69688/dike.v1i2.35.

K. Tri Putra, M. Amin Hariyadi, and C. Crysdian, “Perbandingan Feature Extraction TF-IDF Dan BOW Untuk Analisis Sentimen Berbasis SVM,” J. Cahaya Mandalika, vol. 3, no. 2, p. 1449, 2023.

K. Ishak, “Understanding Data Leakage in Machine Learning: A Focus on TF-IDF,” Summer of Reproducibility 24, UC Santa Cruz OSPO, 2024. https://ucsc-ospo.github.io/report/osre24/nyu/data-leakage/20240905-kyrillosishak/#:~:text=How Data Leakage Occurs with,IDF (accessed May 21, 2025).

S. Wehnert, V. Sudhi, S. Dureja, L. Kutty, S. Shahania, and E. W. De Luca, “Legal Norm Retrieval with Variations of the BERT Model Combined with TF-IDF Vectorization,” Proc. 18th Int. Conf. Artif. Intell. Law, ICAIL 2021, pp. 285–294, 2021, doi: 10.1145/3462757.3466104.

C. Yang, R. A. Brower-Sinning, G. Lewis, and C. Kästner, “Data Leakage in Notebooks: Static Detection and Better Processes,” ACM Int. Conf. Proceeding Ser., 2022, doi: 10.1145/3551349.3556918.

M. Anjas Aprihartha, D. Zulhan, A. F. Nurfaizal, and T. Nur Alam, “Penyelesaian Masalah Ketidakseimbangan Data Melalui Teknik Oversampling dan Undersampling pada Klasifikasi Siswa Tidak Naik Kelas,” J. Tek. Ibnu Sina, vol. 9, no. 01, pp. 43–52, 2024.

Y. A. Sir and A. H. H. Soepranoto, “Pendekatan Resampling Data Untuk Menangani Masalah Ketidakseimbangan Kelas,” J. Komput. dan Inform., vol. 10, no. 1, pp. 31–38, 2022, doi: 10.35508/jicon.v10i1.6554.

M. Sulistiyono, Y. Pristyanto, S. Adi, and G. Gumelar, “Implementasi Algoritma Synthetic Minority Over-Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi,” Sistemasi, vol. 10, no. 2, p. 445, 2021, doi: 10.32520/stmsi.v10i2.1303.

M. ‘Ainur Rasyida and M. F. Rizal, “Optimalisasi Klasifikasi Disposisi Pengaduan Masyarakat melalui Kanal LAPOR Menggunakan Algoritma Naïve Bayes dan Integrasi Ekstensi Chrome,” Integr. Perspect. Soc. Sci. J., vol. 2, no. 3, pp. 4115–4121, 2025.

A. Fatkhudin, F. A. Artanto, N. A. Safli, and D. Wibowo, “Decision Tree Berbasis SMOTE Dalam Analisis Sentimen Penggunaan Artificial Intelligence Untuk Skripsi,” REMIK Ris. dan E-Jurnal Manaj. Inform. Komput., vol. 8, no. April, pp. 494–505, 2024, [Online]. Available: https://www.jurnal.polgan.ac.id/index.php/remik/article/view/13531%0Ahttps://www.jurnal.polgan.ac.id/index.php/remik/article/download/13531/2453

T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Inf., vol. 14, no. 1, 2023, doi: 10.3390/info14010054.

K. Pramayasa, I. M. D. Maysanjaya, and I. G. A. A. D. Indradewi, “Analisis Sentimen Program MBKM Pada Media Sosial Twitter Menggunakan KNN Dan SMOTE,” SINTECH (Science Inf. Technol. J., vol. 6, no. 2, pp. 89–98, 2023, doi: 10.31598/sintechjournal.v6i2.1372.

I. Pratama, A. Y. Chandra, and P. T. Presetyaningrum, “Seleksi Fitur dan Penanganan Imbalanced Data menggunakan RFECV dan ADASYN,” J. Eksplora Inform., vol. 11, no. 1, pp. 38–49, 2022, doi: 10.30864/eksplora.v11i1.578.

D. V. Ramadhanti, R. Santoso, and T. Widiharih, “Perbandingan Smote Dan Adasyn Pada Data Imbalance Untuk Klasifikasi Rumah Tangga Miskin Di Kabupaten Temanggung Dengan Algoritma K-Nearest Neighbor,” J. Gaussian, vol. 11, no. 4, pp. 499–505, 2023, doi: 10.14710/j.gauss.11.4.499-505.

I. K. Dharmendra, I. M. Agus, W. Putra, and Y. P. Atmojo, “Evaluasi Efektivitas SMOTE dan Random Under Sampling pada Klasifikasi Emosi Tweet,” Informatics Educ. Prof. J. Informatics, vol. 9, no. 2, pp. 192–193, 2024, doi: https://doi.org/10.51211/itbi.v9i2.3183.

S. Kabane, “Impact of Sampling Techniques and Data Leakage on XGBoost Performance in Credit Card Fraud Detection,” Mach. Learn., pp. 1–19, 2024, [Online]. Available: http://arxiv.org/abs/2412.07437

P. D. Rinanda, B. Delvika, S. Nurhidayarnis, N. Abror, and A. Hidayat, “Perbandingan Klasifikasi Antara Naive Bayes dan K-Nearest Neighbor Terhadap Resiko Diabetes pada Ibu Hamil,” MALCOM Indones. J. Mach. Learn. Comput. Sci., vol. 2, no. 2, pp. 68–75, 2022, doi: 10.57152/malcom.v2i2.432.

F. Septianingrum and A. S. Y. Irawan, “Metode Seleksi Fitur Untuk Klasifikasi Sentimen Menggunakan Algoritma Naive Bayes: Sebuah Literature Review,” J. Media Inform. Budidarma, vol. 5, no. 3, p. 799, 2021, doi: 10.30865/mib.v5i3.2983.

K. L. Kohsasih and Z. Situmorang, “Analisis Perbandingan Algoritma C4.5 dan Naïve Bayes Dalam Memprediksi Penyakit Cerebrovascular,” J. Inform., vol. 9, no. 1, pp. 13–17, 2022, doi: 10.31294/inf.v9i1.11931.

G. Ahmed et al., “DAD-Net: Classification of Alzheimer’s Disease Using ADASYN Oversampling Technique and Optimized Neural Network,” Molecules, vol. 27, no. 20, pp. 1–21, 2022, doi: 10.3390/molecules27207085.

N. D. Primadya, A. Nugraha, S. Y. Fahrezi, and A. Luthfiarta, “Optimizing Imbalanced Data Classification: Under Sampling Algorithm Strategy with Classification Combination,” Techné J. Ilm. Elektrotek., vol. 23, no. 2, pp. 277–288, 2024, doi: 10.31358/techne.v23i2.435.

M. A. N. Anargya, W. Ghozi, and F. A. Rafrastara, “Random Under Sampling for Performance Improvement in Attack Detection on Internet of Vehicles Using Machine Learning,” J. Inform. J. Pengemb. IT, vol. 10, no. 1, pp. 11–19, 2025, doi: 10.30591/jpit.v10i1.8034.