Comparative Analysis of Algorithms for Sensitive Outlier Protection in Privacy Preserving Data Mining
Abstract
Penambangan data (Data Mining) merupakan teknik penting dalam era Big Data untuk menggali wawasan berharga dari kumpulan data besar. Tantangan utama dalam bidang ini adalah menjaga privasi individu, khususnya pada data outlier yang sensitif yang mengandung informasi pribadi. Penelitian ini bertujuan untuk membandingkan efektivitas algoritma clustering PAM, CLARA, CLARANS, dan ECLARANS dalam mendeteksi outlier serta mengevaluasi perlindungan privasi menggunakan metode Gaussian Perturbation Random. Penelitian dilakukan menggunakan dua dataset kesehatan: Dataset Diabetes dari National Institute of Diabetes and Digestive and Kidney Diseases dan Dataset Breast Cancer Wisconsin. Hasil menunjukkan bahwa algoritma CLARA mendeteksi jumlah outlier terbanyak pada dataset besar, sementara ECLARANS menunjukkan efisiensi waktu terbaik pada dataset tertentu. Metode Gaussian Perturbation Random terbukti efektif dalam melindungi privasi outlier tanpa mengurangi akurasi deteksi. Kesimpulannya, CLARA merupakan algoritma yang paling menjanjikan untuk mendeteksi outlier sambil menjaga privasi data, berkat pendekatan sampling yang efisien. Temuan ini memberikan kontribusi penting dalam penerapan data mining yang aman dan privasi yang terjaga, khususnya dalam domain data kesehatan.
References
[2] A. Pika, M. T. Wynn, S. Budiono, A. H. M. ter Hofstede, W. M. P. van der Aalst, and H. A. Reijers, “Privacy-Preserving Process Mining in Healthcare,” Int J Environ Res Public Health, vol. 17, no. 5, p. 1612, Mar. 2020, doi: 10.3390/ijerph17051612.
[3] J. Dong, A. Roth, and W. J. Su, “Gaussian Differential Privacy,” J R Stat Soc Series B Stat Methodol, vol. 84, no. 1, pp. 3–37, Feb. 2022, doi: 10.1111/rssb.12454.
[4] M. A. P. Chamikara, P. Bertok, D. Liu, S. Camtepe, and I. Khalil, “Efficient privacy preservation of big data for accurate data mining,” Inf Sci (N Y), vol. 527, pp. 420–443, Jul. 2023, doi: 10.1016/j.ins.2019.05.053.
[5] V. S. Naresh and M. Thamarai, “Privacy‐preserving data mining and machine learning in healthcare: Applications, challenges, and solutions,” WIREs Data Mining and Knowledge Discovery, vol. 13, no. 2, Mar. 2023, doi: 10.1002/widm.1490.
[6] J. Alvariño-Durán, B. Hernández-Ocaña, J. Hernández-Torruco, and O. Chávez-Bosquez, “Detection of Cardiac Arrhythmias Using Unsupervised Learning: A Preliminary Approach Based on PAM and CLARA Clustering Algorithms,” 2024, pp. 594–601. doi: 10.1007/978-3-031-62502-2_67.
[7] B. Dastjerdy, A. Saeidi, and S. Heidarzadeh, “Review of Applicable Outlier Detection Methods to Treat Geomechanical Data,” Geotechnics, vol. 3, no. 2, pp. 375–396, May 2023, doi: 10.3390/geotechnics3020022.
[8] X. Du, E. Zuo, Z. Chu, Z. He, and J. Yu, “Fluctuation-based outlier detection,” Sci Rep, vol. 13, no. 1, p. 2408, Feb. 2023, doi: 10.1038/s41598-023-29549-1.
[9] Mehmet Akturk, “Diabetes Dataset : This dataset is originally from the N. Inst. of Diabetes & Diges. & Kidney Dis.,” Kaggle.
[10] UCI Machine Learning, “Breast Cancer Wisconsin (Diagnostic) Data Set : Predict whether the cancer is benign or malignant,” Kaggle.
[11] S. E. Whang, Y. Roh, H. Song, and J.-G. Lee, “Data collection and quality challenges in deep learning: a data-centric AI perspective,” The VLDB Journal, vol. 32, no. 4, pp. 791–813, Jul. 2023, doi: 10.1007/s00778-022-00775-9.
[12] P. Sarang, “CLARANS,” 2023, pp. 237–242. doi: 10.1007/978-3-031-02363-7_14.
[13] S. Turgay and İ. İlker, “Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications,” Automation and Machine Learning, vol. 4, no. 2, 2023, doi: 10.23977/autml.2023.040205.
[14] J. Zhou, W. Lan, and H. Wang, “Asymptotic covariance estimation by Gaussian random perturbation,” Comput Stat Data Anal, vol. 171, p. 107459, Jul. 2022, doi: 10.1016/j.csda.2022.107459.