This is an outdated version published on 2022-11-30. Read the most recent version.

Text Mining: Sistem Prediksi Cyberbullying pada Platform Twitter menggunakan Logistic Regression, KNN, dan Naive Bayes

Authors

Aditya Erlangga Wibowo Teknik Elektro, Universitas Sriwijaya, Indralaya
Alpian Khairi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Sriwijaya
Hildiana Humairoh Teknik Elektro, Universitas Sriwijaya, Indralaya
M Irvin Fadillah Teknik Elektro, Universitas Sriwijaya, Palembang
M. Jordy Dwi Hartawan Teknik Elektro, Universitas Sriwijaya, Palembang

DOI:

https://doi.org/10.36706/jres.v4i1.56

Keywords:

Cyberbullying, Twitter, Feature Selection, Machine Learning, Logistic Regression, KNN, Naive Bayes

Abstract

Kemajuan pesat teknologi dan sosial media bisa memudahkan orang-orang untuk berkomunikasi dan juga memberikan informasi. Namun sosial media dapat membagikan efek negatif melalui cara membuat ketikan negatif atau komentar yang semaunya yang bertujuan untuk merendahkan bahkan menjatuhkan seseorang tanpa melihat perasaan orang tersebut. Hal tersebut yang membuat terjadinya aktivitas kekerasan di dalam ruang siber (Cyberbullying). Pemrosesan bahasa juga dikenal sebagai text preprocessing mencakup text to corpus, cleansing, case folding, dan stopword removal sebagai fase paling awal yang harus dilakukan dalam penelitian ini. Kemudian langkah selanjutnya adalah feature selection berguna untuk menggantikan dokumen teks menjadi sebuah matriks yang bertujuan menggunakan fitur yang ditemukan di semua kata sebagai parameter atau kriteria klasifikasi. Dengan menggunakan tiga algoritma yaitu Logistic Regression, KNN, dan Naive Bayes classification, maka kita dapat menentukan apakah komentar tersebut mengandung makna bullying atau tidak. Prosedurnya adalah dengan mengurangi peluang dari setiap kata baru berdasarkan class dan perkalian class conditional probability. Dari hasil pengujian memakai dataset "komentar cyberbullying" yang diperoleh dari Algoritma Data Science School. Hasil terbaik dari ketiga algoritma tersebut diperoleh dengan menggunakan metode Naive Bayes, dengan accuracy sebesar 80,73%, precision 77,55%, dan recall sebesar 85,07%.