Klasifikasi Hate Speech Berbahasa Indonesia di Twitter Menggunakan Naive Bayes dan Seleksi Fitur Information Gain dengan Normalisasi Kata
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
View Archive InfoField | Value | |
ISSN |
2548-964X |
|
Authentication Code |
dc |
|
Title Statement |
Klasifikasi Hate Speech Berbahasa Indonesia di Twitter Menggunakan Naive Bayes dan Seleksi Fitur Information Gain dengan Normalisasi Kata |
|
Added Entry - Uncontrolled Name |
Ivan, Ivan Sari, Yuita Arum Adikara, Putra Pandu Fakultas Ilmu Komputer, Universitas Brawijaya Fakultas Ilmu Komputer, Universitas Brawijaya Fakultas Ilmu Komputer, Universitas Brawijaya |
|
Summary, etc. |
Hate speech atau ujaran kebencian adalah suatu bentuk ekspresi yang dilakukan untuk menyebarkan rasa kebencian dan melakukan tindakan kekerasan serta diskriminasi terhadap seseorang atau sekelompok orang karena berbagai alasan. Kasus hate speech sangat sering kita jumpai di media sosial, salah satunya di Twitter. Tujuan yang ingin dicapai adalah untuk membuat sistem yang bisa mengklasifikasikan sebuah tweet pada Twitter ke dalam kelas hate speech (HS) ataupun kelas non hate speech (NONHS). Metode yang digunakan adalah Naive Bayes dan seleksi fitur Information Gain dengan normalisasi kata. Normalisasi kata digunakan untuk mengatasi permasalahan pada Twitter seperti banyaknya penyingkatan kata, penggunaan bahasa gaul, kesalahan eja, dan penggunaan bahasa yang tidak sesuai dengan standar yang ada. Normalisasi kata yang digunakan berasal dari Pujangga Indonesian Natural Language Processing REST API. Data yang digunakan berjumlah 250 data tweet hate speech berbahasa Indonesia dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Threshold yang digunakan sebesar 20%, 40%, 60%, 80%, dan 90%. Threshold adalah ambang batas yang ditentukan untuk menyimpan kumpulan term atau kumpulan suatu kata dengan tujuan untuk menyeleksi suatu kata yang memiliki nilai tinggi pada seleksi fitur Information Gain. Hasil akurasi terbaik diperoleh dengan menggunakan normalisasi kata pada tahap pre-processing dan menggunakan seleksi fitur Information Gain dengan threshold 80%. Hasil akurasi terbaik adalah sebesar 98%, nilai precision sebesar 100%, nilai recall sebesar 96,15%, dan nilai f-measure sebesar 98,03%. Berdasarkan analisis hasil dan pengujian yang diperoleh, dapat disimpulkan pada saat melakukan klasifikasi hate speech berbahasa Indonesia di Twitter menggunakan Naive Bayes dan seleksi fitur Information Gain dengan normalisasi kata mampu meningkatkan hasil akurasi menjadi lebih baik.
|
|
Publication, Distribution, Etc. |
Fakultas Ilmu Komputer (FILKOM), Universitas Brawijaya |
|
Electronic Location and Access |
application/pdf http://j-ptiik.ub.ac.id/index.php/j-ptiik/article/view/5381 |
|
Data Source Entry |
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer; Vol 3 No 5 (2019): Mei 2019 |
|
Language Note |
ind |
|
Terms Governing Use and Reproduction Note |
Hak Cipta (c) 2019 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer |
|