Overview
Indonesian Hate Speech Detection
Dataset Size
Total seluruh dataset
Dataset Distribution
Best Model Accuracy
Model IndoBERT indobenchmark/indobert-base-p1
Abstrak Penelitian
Transformasi digital telah meningkatkan penggunaan media sosial, namun juga memunculkan tantangan berupa peningkatan hate speech, khususnya pada platform Twitter. Hate speech berpotensi memengaruhi kesehatan mental, termasuk meningkatkan risiko depresi dan bunuh diri. Penelitian ini bertujuan mendeteksi hate speech pada tweet berbahasa Indonesia dengan membandingkan performa algoritma Support Vector Machine (SVM) dan tiga varian model Bidirectional Encoder Representations from Transformers (BERT): IndoBERT (indobenchmark/indobert-base-p1), IndoBERTweet (indolem/indobertweet-base-uncased), dan BERT multilingual (google-bert/bert-base-multilingual-uncased).
Dataset dengan ketidakseimbangan kelas ringan (42,44% hate speech, 57,56% non-hate speech) ditangani menggunakan class weighting (1,1512 untuk hate speech, 0,8488 untuk non-hate speech). Proses preprocessing meliputi data cleaning, case folding, normalisasi kata slang, stopword removal, dan stemming. SVM menggunakan fitur TF-IDF, sedangkan model BERT menggunakan BertTokenizer dengan padding (max length 128) dan token khusus [CLS] serta [SEP].
Evaluasi dengan 5-fold cross validation menunjukkan IndoBERT dengan learning rate 3e-5 menghasilkan performa terbaik: akurasi 89,47%, precision 89,45%, recall 89,46%, dan F1-score 89,45%, mengungguli IndoBERTweet (88,70%), BERT multilingual (83,24%), dan SVM (82,00%). IndoBERT unggul karena kemampuan bidirectional dan pelatihan pada korpus bahasa Indonesia, memungkinkan identifikasi konteks seperti kata "anjing" dalam kalimat negatif (hate speech) maupun non-negatif (non-hate speech). Penelitian ini menegaskan efektivitas IndoBERT untuk deteksi hate speech otomatis di media sosial.