PENGKATEGORIAN ISI BERITA BERBAHASA INDONESIA MENGGUNAKAN ALGORITMA SYMBOLIC RULE INDUCTION BERBASIS DECISION TREE

Yudhi Purwananto, Diana Purwitasari, Yos Nugroho

Abstract


Pengkategorian teks sangat penting demi manajemen dan temu kembali pengetahuan yang ada pada teks tersebut. Pengkategorian teks yang dilakukan secara manual akan menghabiskan banyak waktu dan biaya. Karena itu diperlukan suatu sistem yang mampu mengkategorikan teks secara otomatis.

Penelitian ini berusaha untuk mengkategorikan teks dengan menggunakan algoritma symbolic rule induction berbasis decision tree. Pengkategorian dilakukan untuk berita berbahasa Indonesia. Dari teks berita tersebut, dipilih fitur-fitur yang relevan untuk masing-masing kategori berdasarkan kriteria Information Gain. Dengan menggunakan fitur-fitur tersebut, dibangun decision tree melalui proses induksi. Untuk meningkatkan akurasi decision tree dilakukan proses pruning. Proses selanjutnya adalah menghasilkan aturan-aturan yang ekivalen secara logis dengan decision tree tersebut dengan memanfaatkan sibling criterion.

Algoritma ini diuji coba dengan menggunakan data berita dari situs Detik. Uji coba dilakukan untuk mengetahui pengaruh dari jumlah fitur, jumlah data, dan nilai maksimum suatu fitur terhadap nilai F1 dan waktu komputasi. Hasil uji coba menunjukkan bahwa jumlah fitur dan jumlah data pelatihan yang bertambah cenderung akan meningkatkan nilai F1.

Kata Kunci : Text Categorization, DTree, Sibling Criterion, Decision Tree, Symbolic Rule Induction


Full Text:

PDF


DOI: http://dx.doi.org/10.12962/j24068535.v3i1.a131

Refbacks

  • There are currently no refbacks.