KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK
Abstract
Jumlah penelitian di dunia mengalami perkembangan yang pesat, setiap tahun berbagai peneliti dari penjuru dunia menghasilkan karya ilmiah seperti makalah, jurnal, buku dsb. Metode klasterisasi dapat digunakan untuk mengelompokkan dokumen karya ilmiah ke dalam suatu kelompok tertentu berdasarkan relevansi antar topik. Klasterisasi pada dokumen memiliki karakteristik yang berbeda karena tingkat kemiripan antar dokumen dipengaruhi oleh kata-kata pembentuknya. Beberapa metode klasterisasi kurang memperhatikan nilai semantik dari kata. Sehingga klaster yang terbentuk kurang merepresentasikan isi topik dokumen. Klasterisasi dokumen teks masih memiliki kemungkinan adanya outlier karena pemilihan fitur teks yang tidak optimal. Oleh karena itu dibutuhkan pemrosesan data yang tepat serta metode yang mengoptimalkan hasil klaster. Penelitian ini mengusulkan metode klasterisasi dokumen menggunakan Weighted K-Means yang dipadukan dengan Maximum Common Subgraph. Weighted k-means digunakan untuk klasterisasi awal dokumen berdasarkan kata-kata yang diekstraksi. Pembentukan Weighted K-Means berdasarkan perhitungan Word2Vec dan TextRank dari kata-kata dalam dokumen. Maximum common subgraph merupakan tahap pembentukan graf yang digunakan dalam penggabungan klaster untuk menghasilkan klaster baru yang lebih optimal. pembentukan graf dilakukan dengan perhitungan nilai Word2vec dan Co-occurrence dari klaster. Representasi topik dokumen tiap klaster dapat dihasilkan dari pemodelan topik Latent Dirichlet Allocation (LDA). Pengujian dilakukan dengan menggunakan dataset artikel ilmiah dari Scopus. Hasil dari analisis Koherensi topik menunjukkan nilai koherensi usulan metode adalah 0.532 pada dataset 1 yang bersifat homogen dan 0.472 pada dataset 2 yang bersifat heterogen.
Downloads
Downloads
Published
Issue
Section
License
All papers should be submitted electronically. All submitted manuscripts must be original work that is not under submission at another journal or under consideration for publication in another form, such as a monograph or chapter of a book. Authors of submitted papers are obligated not to submit their paper for publication elsewhere until an editorial decision is rendered on their submission. Further, authors of accepted papers are prohibited from publishing the results in other publications that appear before the paper is published in JUTI unless they receive approval for doing so from the Editor-in-Chief.
JUTI open access articles are distributed under a Creative Commons Attribution-ShareAlike 4.0 International License. This license lets the audience to give appropriate credit, provide a link to the license, and indicate if changes were made and if they remix, transform, or build upon the material, they must distribute contributions under the same license as the original.











