KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Authors

  • Muhammad Riduwan Institut Teknologi Sepuluh Nopember
  • Chastine Fatichah Institut Teknologi Sepuluh Nopember
  • Anny Yuniarti Institut Teknologi Sepuluh Nopember
Views: 247 Downloads: 217 DOI: https://doi.org/10.12962/j24068535.v17i2.a892

Abstract

Jumlah penelitian di dunia mengalami perkembangan yang pesat, setiap tahun berbagai peneliti dari penjuru dunia menghasilkan karya ilmiah seperti makalah, jurnal, buku dsb. Metode klasterisasi dapat digunakan untuk mengelompokkan dokumen karya ilmiah ke dalam suatu kelompok tertentu berdasarkan relevansi antar topik. Klasterisasi pada dokumen memiliki karakteristik yang berbeda karena tingkat kemiripan antar dokumen dipengaruhi oleh kata-kata pembentuknya. Beberapa metode klasterisasi kurang memperhatikan nilai semantik dari kata. Sehingga klaster yang terbentuk kurang merepresentasikan isi topik dokumen. Klasterisasi dokumen teks masih memiliki kemungkinan adanya outlier karena pemilihan fitur teks yang tidak optimal. Oleh karena itu dibutuhkan pemrosesan data yang tepat serta metode yang mengoptimalkan hasil klaster. Penelitian ini mengusulkan metode klasterisasi dokumen menggunakan Weighted K-Means yang dipadukan dengan Maximum Common Subgraph. Weighted k-means digunakan untuk klasterisasi awal dokumen berdasarkan kata-kata yang diekstraksi. Pembentukan Weighted K-Means berdasarkan perhitungan Word2Vec dan TextRank dari kata-kata dalam dokumen. Maximum common subgraph merupakan tahap pembentukan graf yang digunakan dalam penggabungan klaster untuk menghasilkan klaster baru yang lebih optimal. pembentukan graf dilakukan dengan perhitungan nilai Word2vec dan Co-occurrence dari klaster. Representasi topik dokumen tiap klaster dapat dihasilkan dari pemodelan topik Latent Dirichlet Allocation (LDA). Pengujian dilakukan dengan menggunakan dataset artikel ilmiah dari Scopus. Hasil dari analisis Koherensi topik menunjukkan nilai koherensi usulan metode adalah 0.532 pada dataset 1 yang bersifat homogen dan 0.472 pada dataset 2 yang bersifat heterogen.

Downloads

Download data is not yet available.

Author Biographies

  • Muhammad Riduwan, Institut Teknologi Sepuluh Nopember
    Informatika
  • Chastine Fatichah, Institut Teknologi Sepuluh Nopember
    informatika
  • Anny Yuniarti, Institut Teknologi Sepuluh Nopember
    informatika

Downloads

Published

2019-08-20

Issue

Section

Articles

How to Cite

[1]
M. Riduwan, C. Fatichah, and A. Yuniarti, “KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK”, JUTI, vol. 17, no. 2, pp. 146–155, Aug. 2019, doi: 10.12962/j24068535.v17i2.a892.