KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Muhammad Riduwan; Chastine Fatichah; Anny Yuniarti

doi:10.12962/j24068535.v17i2.a892

KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Authors

Muhammad Riduwan Institut Teknologi Sepuluh Nopember
Chastine Fatichah Institut Teknologi Sepuluh Nopember
Anny Yuniarti Institut Teknologi Sepuluh Nopember

Views: 272 Downloads: 252 DOI: https://doi.org/10.12962/j24068535.v17i2.a892

Abstract

Jumlah penelitian di dunia mengalami perkembangan yang pesat, setiap tahun berbagai peneliti dari penjuru dunia menghasilkan karya ilmiah seperti makalah, jurnal, buku dsb. Metode klasterisasi dapat digunakan untuk mengelompokkan dokumen karya ilmiah ke dalam suatu kelompok tertentu berdasarkan relevansi antar topik. Klasterisasi pada dokumen memiliki karakteristik yang berbeda karena tingkat kemiripan antar dokumen dipengaruhi oleh kata-kata pembentuknya. Beberapa metode klasterisasi kurang memperhatikan nilai semantik dari kata. Sehingga klaster yang terbentuk kurang merepresentasikan isi topik dokumen. Klasterisasi dokumen teks masih memiliki kemungkinan adanya outlier karena pemilihan fitur teks yang tidak optimal. Oleh karena itu dibutuhkan pemrosesan data yang tepat serta metode yang mengoptimalkan hasil klaster. Penelitian ini mengusulkan metode klasterisasi dokumen menggunakan Weighted K-Means yang dipadukan dengan Maximum Common Subgraph. Weighted k-means digunakan untuk klasterisasi awal dokumen berdasarkan kata-kata yang diekstraksi. Pembentukan Weighted K-Means berdasarkan perhitungan Word2Vec dan TextRank dari kata-kata dalam dokumen. Maximum common subgraph merupakan tahap pembentukan graf yang digunakan dalam penggabungan klaster untuk menghasilkan klaster baru yang lebih optimal. pembentukan graf dilakukan dengan perhitungan nilai Word2vec dan Co-occurrence dari klaster. Representasi topik dokumen tiap klaster dapat dihasilkan dari pemodelan topik Latent Dirichlet Allocation (LDA). Pengujian dilakukan dengan menggunakan dataset artikel ilmiah dari Scopus. Hasil dari analisis Koherensi topik menunjukkan nilai koherensi usulan metode adalah 0.532 pada dataset 1 yang bersifat homogen dan 0.472 pada dataset 2 yang bersifat heterogen.

Downloads

Download data is not yet available.

Author Biographies

Muhammad Riduwan, Institut Teknologi Sepuluh Nopember

Informatika
Chastine Fatichah, Institut Teknologi Sepuluh Nopember

informatika
Anny Yuniarti, Institut Teknologi Sepuluh Nopember

informatika

Downloads

Published

2019-08-20

Issue

Vol. 17, No. 2, Juli 2019

Section

Articles

License

All papers should be submitted electronically. All submitted manuscripts must be original work that is not under submission at another journal or under consideration for publication in another form, such as a monograph or chapter of a book. Authors of submitted papers are obligated not to submit their paper for publication elsewhere until an editorial decision is rendered on their submission. Further, authors of accepted papers are prohibited from publishing the results in other publications that appear before the paper is published in JUTI unless they receive approval for doing so from the Editor-in-Chief.

JUTI open access articles are distributed under a Creative Commons Attribution-ShareAlike 4.0 International License. This license lets the audience to give appropriate credit, provide a link to the license, and indicate if changes were made and if they remix, transform, or build upon the material, they must distribute contributions under the same license as the original.

How to Cite

[1]

M. Riduwan, C. Fatichah, and A. Yuniarti, “KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK”, JUTI, vol. 17, no. 2, pp. 146–155, Aug. 2019, doi: 10.12962/j24068535.v17i2.a892.

Download Citation

KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Authors

Abstract

Downloads

Author Biographies

Downloads

Published

Issue

Section

License

How to Cite

Journal Information

Article Template

Additional Menu

Acceptance Rate

Scopus Citedness

Indexed By

References Style

Stat Counter

Visitor Counter