CLUSTERING DATA NON-NUMERIK DENGAN PENDEKATAN ALGORITMA K-MEANS DAN HAMMING DISTANCE STUDI KASUS BIRO JODOH

Darlis Heru Murti, Nanik Suciati, Daru Jani Nanjaya

Abstract


Clustering adalah salah satu metode populer yang telah digunakan di berbagai bidang penelitian mulai dari kecerdasan buatan, teknologi jaringan syaraf, pengenalan pola, hingga pengolahan gambar. Salah satu teknik yang digunakan dalam clustering adalah dengan menggunakan algoritma k-means. Namun sayangnya, algoritma k-means hanya bisa digunakan untuk dataset yang atributnya bernilai numerik. Padahal dalam kenyataannya, suatu database bisa terdiri atas data-data yang bernilai numerik maupun non-numerik. Dalam penelitian ini akan dibahas mengenai penggunaan algoritma k-means pada suatu clustering data non-numerik (categorical), dengan dibantu Hamming Distance sebagai alat untuk mengukur distance dari masing-masing atribut categorical-nya. Kasus yang diambil adalah pada dataset suatu biro jodoh yang mana akan menjadi menarik karena dengan clustering ini dapat diketahui bagaimana pola pembentukan grup-grup yang memiliki karakteristik hampir sama di dalam keanggotaan suatu  biro jodoh. Pada penelitian ini juga akan diberikan implementasi penggunaan clustering dalam pencarian individu di suatu data biro jodoh.

Metodologi yang digunakan dalam penelitian ini meliputi beberapa tahapan. Tahapan pertama adalah persiapan data, yaitu data-data keanggotaan biro jodoh. Tahapan selanjutnya adalah proses modifikasi data dari non-numerik menjadi numerik. Kemudian tahap perhitungan distance antar-data. Lalu tahapan clustering pada data yang teleh bernilai jarak. Dan diakhiri dengan tahapan ringkasan dari hasil proses-proses tersebut.

Uji coba dan evaluasi dilakukan dengan menggunakan dataset nyata yaitu data biro jodoh Grasco, Sakinah Surabaya, Libe, dan O'Diva. Dari uji coba tersebut didapatkan bahwa clustering dapat dilakukan pada atribut-atribut categorical yang ditransformasikan terlebih dahulu ke dalam bentuk numerik. Selain itu, kesamaan (similarity) dan karakterisktik dari masing-masing keanggotaan biro jodoh bisa diketahui.

 

Kata Kunci : Data Mining, Clustering, Unsupervised Learning, K-Means.


Full Text:

PDF


DOI: http://dx.doi.org/10.12962/j24068535.v4i1.a245

Refbacks

  • There are currently no refbacks.