Klastering Dokumen Berita dari Web menggunakan Algoritma Single Pass Clustering
Abstract
Dalam proses penelusuran informasi melalui internet sering diperoleh informasi yang sangat banyak, tetapi sebagian besar diantaranya adalah informasi yang tidak dibutuhkan. Dari sudut pandang temu kembali informasi (information retrieval), semakin banyaknya informasi yang tersedia di internet justru semakin mempersulit untuk menemukan kembali informasi yang relevan, yaitu informasi yang sesuai dengan kebutuhan.
Dalam suatu sistem temu kembali informasi, kemampuan untuk menemukan informasi yang tersedia diukur dengan recall dan kemampuan untuk menemukan informasi yang relevan diukur dengan ketelitian, maka proses penelusuran dalam situasi seperti tersebut di atas akan menghasilkan recall yang tinggi tetapi ketelitian rendah.
Penelitian ini berusaha untuk mengklaster dokumen dengan menggunakan Algoritma Single Pass Clustering. Klastering ini ditekankan untuk dokumen berbahasa Indonesia. Keterkaitan antar dokumen diukur berdasarkan kemiripan antar dokumen ( similarity).
Algoritma ini diuji coba dengan menggunakan dokumen berita arsip berita online Kompas http://www.kompas.com/archive dalam format HTML Hasil uji coba menunjukkan bahwa algoritma ini dapat diaplikasikan untuk pengelompokan dokumen berbahasa Indonesia. Pemilihan kata kunci yang tepat akan meningkatkan kualitas temu kembali informasi (information retrieval) pada dokumen.
Keywords: information retrieval, simmilaritas, singgle pass clustering, recall, precision