IMPLEMENTASI COSINE COEFFICIENT UNTUK PENGUKURAN KEMIRIPAN ANTAR DOKUMEN TEKS BERBAHASA INDONESIA PADA APLIKASI BERBASIS WEB : Prosiding Seminar Nasional MIPA UNNES 24 OKTOBER 2009
Abstract
Jarak antar dokumen atau biasa disebut dengan Kemiripan dokumen ( Document Similarity) biasanya digunakan pada sistem temu kembali informasi. Kemiripan antar dokumen digunakan sebagai acuan pencarian informasi lainya yang sejenis, sehingga dapat mengurangi waktu temu-kembali informasi untuk dokumen berikutnya yang sejenis. Fungsi ini sangat berguna pada korpus dokumen yang besar, sehingga memudahkan pengguna dalam pencarian dokumen-dokumen yang dimaksud.
Salah satu cara untuk mengukur jarak antar dokumen adalah menggunakan Cosine Coefficient. Cosine merupakan pendekatan vektor dalam mengukur sudut relevansi antar dokumen.
Dokumen harus melalui pemrosesan awal (preprocessing) untuk dapat diukur dengan cosine. Pemrosesan dokumen awal dimulai dari analisa token, kemudian dilanjutkan dengan filtering dan terakhir dilakukan proses indek sehingga dihasilkan proximity matrik.
Kemudian juga digunakan teknik ekseskusi parsial pada implementasi aplikasinya untuk dapat menangani dokumen-dokumen yang besar. Aplikasi yang dibangun adalah aplikasi berbasis web sehingga mempunyai fleksibilitas tinggi untuk terminal-terminal aksesnya. Aplikasi berbasis web mempunyai waktu ekseskusi yang terbatas, sehingga dibutuhkan ekseskusi parsial untuk menangani dokumen-dokumen yang banyak.
Disampaikan di Seminar Nasional MIPA UNNES 24 OKTOBER 2009