KOMPARASI KINERJA ALGORITMA SIMILARITAS INNER PRODUCT FAMILY PADA RULE BASE STEMMERSTUDI KASUS DOKUMEN TEKS BAHASA JAWA
Abstract
Komparasi Algoritma Similaritas Inner Product Family dilakukan untuk mengetahui efektifitas algoritma dalam menemukan dokumen teks pada studi kasus dokumen teks bahasa jawa. Dokumen bahasa jawa yang menjadi obyek sejumlah 48.753 kata yang didapatkan dari majalah bahasa jawa penjebar semangad, Joko lodang dan Jaya Baya. Hasil dari komparasi antara metode Harmonic Mean, Dice, Kumar hassebrook, dan Cosine; Dokumen Teks Bahasa Jawa dengan No Dokumen ARI163, JL112014BD dan LEO31 pada metode Harmonic Mean, Dice, Kumar-Hassebrook dan Cosine menghasilkan bobot dokumen yang sama yaitu 0.822 (ARI163), 0.411 (JL112014BD) dan 0.111 (LEO31). Dokumen Teks Bahasa Jawa dengan No Dokumen LEO63 pada metode Harmonic Mean dan Dice menghasilkan bobot dokumen yang sama yaitu 0.263. pada metode Kumar-Hassebrook dan Cosine menghasilkan bobot dokumen yang sama yaitu 0.065. Metode Harmonic mean dan Dice menghasilkan bobot lebih tinggi yaitu 0.263 dibandingkan dengan metode Kumar-Hassebrook dan Cosine yang menghasilkan bobot 0.065. Dokumen Teks Bahasa Jawa dengan No Dokumen LEO14 pada metode Harmonic Mean, Dice dan Kumar-Hassebrook menghasilkan bobot dokumen yang sama yaitu 0.111. pada metode Cosine menghasilkan bobot dokumen 0.104. Metode Harmonic mean, Dice dan Kumar-Hassebrook menghasilkan bobot lebih tinggi yaitu 0.111 dibandingkan dengan metode Cosine yang menghasilkan bobot 0.104. Dokumen terambil paling sedikit oleh Metode Cosine yaitu 5 dokumen, Kumar-hassebrook 19 dokumen, Dice 20 dokumen dan Harmonic Mean 29 dokumen
References
Khuat Thanh Tung , 2015. A Comparison of Algorithms used to measure the Similarity between two documents, International Journal of Advanced Research in Computer Engineering & Technology (IJARCET) Volume 4 Issue 4, April 2015
Mingyang, Dkk. 2005. Comparing Similarity Calculation Methods in Conversational CBR. IEEE International Conference on Information Reuse and Integration, Conf, ISBN: 0-7803-9093-8.
Meadow, C.T., 1997. Text Information Retrieval Systems. Academic Press.New York.
Tala, F.Z., 2003, A Study of Stemming Effects on Information Retrieval in bahasa Indonesia. Institut for logic, Language and Computation Universiteit van Amsterdam The Netherlands.
Salton, G., 1989, Automatic Text Processing, The Transformation, Analysis, and Retrieval of information by computer. Addison – Wesly Publishing Company, Inc. USA.
Sung-Hyuk Cha, 2007, Comprehensive Survey on Distance/Similarity Measures between Probability Density Functions. International Journal of mathematical Models and Methods in Applied Sciences. Issue 4 Volume Volume 1
Vikas Thada , 2015. Comparison of Jaccard, Dice, Cosine Similarity Coefficient To Find Best Fitness Value for Web, Department of Computer Science and Engineering Dr. K.N.M University,Newai, Rajasthan, India