TEXT SUMMARIZATION PADA ARTIKEL BERITA MENGGUNAKAN VECTOR SPACE MODEL DAN COSINE SIMILARITY
Abstract
Sebuah artikel yang panjang akan membuat pembaca membutuhkan waktu yang lebih lama untuk dapat menyelesaikan bacaan dan pemahamannya. Sehingga dibutuhkan sebuah bentuk ringkasan untuk mempercepat pembaca dalam memahami secara singkat isi dari artikel secara keseluruhan. Umumnya ringkasan dibuat oleh penulis dalam bentuk tulisan manual untuk menggambarkan isi keseluruhan artikel. Sehingga dibutuhkan untuk membuat ringkasan secara otomatis dengan tidak merubah isi substansi dari artikel. Meringkas secara otomatis menggunakan metode vector space model dan cosine similarity. VSM digunakan untuk memberikan bobot nilai pada semua kata yang ada di artikel. CS digunakan untuk menghitung kemiripan antara judul artikel dengan isi artikel. Selain kedua algoritma yang telah disebutkan, masih ada beberapa proses atau metode yang dilakukan khususnya pada tahap pre-processing. Diantaranya crawling, tokenization, punctuation removal, stopword, dan stemming. Hasil dari pre-processing ini baru kemudian dilakukan proses menggunakan algoritma vector space model dan cosine similarity, dan terakhir diurutkan berdasarkan nilai cosine similarity tertinggi. Hasil dari proses peringkasan berupa sebuah paragraf yang diambil dari beberapa kalimat yang mempunyai nilai kemiripan dengan judul paling tinggi. Pada penelitian ini dari 104 kalimat yang ada pada artikel di dapat 5 kalimat yang mempunyai nilai kemiripan paling tinggi. Lima kalimat ini dijadikan satu paragraf sebagai hasil dari proses peringkasan artikel.
References
[2] Hermawan, Latius (2018) Peringkasan Proposal Skripsi Menggunakan Algoritma Vector Space Model. In: Seminar Nasional Sains dan Teknologi 2018, 18 Juli 2018, Universitas Wahid Hasyim, Semarang, Jawa Tengah. http://eprints.ukmc.ac.id/id/eprint/1568
[3] Najibullah, A., & Mingyan, W. (2015). Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Manajemen Surat. In Register: Jurnal Ilmiah Teknologi Sistem Informasi (Vol. 1, Issue 1, p. 1). Universitas Pesantren Tinggi Darul Ulum (Unipdu). https://doi.org/10.26594/register.v1i1.400
[4] A. Romadhony, F. Z.R, N. Yusliani, and L. Abednego, “Text Summarization untuk Dokumen Berita Berbahasa Indonesia,” in Konferensi Nasional ICT-M Politeknik Telkom, 2017.
[5] Zamzam, M. A. (2020). Sistem Automatic Text Summarization Menggunakan Algoritma Textrank. In MATICS (Vol. 12, Issue 2, pp. 111–116). Maulana Malik Ibrahim State Islamic University. https://doi.org/10.18860/mat.v12i2.8372
[6] TF–IDF (2022) Wikipedia. Wikimedia Foundation. Available at: https://en.wikipedia.org/wiki/Tf%E2%80%93idf (Accessed: December 10, 2022).
[7] Setiawan, E. (no date) Kamus Besar Bahasa Indonesia (KBBI), Arti kata dokumen - Kamus Besar Bahasa Indonesia (KBBI) Online. Available at: https://kbbi.web.id/dokumen (Accessed: December 10, 2022).
[8] Setiawan, E. (no date) Kamus Besar Bahasa Indonesia (KBBI), Arti kata teks - Kamus Besar Bahasa Indonesia (KBBI) Online. Available at: https://kbbi.web.id/teks (Accessed: December 10, 2022).
Copyright (c) 2022 Mardi Siswo Utomo, Jati Sasongko Wibowo, Eko Nur Wahyudi
This work is licensed under a Creative Commons Attribution 4.0 International License.