Tugas Softskill
Desain Pemodelan Grafik
Fauzan
Yafie Muyassar (52416724)
Muhammad
Maulana Yusuf (54416995)
Ramma
riyantka putra (56416052)
Menerjemahkan Jurnal
corpus based & knowledge based measures of
text semantic similarity-5
UNIVERSITAS GUNADARMA
2019
Abstrak
Makalah
ini menyajikan metode untuk mengukur kesamaan semantik teks, menggunakan
langkah-langkah yang berbasis corpus dan berbasis pengetahuan kesamaan. Pada
masalah ini sebelumnya telah difokuskan terutama pada dokumen yang besar
(misalnya teks klasifikasi, pencarian informasi) atau kata perkata (misalnya perasamaan
kata). Mengingat bahwa sebagian besar informasi yang tersedia saat ini, di Web
dan di tempat lain, terdiri dari potongan teks pendek (misalnya dokumen ilmiah abstrak,
keterangan abstrak, Deskripsi Produk), dalam tulisan ini kita fokuskan pada
mengukur kesamaan semantik teks-teks singkat. Melalui eksperimen dilakukan pada
sebuah data set parafrase, kami dapat
menunjukkan bahwa metode kesamaan semantic(semantic
similarity) melebihi metode dari apa yang didasarkan pada pencocokan
leksikal sederhana (simple lexical
matching), mengakibatkan hingga terjadi penurunan sebanyak13% kesalahan
terkait dengan metrik tradisional berbasis vektor kesamaan (the traditional vector-based similarity
metric).
Inti
dari isi jurnal
Mengetahui hasil Pengukuran
kesamaan simantik antara basis corpus dengan basis pengetahuan
Metode
yang digunakan
Linguistik korpus adalah metode
linguistik yang menggunakan data dari bahan-bahan bahasa yang terkumpul dalam
suatu sumber yang disebut korpus atau korpora (sejenis "bank" bahasa)
yang berasal dari penggunaan bahasa dalam berbagai genre, ragam, dan bahan
lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan
menghindari penggunaan bahasa yang sangat sempit seperti idiolek. Data tersebut
disusun secara sistematis dan biasanya mudah diakses secara elektronis dengan
komputer. Metode ini digunakan dalam linguistik deskriptif maupun linguistik
terapan, seperti penyusunan kamus, untuk menjamin bahwa data yang digunakan
benar-benar berasal dari penggunaan yang luas dan terhindar dari penggunaan
subjektif. (Harimurti Kridalaksana (2008). Kamus Linguistik (edisi ke-4).
Jakarta: Gramedia Pustaka Utama. ISBN 978-979-22-3570-8.)
Kelebihan
Metode berbasis corpus
memiliki keuntungan bahwa tidak memerlukan cara manual dengan tangan dan, terpisah
dari pilihan Corpus yang sesuai dan besar, metode ini tidak ada masalah yang
berkaitan dengan kelengkapan sumber daya. Di sisi lain, metode berbasis
pengetahuan dapat menyajikan informasi yang tepat. Perbedaan ini dapat diamati
dalam hal ketepatan dan mengingat. Faktanya, walaupun ketepatan langkah-langkah
pada metode berbasi pengetahuan lebih tinggi akan tetapi langkah-langkah yang
berbasi corpus memberikan secara umum kinerja yang lebih baik dalam mengingat.
Kekurangan
Masih belum sempurna untuk
mengetahui kesamaan simantik secara keseluruhan teks
Kesimpulan
Ternyata, menggabungkan
informasi simantik ke ukuran text meningkatkan kemungkinan secara signifikan secara
dasar dan atas dasar kesamaan kosinus berbasis vector, diukur dalam tugas
pengelanan paraphrase. Kinerja terbaik dicapai dengan menggunakan metode yang
menggabungkan beberapa kesamaan metric menjadi 1, untuk akurasi keseluruhan
70,3% mewakili pengurangan tingkat kesalahan 13,8% yang signifikan sehubungan
dengan garis dasar kesamaan cosinus berbasis vektor. Selain itu, jika kita
mempertimbangkan kenaikan 83% yang ditetapkan oleh perjanjian antar anotator
yang dicapai pada data set ini
(Dolan, Quirk, & Brockett 2004), pengurangan tingkat kesalahan pada data
awal menampilkan jauh lebih signifikan.
Saran/pengembangan
berikutnya
Meskipun metode kami
bergantung pada pendekatan kata-perkata,karena ternyata penggunaan ukuran
kesamaan semantik meningkatkan secara signifikan atas metrik pencocokan
leksikal tradisional. Meskipun demikian kami sadar bahwa pendekatan kata-perkata
mengabaikan banyak hubungan penting dalam struktur kalimat, seperti
ketergantungan antara kata-perkata, atau peran yang dimainkan oleh berbagai
argumen dalam kalimat. Pekerjaan di masa depan akan mempertimbangkan
penyelidikan representasi yang lebih canggih dari struktur kalimat, seperti
logika sususan predikat pertama atau pohon parse semantik, yang harus
memungkinkan untuk penerapan ukuran yang lebih efektif dari kesamaan teks semantic.
0 comments:
Post a Comment