Evaluasi Metrik Kualitas pada Sistem Penghasil Bahasa Alami (NLG Metric Evaluation)

Original article was published by Rizal Setya Perdana on Deep Learning on Medium


Evaluasi Metrik Kualitas pada Sistem Penghasil Bahasa Alami (NLG Metric Evaluation)

Natural Language Generation (NLG)

Pada tulisan ini, saya mencoba untuk memberikan catatan terkait metode evaluasi berbasis metrik yang digunakan dalam menilai kualitas bahasa alami yang dihasilkan oleh mesin. NLG (natural language generation) merupakan salah satu cabang ilmu dalam NLP (natural language processing) yang berfokus pada pengembangan algoritma dan model sehingga mesin/komputer mampu menulis bahasa alami secara koheren dan dapat dipahami oleh manusia. Beberapa contoh riset aplikasi pada domain NLG yaitu machine translation, image captioning, caption paragraphing, video captioning, visual question answering, visual storytelling, document summarization, dan lain-lain. Berbeda dengan klasifikasi, regresi, atau bidang fokus lain dalam machine learning, evaluasi pada sistem NLG memiliki karakter spesifik yang perlu diketahui yaitu salah satunya subjektifitas. Terkait dengan subjektifitas, NLG disebut sebagai problem terbuka (open-ended problem) karena pada kondisi sistem dan input yang sama, output yang dihasilkan dapat bervariasi. Sebagai contoh, apabila kita membuat sistem peringkasan otomatis (document summarization) sistem dapat menghasilkan ringkasan yang berbeda-beda dari satu sumber yang sama.

Evaluasi pada NLG

Pada dasarnya, proses evaluasi pada NLG adalah menghitung kemiripan teks yang dihasilkan oleh mesin terhadap referensi yang dijadikan patokan atau sering disebut dengan “gold-standard”. Apa yang saat ini dianggap sebagai gold-standard? Jawabannya adalah referensi berdasarkan pendapat manusia. Kalau memang evaluasi oleh manusia adalah yang terbaik, kenapa bukan manusia saja yang melakukan evaluasi pada sistem NLG? Evaluasi yang dilakukan oleh manusia secara manual membutuhkan biaya tinggi dan terbatas pada aspek skalabilitas, walaupun saat ini tersedia platform crowdsourcing seperti Amazon Mechanical Turk. Semakin tinggi nilai kemiripan antara teks yang dihasilkan oleh mesin terhadap gold-standard, maka kondisi ini mencerminkan kualitas model yang dihasilkan juga semakin baik. Secara umum evaluasi pada NLG dikategorikan menjadi tiga bagian yaitu: (1) Human-centric, (2) Metric otomatis tanpa proses training, (3) Metric otomatis dengan pembelajaran mesin (machine learned).

Evaluasi secara manual oleh manusia (human-centric evaluation)

Merupakan evaluasi yang berdasar pada jastifikasi manual terhadap teks yang dihasilkan oleh sistem NLG dan merupakan jenis gold standard pada proses evaluasi NLG. Namun evaluasi secara manual ini memiliki beberapa kekurangan yaitu membutuhkan biaya yang besar, membutuhkan waktu yang lama, khususnya untuk teks yang membutuhkan evaluasi dari seorang yang ahli di bidang tertentu. Selain itu, dari aspek hasil evaluasi yang diperoleh memungkinkan terjadi inkonsistensi dari satu individu dengan individu lainnya. Berdasarkan Van Der Lee (2019) terkait dengan best practice dalam melakukan evaluasi secara manual, pada konferensi ACL dan INLG hanya 55% artikel yang menggunakan evaluasi secara manual. Menurut saya, bagaimana cara manusia menilai sebuah teks yang dihasilkan oleh mesin ini dapat dipandang sebagai domain problem riset tersendiri untuk menghasilkan metode evaluasi otomatis. Berangkat dari problem tersebut, terdapat beberapa hal yang perlu kita ketahui apa saja poin yang sebenarnya dinilai oleh manusia dalam memandang sebuah teks.

Terdapat dua kelompok pendekatan evaluasi NLG secara manual yaitu evaluasi intrinsik dan ekstrinsik. Evaluasi intrinsic merupakan cara sederhana dengan menunjukan teks hasil dari NLG kemudian responden diminta untuk menilai baik secara umum atau lebih detail pada beberapa dimensi seperti adequacy, fluency, coherence, consistency, commonsense, logical, correctness, dll. Sebagai catatan, masing-masing aplikasi NLG memiliki preferensi dimensi apa yang digunakan, misalnya untuk machine translation yang digunakan adalah dimensi adequacy sedangkan image captioning adalah commonsenseness. Metode evaluasi ini dapat berupa voting menentukan baik atau buruk, atau menggunakan derajat kualitas (Likert atau sliding scale). Selain itu, terdapat cara lain seperti responden diminta untuk membandingkan antara teks hasil dari NLG dan baseline yang sudah ditentukan sebelumnya. Hampir semua penelitian yang menggunakan evaluasi manual saat ini menggunakan evaluasi manual jenis intrinsik.

Selanjutnya, model evaluasi manual jenis ekstrinsik sering digunakan untuk menilai teks yang dihasilkan NLG pada sistem percakapan (dialog). Metode ekstrinsik mengukur tingkat keberhasilan sistem NLG pada tugas yang sebelumnya telah dirancang. Hal ini bermakna penilaian dilakukan secara menyeluruh pada keseluruhan aspek sistem NLG. Penilaian dilakukan dari dua perspektif yaitu keberhasilan pengguna dalam tugas tertentu dan keberhasilan sistem memenuhi tujuan yang diharapkan. Hal tersebut menjadikan batasan sehingga peneliti lebih banyak memilih jenis intrinsik daripada ekstrinsik.

Evaluasi metrik otomatis (UAM — untrained automatic metrics)

Untuk mengatasi keterbatasan dari evaluasi secara manual pada sistem NLG seperti yang telah dijelaskan pada bagian sebelumnya, diperlukan evaluasi metrik otomatis baik untuk mengembangkan model NLG baru ataupun membandingkan dengan pendekatan lain sebelumnya. UAM melakukan penilaian dengan menghitung kemiripan atau ketidakmiripan antara teks yang dihasilkan oleh sistem NLG dengan teks referensi yang telah ditulis oleh manusia (gold-standard). Saat ini UAM merupakan metode evaluasi yang paling umum dan banyak digunakan oleh para peneliti di bidang NLG karena kecepatannya, efisiensinya, dan mudah digunakan dalam membandingkan model saat proses training dengan hiperparameter yang berbeda.

Pada survei Evaluation of Text Generation: A Surve mengelompokkan UAM pada lima kategori, yaitu: n-gram overlap, distance-based, diversity, content overlap, dan grammatical feature-based.

  1. n-gram overlap metric for content selection: merupakan kelompok metode evaluasi yang sering digunakan pada sistem NLG dengan mengukur tingkat kesesuaian atau matching antara teks yang dihasilkan mesin dan teks yang ditulis oleh manusia (ground-truth). Beberapa contoh metode evaluasi dari kelompok n-gram overlap yaitu: BLEU, NIST, F-SCORE(F1), WER, ROUGE, METEOR, HLEPOR, RIBES, dan CIDER. Secara terpisah, beberapa catatan spesifik terkait metrik yang biasa saya gunakan akan saya bagikan kemudian.
  2. distance-based: merupakan kelompok metode evaluasi yang memanfaatkan fungsi penghitung jarak untuk mengukur tingkat kemiripan dari dua unit teks baik tingkat kata, atau kalimat. Semakin kecil jarak antara dua teks, maka semakin tinggi kemiripan antara kedua teks tersebut. Sebelum teks atau dokumen dibandingkan, terlebih dahulu dikonversi menjadi representasi numerik baik berupa representasi diskrit maupun embedding vector. Beberapa contoh metode evaluasi yang tergolong pada distance-based yaitu: a) WER, MED, TER, MEANT 2.0, YISI, WMD, SMD, FID.
  3. n-gram-based diversity metrics:
  4. metrik pencocokan konten secara semantik dan eksplisit
Tabel referensi metrik evaluasi yang biasa digunakan pada aplikasi tertentu. MT: machine translation, QG: question generation, SUM: summarization, RG: dialog response generation, DG: document or story generation, visual-story generation, IC: image captioning
Jumlah sitasi tiap tahun pada metrik evaluasi NLG populer menunjukkan metrik evaluasi otomatis mana yang lebih banyak digunakan. Sumber: A Survey of Evaluation Metrics Used for NLG Systems

Evaluasi berdasarkan pembelajaran mesin (machine learned metrics)

Pada evaluasi metrik otomatis (UAM), memiliki ekspektasi bahwa teks yang dihasilkan oleh sistem NLG memiliki kesamaan pada sejumlah kata yang muncul (overlap) terhadap teks referensi. Namun, pada beberapa aplikasi NLG seperti sistem dialog otomatis (chatbot) terdapat perbedaan yang signifikan dan juga hasil yang lebih bervariasi sehingga nilai overlap menjadi kecil. Hal ini menyebabkan untuk beberapa aplikasi NLG tidak sesuai jika menggunakan evaluasi otomatis. Untuk mengatasi hal tersebut, diusulkan beberapa pendekatan yang memanfaatkan proses pembelajaran berbasis neural network. Terdapat lima contoh kelompok evaluasi pada NLG yang menggunakan metode pembelajaran mesin, yaitu sebagai berikut:

  1. Evaluasi berdasarkan kemiripan kalimat secara semantik
  2. Evaluasi berdasarkan kebenaran faktual
  3. Evaluasi berbasis regresi
  4. Evaluasi dengan penilaian manusia
  5. Evaluasi berbasis BERT
  6. Evaluasi gabungan

Kesimpulan

Terdapat beberapa metode dalam melakukan evaluasi untuk mengukur kualitas teks yang dihasilkan oleh sistem NLG. Dengan adanya beberapa keterbatasan yang ada, perkembangan riset yang secara khusus membahas mengenai metode evaluasi NLG merupakan area tersendiri dalam bidang NLP. Selain itu, semakin banyak aplikasi baru yang berkembang pada bidang NLG menyebabkan kebutuhan akan pendekatan evaluasi yang lebih sesuai sehingga dapat sesuai dengan apa yang diharapkan.

Sumber: