Bagaimana mesin dapat memahami data text (Part 1)

Original article was published on Deep Learning on Medium


Setelah mengetahui konsep encoding, mari kita lihat contoh kalimat-kalimat berikut:

Saya punya kucingKucing saya ada 2 ekorNiko juga mempunyai kucing!

Ada beberapa cara yang bisa kita pakai untuk merepresentasikan kalimat diatas ke dalam bentuk angka yang bisa dipahami komputer.

Bag of Words

Atau lebih mudahnya, kumpulan kata. masing-masing kata kita beri index penanda. langkah-langkahnya kurang lebih sebagai berikut:

  1. Normalisasi kalimat (menghilangkan tanda baca, huruf besar huruf kecil, singkatan dan sebagainya)
  2. Identifikasi masing-masing kata unik di dalam semua kalimat.

Normalisasi sifatnya opsional, tergantung dengan project yang sedang dikerjakan.

Misalnya anda sedang mengerjakan project spam classifier, mungkin anda bisa mempertimbangkan untuk melihat kalimat yang banyak tanda bacanya sebagai kemungkinan spam.

Setelah semua kata unik diidentifikasi, langkah selanjutnya adalah pembuatan tabel atau bag (atau apapun istilahnya) untuk menampung kumpulan kata tersebut.

Finally, masing-masing kalimat bisa kita representasikan sebagai berikut:

Saya punya kucing --> 1 1 1 0 0 0 0Kucing saya ada 2 ekor --> 1 0 1 1 1 1 0 0Niko juga mempunyai kucing! --> 0 1 1 0 0 0 1 1

Teknik ini memiliki beberapa kelemahan dibanding teknik lainnya. Apa saja itu? dan bagaimana teknik lain bisa lebih baik? silahkan simak di Part 2.