มารู้จัก Transformer กันเถอะ (ตอนที่ 2)

ในตอนนี้เราจะมาพูดถึง Attention Module ซึ่งถือเป็นหัวใจหลักของ Transformer กันครับ Attention Module Attention ใน Transformer จะต่างจาก Attention ใน seq2seq ที่กล่าวมาข้างต้นหลายประการ ประการแรกคือไม่ใช่เป็นการหา attention vector ของส่วน decoder จากส่วน encoder เพียงทางเดียวเท่านั้น แต่ทุกๆ

Read more