การเรียนรู้ของเครื่องถูกใช้เพื่อแปลภาษาที่หายไปนานโดยอัตโนมัติ

กรีกโบราณจารึกด้วยหินดอน ลอยด์ | Flickr
ในปี พ.ศ. 2429 นักโบราณคดีชาวอังกฤษ อาร์เธอร์ อีแวนส์ ได้พบกับหินโบราณที่มีจารึกในภาษาที่ไม่รู้จัก หินดังกล่าวมาจากเกาะครีตในทะเลเมดิเตอร์เรเนียน และอีแวนส์ก็เดินทางไปที่นั่นทันทีเพื่อค้นหาหลักฐานเพิ่มเติม เขาพบหินและแผ่นจารึกจำนวนมากที่มีสคริปต์คล้ายกันอย่างรวดเร็วและระบุวันที่จากราว 1,400 ปีก่อนคริสตศักราช

นั่นทำให้จารึกเป็นรูปแบบการเขียนที่เก่าแก่ที่สุดรูปแบบหนึ่งที่เคยค้นพบ อีแวนส์แย้งว่ารูปแบบเชิงเส้นของมันนั้นได้มาจากภาพลายเส้นที่หยาบคายซึ่งเป็นของศิลปะในวัยเด็กอย่างชัดเจน ดังนั้นจึงกำหนดความสำคัญในประวัติศาสตร์ของภาษาศาสตร์
เขาและคนอื่นๆ พิจารณาในภายหลังว่าศิลาและแผ่นจารึกนั้นเขียนด้วยสคริปต์สองแบบที่แตกต่างกัน เกาะที่เก่าแก่ที่สุดที่เรียกว่าลิเนียร์เอมีอายุระหว่าง 1800 ถึง 1400 ปีก่อนคริสตศักราช เมื่อเกาะนี้ถูกครอบงำโดยอารยธรรมมิโนอันในยุคสำริด
สคริปต์อื่น Linear B นั้นใหม่กว่าซึ่งปรากฏหลังจาก 1,400 ปีก่อนคริสตศักราชเมื่อเกาะนี้ถูกยึดครองโดย Mycenaeans จากแผ่นดินใหญ่ของกรีก
อีแวนส์และคนอื่นๆ พยายามถอดรหัสสคริปต์โบราณเป็นเวลาหลายปี แต่ภาษาที่สูญหายกลับต่อต้านความพยายามทั้งหมด ปัญหายังไม่ได้รับการแก้ไขจนถึงปี 1953 เมื่อนักภาษาศาสตร์สมัครเล่นชื่อ Michael Ventris ถอดรหัสรหัสสำหรับ Linear B.
วิธีแก้ปัญหาของเขาสร้างขึ้นจากความก้าวหน้าครั้งสำคัญสองครั้ง อย่างแรก เวนทริสคาดคะเนว่าคำซ้ำหลายคำในคำศัพท์ลิเนียร์บีเป็นชื่อสถานที่ต่างๆ บนเกาะครีต ที่กลายเป็นถูกต้อง
ความก้าวหน้าครั้งที่สองของเขาคือการสันนิษฐานว่างานเขียนดังกล่าวบันทึกรูปแบบแรก ๆ ของกรีกโบราณ ความเข้าใจนั้นทำให้เขาสามารถถอดรหัสภาษาที่เหลือได้ทันที ในกระบวนการ Ventris แสดงให้เห็นว่ากรีกโบราณปรากฏตัวครั้งแรกในรูปแบบลายลักษณ์อักษรเร็วกว่าที่เคยคิดไว้หลายศตวรรษ
ชาร์ลส์ค่อนข้างคุ้มค่า
งานของเวนทริสประสบความสำเร็จอย่างมาก แต่สคริปต์ที่เก่าแก่กว่าคือ Linear A ยังคงเป็นหนึ่งในปัญหาที่โดดเด่นในด้านภาษาศาสตร์มาจนถึงทุกวันนี้
ไม่ยากเลยที่จะจินตนาการว่าความก้าวหน้าล่าสุดในการแปลด้วยคอมพิวเตอร์อาจช่วยได้ ในเวลาเพียงไม่กี่ปี การศึกษาภาษาศาสตร์ได้รับการปฏิวัติโดยการมีฐานข้อมูลขนาดใหญ่ที่มีคำอธิบายประกอบ และเทคนิคในการทำให้เครื่องเรียนรู้จากฐานข้อมูลเหล่านี้ ดังนั้น การแปลด้วยเครื่องจากภาษาหนึ่งไปอีกภาษาหนึ่งจึงกลายเป็นกิจวัตร และถึงแม้จะไม่ได้สมบูรณ์แบบ แต่วิธีการเหล่านี้ได้ให้วิธีคิดใหม่เกี่ยวกับภาษาโดยสิ้นเชิง
ป้อน Jiaming Luo และ Regina Barzilay จาก MIT และ Yuan Cao จากห้องทดลอง AI ของ Google ใน Mountain View รัฐแคลิฟอร์เนีย ทีมนี้ได้พัฒนาระบบแมชชีนเลิร์นนิงที่สามารถถอดรหัสภาษาที่สูญหายได้ และพวกเขาได้แสดงให้เห็นโดยให้ถอดรหัส Linear B—ในครั้งแรกที่ทำสิ่งนี้โดยอัตโนมัติ วิธีการที่พวกเขาใช้นั้นแตกต่างจากเทคนิคการแปลภาษาด้วยเครื่องมาตรฐานอย่างมาก
พื้นหลังบางส่วนก่อน แนวคิดหลักเบื้องหลังการแปลด้วยคอมพิวเตอร์คือความเข้าใจว่าคำต่างๆ มีความเกี่ยวข้องกันในลักษณะเดียวกัน โดยไม่คำนึงถึงภาษาที่เกี่ยวข้อง
ดังนั้นกระบวนการจึงเริ่มต้นด้วยการทำแผนที่ความสัมพันธ์เหล่านี้สำหรับภาษาใดภาษาหนึ่ง สิ่งนี้ต้องการฐานข้อมูลขนาดใหญ่ของข้อความ จากนั้นเครื่องจะค้นหาข้อความนี้เพื่อดูว่าแต่ละคำปรากฏถัดจากคำอื่นๆ บ่อยเพียงใด รูปแบบการปรากฏตัวนี้เป็นลายเซ็นเฉพาะที่กำหนดคำในพื้นที่พารามิเตอร์หลายมิติ อันที่จริง คำนี้ถือได้ว่าเป็นเวกเตอร์ภายในช่องว่างนี้ และเวกเตอร์นี้ทำหน้าที่เป็นข้อจำกัดที่มีประสิทธิภาพในการที่คำสามารถปรากฏในการแปลใดๆ ที่เครื่องสร้างขึ้น
เวกเตอร์เหล่านี้เป็นไปตามกฎทางคณิตศาสตร์ง่ายๆ ตัวอย่างเช่น ราชา – ชาย + หญิง = ราชินี และประโยคสามารถคิดได้ว่าเป็นชุดของเวกเตอร์ที่ตามหลังกันเพื่อสร้างวิถีผ่านช่องว่างนี้
ข้อมูลเชิงลึกที่สำคัญที่ทำให้สามารถแปลภาษาด้วยเครื่องคอมพิวเตอร์ได้คือคำในภาษาต่างๆ จะใช้จุดเดียวกันในช่องว่างพารามิเตอร์ตามลำดับ ทำให้สามารถแมปภาษาทั้งหมดไปยังอีกภาษาหนึ่งด้วยการติดต่อกันแบบหนึ่งต่อหนึ่ง
ด้วยวิธีนี้ กระบวนการแปลประโยคจะกลายเป็นกระบวนการในการค้นหาเส้นทางที่คล้ายคลึงกันผ่านช่องว่างเหล่านี้ เครื่องไม่จำเป็นต้องรู้ว่าประโยคนั้นหมายถึงอะไร
กระบวนการนี้อาศัยชุดข้อมูลขนาดใหญ่เป็นอย่างมาก แต่เมื่อสองสามปีที่แล้ว ทีมนักวิจัยชาวเยอรมันได้แสดงให้เห็นว่าวิธีการที่คล้ายกันกับฐานข้อมูลขนาดเล็กมากสามารถช่วยแปลภาษาที่หายากกว่ามากซึ่งไม่มีฐานข้อมูลขนาดใหญ่ของข้อความได้อย่างไร เคล็ดลับคือการหาวิธีอื่นในการจำกัดแนวทางของเครื่องที่ไม่ต้องพึ่งพาฐานข้อมูล
ตอนนี้ Luo และเพื่อนร่วมงานได้แสดงต่อไปเพื่อแสดงให้เห็นว่าการแปลภาษาด้วยคอมพิวเตอร์สามารถถอดรหัสภาษาที่สูญหายไปโดยสิ้นเชิงได้อย่างไร ข้อจำกัดที่พวกเขาใช้นั้นเกี่ยวข้องกับวิธีที่ภาษาต่างๆ เป็นที่ทราบกันดีว่ามีวิวัฒนาการอยู่ตลอดเวลา
แนวคิดก็คือว่าภาษาใดๆ ก็ตามสามารถเปลี่ยนแปลงได้ในบางวิธีเท่านั้น ตัวอย่างเช่น สัญลักษณ์ในภาษาที่เกี่ยวข้องปรากฏขึ้นพร้อมการแจกแจงที่คล้ายกัน คำที่เกี่ยวข้องมีลำดับอักขระเหมือนกัน และอื่นๆ ด้วยกฎเหล่านี้ที่จำกัดเครื่อง การถอดรหัสภาษาจึงง่ายกว่ามาก หากรู้ภาษาต้นกำเนิด
Luo และเพื่อนร่วมงานได้นำเทคนิคนี้ไปทดสอบด้วยภาษาที่หายไปสองภาษาคือ Linear B และ Ugaritic นักภาษาศาสตร์รู้ว่า Linear B เข้ารหัสภาษากรีกโบราณในเวอร์ชันแรกๆ และ Ugaritic ซึ่งถูกค้นพบในปี 1929 เป็นรูปแบบภาษาฮีบรูในยุคแรก
เนื่องจากข้อมูลและข้อจำกัดที่กำหนดโดยวิวัฒนาการทางภาษา เครื่องของ Luo และ co สามารถแปลทั้งสองภาษาได้อย่างแม่นยำ เราสามารถแปล 67.3% ของ Linear B cognates เป็นภาษากรีกที่เทียบเท่าในสถานการณ์ถอดรหัสได้ ตามความรู้ของเรา การทดลองของเราเป็นความพยายามครั้งแรกในการถอดรหัส Linear B โดยอัตโนมัติ
นั่นเป็นงานที่น่าประทับใจที่ยกระดับการแปลด้วยคอมพิวเตอร์ไปอีกระดับ แต่ยังทำให้เกิดคำถามที่น่าสนใจเกี่ยวกับภาษาอื่นๆ ที่สูญหาย โดยเฉพาะอย่างยิ่งภาษาที่ไม่เคยถอดรหัส เช่น Linear A
ในบทความนี้ Linear A นั้นชัดเจนเมื่อไม่มีอยู่ Luo และเพื่อนร่วมงานไม่ได้พูดถึงมันด้วยซ้ำ แต่มันต้องมีขนาดใหญ่ในความคิดของพวกเขา เช่นเดียวกับสำหรับนักภาษาศาสตร์ทุกคน ยังจำเป็นต้องมีความก้าวหน้าครั้งสำคัญก่อนที่สคริปต์นี้จะคล้อยตามการแปลด้วยคอมพิวเตอร์
ตัวอย่างเช่น ไม่มีใครรู้ว่า Linear A เข้ารหัสภาษาใด ความพยายามที่จะถอดรหัสเป็นภาษากรีกโบราณล้มเหลวทั้งหมด และหากไม่มีภาษาต้นทาง เทคนิคใหม่ก็ใช้ไม่ได้ผล
ยาที่แพงที่สุดในโลก
แต่ข้อได้เปรียบที่สำคัญของวิธีการแบบใช้เครื่องคือพวกเขาสามารถทดสอบภาษาหนึ่ง ๆ แล้วอีกภาษาหนึ่งได้อย่างรวดเร็วโดยไม่เมื่อยล้า ดังนั้นจึงค่อนข้างเป็นไปได้ที่ Luo และเพื่อนร่วมงานอาจจัดการกับ Linear A ด้วยวิธีเดรัจฉาน—เพียงแค่พยายามถอดรหัสมันในทุกภาษาที่การแปลด้วยคอมพิวเตอร์ทำงานอยู่แล้ว
หากทำได้ มันจะเป็นความสำเร็จที่น่าประทับใจ ซึ่งแม้แต่ Michael Ventris ก็ยังต้องทึ่ง
อ้างอิง: arxiv.org/abs/1906.06718 : การถอดรหัสทางประสาทผ่านกระแสต้นทุนขั้นต่ำ: จาก Ugaritic เป็น Linear B