การเรียนรู้ของเครื่องถูกใช้เพื่อแปลภาษาที่หายไปนานโดยอัตโนมัติ

กรีกโบราณจารึกด้วยหิน

กรีกโบราณจารึกด้วยหินดอน ลอยด์ | Flickr



ในปี พ.ศ. 2429 นักโบราณคดีชาวอังกฤษ อาร์เธอร์ อีแวนส์ ได้พบกับหินโบราณที่มีจารึกในภาษาที่ไม่รู้จัก หินดังกล่าวมาจากเกาะครีตในทะเลเมดิเตอร์เรเนียน และอีแวนส์ก็เดินทางไปที่นั่นทันทีเพื่อค้นหาหลักฐานเพิ่มเติม เขาพบหินและแผ่นจารึกจำนวนมากที่มีสคริปต์คล้ายกันอย่างรวดเร็วและระบุวันที่จากราว 1,400 ปีก่อนคริสตศักราช

การถอดรหัสเชิงเส้น B

นั่นทำให้จารึกเป็นรูปแบบการเขียนที่เก่าแก่ที่สุดรูปแบบหนึ่งที่เคยค้นพบ อีแวนส์แย้งว่ารูปแบบเชิงเส้นของมันนั้นได้มาจากภาพลายเส้นที่หยาบคายซึ่งเป็นของศิลปะในวัยเด็กอย่างชัดเจน ดังนั้นจึงกำหนดความสำคัญในประวัติศาสตร์ของภาษาศาสตร์





เขาและคนอื่นๆ พิจารณาในภายหลังว่าศิลาและแผ่นจารึกนั้นเขียนด้วยสคริปต์สองแบบที่แตกต่างกัน เกาะที่เก่าแก่ที่สุดที่เรียกว่าลิเนียร์เอมีอายุระหว่าง 1800 ถึง 1400 ปีก่อนคริสตศักราช เมื่อเกาะนี้ถูกครอบงำโดยอารยธรรมมิโนอันในยุคสำริด

สคริปต์อื่น Linear B นั้นใหม่กว่าซึ่งปรากฏหลังจาก 1,400 ปีก่อนคริสตศักราชเมื่อเกาะนี้ถูกยึดครองโดย Mycenaeans จากแผ่นดินใหญ่ของกรีก

อีแวนส์และคนอื่นๆ พยายามถอดรหัสสคริปต์โบราณเป็นเวลาหลายปี แต่ภาษาที่สูญหายกลับต่อต้านความพยายามทั้งหมด ปัญหายังไม่ได้รับการแก้ไขจนถึงปี 1953 เมื่อนักภาษาศาสตร์สมัครเล่นชื่อ Michael Ventris ถอดรหัสรหัสสำหรับ Linear B.



วิธีแก้ปัญหาของเขาสร้างขึ้นจากความก้าวหน้าครั้งสำคัญสองครั้ง อย่างแรก เวนทริสคาดคะเนว่าคำซ้ำหลายคำในคำศัพท์ลิเนียร์บีเป็นชื่อสถานที่ต่างๆ บนเกาะครีต ที่กลายเป็นถูกต้อง

ความก้าวหน้าครั้งที่สองของเขาคือการสันนิษฐานว่างานเขียนดังกล่าวบันทึกรูปแบบแรก ๆ ของกรีกโบราณ ความเข้าใจนั้นทำให้เขาสามารถถอดรหัสภาษาที่เหลือได้ทันที ในกระบวนการ Ventris แสดงให้เห็นว่ากรีกโบราณปรากฏตัวครั้งแรกในรูปแบบลายลักษณ์อักษรเร็วกว่าที่เคยคิดไว้หลายศตวรรษ

ชาร์ลส์ค่อนข้างคุ้มค่า

งานของเวนทริสประสบความสำเร็จอย่างมาก แต่สคริปต์ที่เก่าแก่กว่าคือ Linear A ยังคงเป็นหนึ่งในปัญหาที่โดดเด่นในด้านภาษาศาสตร์มาจนถึงทุกวันนี้

ไม่ยากเลยที่จะจินตนาการว่าความก้าวหน้าล่าสุดในการแปลด้วยคอมพิวเตอร์อาจช่วยได้ ในเวลาเพียงไม่กี่ปี การศึกษาภาษาศาสตร์ได้รับการปฏิวัติโดยการมีฐานข้อมูลขนาดใหญ่ที่มีคำอธิบายประกอบ และเทคนิคในการทำให้เครื่องเรียนรู้จากฐานข้อมูลเหล่านี้ ดังนั้น การแปลด้วยเครื่องจากภาษาหนึ่งไปอีกภาษาหนึ่งจึงกลายเป็นกิจวัตร และถึงแม้จะไม่ได้สมบูรณ์แบบ แต่วิธีการเหล่านี้ได้ให้วิธีคิดใหม่เกี่ยวกับภาษาโดยสิ้นเชิง



ป้อน Jiaming Luo และ Regina Barzilay จาก MIT และ Yuan Cao จากห้องทดลอง AI ของ Google ใน Mountain View รัฐแคลิฟอร์เนีย ทีมนี้ได้พัฒนาระบบแมชชีนเลิร์นนิงที่สามารถถอดรหัสภาษาที่สูญหายได้ และพวกเขาได้แสดงให้เห็นโดยให้ถอดรหัส Linear B—ในครั้งแรกที่ทำสิ่งนี้โดยอัตโนมัติ วิธีการที่พวกเขาใช้นั้นแตกต่างจากเทคนิคการแปลภาษาด้วยเครื่องมาตรฐานอย่างมาก

พื้นหลังบางส่วนก่อน แนวคิดหลักเบื้องหลังการแปลด้วยคอมพิวเตอร์คือความเข้าใจว่าคำต่างๆ มีความเกี่ยวข้องกันในลักษณะเดียวกัน โดยไม่คำนึงถึงภาษาที่เกี่ยวข้อง

ดังนั้นกระบวนการจึงเริ่มต้นด้วยการทำแผนที่ความสัมพันธ์เหล่านี้สำหรับภาษาใดภาษาหนึ่ง สิ่งนี้ต้องการฐานข้อมูลขนาดใหญ่ของข้อความ จากนั้นเครื่องจะค้นหาข้อความนี้เพื่อดูว่าแต่ละคำปรากฏถัดจากคำอื่นๆ บ่อยเพียงใด รูปแบบการปรากฏตัวนี้เป็นลายเซ็นเฉพาะที่กำหนดคำในพื้นที่พารามิเตอร์หลายมิติ อันที่จริง คำนี้ถือได้ว่าเป็นเวกเตอร์ภายในช่องว่างนี้ และเวกเตอร์นี้ทำหน้าที่เป็นข้อจำกัดที่มีประสิทธิภาพในการที่คำสามารถปรากฏในการแปลใดๆ ที่เครื่องสร้างขึ้น

เวกเตอร์เหล่านี้เป็นไปตามกฎทางคณิตศาสตร์ง่ายๆ ตัวอย่างเช่น ราชา – ชาย + หญิง = ราชินี และประโยคสามารถคิดได้ว่าเป็นชุดของเวกเตอร์ที่ตามหลังกันเพื่อสร้างวิถีผ่านช่องว่างนี้

ข้อมูลเชิงลึกที่สำคัญที่ทำให้สามารถแปลภาษาด้วยเครื่องคอมพิวเตอร์ได้คือคำในภาษาต่างๆ จะใช้จุดเดียวกันในช่องว่างพารามิเตอร์ตามลำดับ ทำให้สามารถแมปภาษาทั้งหมดไปยังอีกภาษาหนึ่งด้วยการติดต่อกันแบบหนึ่งต่อหนึ่ง

ด้วยวิธีนี้ กระบวนการแปลประโยคจะกลายเป็นกระบวนการในการค้นหาเส้นทางที่คล้ายคลึงกันผ่านช่องว่างเหล่านี้ เครื่องไม่จำเป็นต้องรู้ว่าประโยคนั้นหมายถึงอะไร

กระบวนการนี้อาศัยชุดข้อมูลขนาดใหญ่เป็นอย่างมาก แต่เมื่อสองสามปีที่แล้ว ทีมนักวิจัยชาวเยอรมันได้แสดงให้เห็นว่าวิธีการที่คล้ายกันกับฐานข้อมูลขนาดเล็กมากสามารถช่วยแปลภาษาที่หายากกว่ามากซึ่งไม่มีฐานข้อมูลขนาดใหญ่ของข้อความได้อย่างไร เคล็ดลับคือการหาวิธีอื่นในการจำกัดแนวทางของเครื่องที่ไม่ต้องพึ่งพาฐานข้อมูล

ตอนนี้ Luo และเพื่อนร่วมงานได้แสดงต่อไปเพื่อแสดงให้เห็นว่าการแปลภาษาด้วยคอมพิวเตอร์สามารถถอดรหัสภาษาที่สูญหายไปโดยสิ้นเชิงได้อย่างไร ข้อจำกัดที่พวกเขาใช้นั้นเกี่ยวข้องกับวิธีที่ภาษาต่างๆ เป็นที่ทราบกันดีว่ามีวิวัฒนาการอยู่ตลอดเวลา

แนวคิดก็คือว่าภาษาใดๆ ก็ตามสามารถเปลี่ยนแปลงได้ในบางวิธีเท่านั้น ตัวอย่างเช่น สัญลักษณ์ในภาษาที่เกี่ยวข้องปรากฏขึ้นพร้อมการแจกแจงที่คล้ายกัน คำที่เกี่ยวข้องมีลำดับอักขระเหมือนกัน และอื่นๆ ด้วยกฎเหล่านี้ที่จำกัดเครื่อง การถอดรหัสภาษาจึงง่ายกว่ามาก หากรู้ภาษาต้นกำเนิด

Luo และเพื่อนร่วมงานได้นำเทคนิคนี้ไปทดสอบด้วยภาษาที่หายไปสองภาษาคือ Linear B และ Ugaritic นักภาษาศาสตร์รู้ว่า Linear B เข้ารหัสภาษากรีกโบราณในเวอร์ชันแรกๆ และ Ugaritic ซึ่งถูกค้นพบในปี 1929 เป็นรูปแบบภาษาฮีบรูในยุคแรก

เนื่องจากข้อมูลและข้อจำกัดที่กำหนดโดยวิวัฒนาการทางภาษา เครื่องของ Luo และ co สามารถแปลทั้งสองภาษาได้อย่างแม่นยำ เราสามารถแปล 67.3% ของ Linear B cognates เป็นภาษากรีกที่เทียบเท่าในสถานการณ์ถอดรหัสได้ ตามความรู้ของเรา การทดลองของเราเป็นความพยายามครั้งแรกในการถอดรหัส Linear B โดยอัตโนมัติ

นั่นเป็นงานที่น่าประทับใจที่ยกระดับการแปลด้วยคอมพิวเตอร์ไปอีกระดับ แต่ยังทำให้เกิดคำถามที่น่าสนใจเกี่ยวกับภาษาอื่นๆ ที่สูญหาย โดยเฉพาะอย่างยิ่งภาษาที่ไม่เคยถอดรหัส เช่น Linear A

ในบทความนี้ Linear A นั้นชัดเจนเมื่อไม่มีอยู่ Luo และเพื่อนร่วมงานไม่ได้พูดถึงมันด้วยซ้ำ แต่มันต้องมีขนาดใหญ่ในความคิดของพวกเขา เช่นเดียวกับสำหรับนักภาษาศาสตร์ทุกคน ยังจำเป็นต้องมีความก้าวหน้าครั้งสำคัญก่อนที่สคริปต์นี้จะคล้อยตามการแปลด้วยคอมพิวเตอร์

ตัวอย่างเช่น ไม่มีใครรู้ว่า Linear A เข้ารหัสภาษาใด ความพยายามที่จะถอดรหัสเป็นภาษากรีกโบราณล้มเหลวทั้งหมด และหากไม่มีภาษาต้นทาง เทคนิคใหม่ก็ใช้ไม่ได้ผล

ยาที่แพงที่สุดในโลก

แต่ข้อได้เปรียบที่สำคัญของวิธีการแบบใช้เครื่องคือพวกเขาสามารถทดสอบภาษาหนึ่ง ๆ แล้วอีกภาษาหนึ่งได้อย่างรวดเร็วโดยไม่เมื่อยล้า ดังนั้นจึงค่อนข้างเป็นไปได้ที่ Luo และเพื่อนร่วมงานอาจจัดการกับ Linear A ด้วยวิธีเดรัจฉาน—เพียงแค่พยายามถอดรหัสมันในทุกภาษาที่การแปลด้วยคอมพิวเตอร์ทำงานอยู่แล้ว

หากทำได้ มันจะเป็นความสำเร็จที่น่าประทับใจ ซึ่งแม้แต่ Michael Ventris ก็ยังต้องทึ่ง

อ้างอิง: arxiv.org/abs/1906.06718 : การถอดรหัสทางประสาทผ่านกระแสต้นทุนขั้นต่ำ: จาก Ugaritic เป็น Linear B

ซ่อน

เทคโนโลยีจริง

หมวดหมู่

Uncategorized

เทคโนโลยี

เทคโนโลยีชีวภาพ

นโยบายด้านเทคนิค

อากาศเปลี่ยนแปลง

นโยบายทางเทคนิค

มนุษย์และเทคโนโลยี

หุบเขาซิลิคอน

คอมพิวเตอร์

นิตยสาร Mit News

ปัญญาประดิษฐ์

ช่องว่าง

เมืองอัจฉริยะ

บล็อกเชน

สารคดีเรื่อง

ประวัติศิษย์เก่า

การเชื่อมต่อศิษย์เก่า

ฟีเจอร์ข่าว Mit

พ.ศ. 2408

มุมมองของฉัน

77 Mass Ave

พบกับผู้เขียน

โปรไฟล์ในความเอื้ออาทร

เห็นในวิทยาเขต

จดหมายศิษย์เก่า

ข่าว

การเลือกตั้งปี 2020

ด้วยดัชนี

ภายใต้โดม

นิตยสารข่าว Mit

ท่อดับเพลิง

เรื่องราวที่ไม่มีที่สิ้นสุด

โครงการเทคโนโลยีการแพร่ระบาด

จากท่านประธาน

ปกเรื่อง

แกลเลอรี่ภาพ

แนะนำ