Amazon本周發布名為MASSIVE的資料集,供開發商訓練能理解多種語言的數字助理使用的AI模型。
到2023年全球將因智能手機的普及而有80多億個AI虛擬助理,還有超過1億臺智能音箱。然而大部分虛擬助理都僅能使用1種或僅數種主流語言。此外這些數字助理的訓練還面臨標注資料不足、去除資料訛誤、維護和更新模型的成本等問題,進一步限制了數字助理的口語翻譯的能力。
大量多語自然語言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學家Jack FitzGerald指出,這愿景下,單一機器學習模型能分析和理解多種語言。通過學習跨語言的共享資料展現(data representation),這個模型可以從有很豐富訓練資料的主流語言學習到的知識,轉移到資料很稀少的語言上。
為推動MMNLU模型創建,Amazon宣布發布MASSIVE資料集。MASSIVE資料集包含跨51種語言加注過的100萬項話語或單詞(utterance)及開源程序代碼。資料集包括訓練、驗證和測試資料,后者則提供MMNLU模型的執行范例,協助AI項目人員創建意圖分類(intent classification)或詞槽填充(Slot Filling)的結果基準線(baseline)。
MASSIVE為平行資料集,意味每個單詞都有51種語言版本,這可讓模型學習到同一意圖的共享表達方式,可加速自然語言理解(NLP)任務的跨語言訓練,也能用于其他NLP任務,如機器翻譯、多語復述(multilingual paraphrasing)等等。MASSIVE通過CC BY 4.0授權開源,以鼓勵學界及業界使用。
Amazon同時還宣布MMNLU-22競賽(Massively Multilingual NLU 2022),鼓勵開發人員利用MASSIVE資料集創建模型。