2020 年 10 篇必讀的 NLP 突破論文 LIST
7、全新的 NLP 模型測(cè)試方法 “CheckList”
開發(fā)諸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之類的基準(zhǔn),可以用來評(píng)估經(jīng)過微調(diào)的 NLP 模型執(zhí)行自然語言理解任務(wù)的能力。通常,將 NLP 模型的性能與驗(yàn)證準(zhǔn)確性的結(jié)果進(jìn)行比較。需要注意,使用驗(yàn)證準(zhǔn)確性存在固有的局限性,例如過擬合,驗(yàn)證集的數(shù)據(jù)分布不同等均可能干擾正確的判斷。
而在 ACL 2020 年的 Best Paper 論文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一個(gè)框架,一種新的 NLP 模型評(píng)測(cè)方法:CHECKLIST。CHECKLIST 借鑒了傳統(tǒng)軟件工程的測(cè)試準(zhǔn)則,通過模板快速生成大量樣例,全面測(cè)試模型的各種能力,可以用于幾乎所有 NLP 任務(wù)。
CHECKLIST 建議使用三種不同的測(cè)試方法:
?最小功能測(cè)試(MFT, Minimum Functionality Tests),其中使用預(yù)期的金標(biāo)生成示例;
?不變性測(cè)試(INV, INVariance Tests),其中從給定的示例中,創(chuàng)建新示例,其中金標(biāo)被翻轉(zhuǎn);
?方向預(yù)期測(cè)試(DIR, Directional Expectation Tests)對(duì)原始句子進(jìn)行修改,金標(biāo)往期望的方向(正向 / 負(fù)向)變化。
作者建議對(duì)于 NLP 模型的每一種能力,都盡量采用這三種測(cè)試方法測(cè)試一遍。
一句話總結(jié)現(xiàn)實(shí)影響:CheckList 可用于為各種 NLP 任務(wù)創(chuàng)建更詳盡的測(cè)試,有助于識(shí)別更多的錯(cuò)誤的,帶來更強(qiáng)大的 NLP 系統(tǒng)。
該論文在 ACL 2020 上獲得了最佳論文獎(jiǎng)(Best Paper)。
8、重新評(píng)估自動(dòng)機(jī)器翻譯評(píng)估指標(biāo)
自動(dòng)化指標(biāo)是開發(fā)和評(píng)估機(jī)器翻譯系統(tǒng)的基礎(chǔ)。判斷自動(dòng)化度量標(biāo)準(zhǔn)是否與人類評(píng)估的黃金標(biāo)準(zhǔn)相一致,并非易事。
墨爾本大學(xué)計(jì)算與信息系統(tǒng)學(xué)院 的這項(xiàng)研究表明,當(dāng)前的指標(biāo)評(píng)估方法對(duì)用于評(píng)估的翻譯系統(tǒng)非常敏感,尤其是存在異常值時(shí),這通常會(huì)導(dǎo)致對(duì)評(píng)價(jià)效果產(chǎn)生錯(cuò)誤的自信判斷。例如,如果使用大量翻譯系統(tǒng)來計(jì)算領(lǐng)先指標(biāo)和人工評(píng)估之間的相關(guān)性,則該相關(guān)性通常很高(即 0.9)。但是,如果僅考慮幾個(gè)最佳系統(tǒng),則相關(guān)性會(huì)顯著降低,在某些情況下甚至可能為負(fù)相關(guān)。
因此,他們提出了一種在自動(dòng)度量標(biāo)準(zhǔn)下以人為判斷為閾值提高性能的方法,可以量化所引起的 I 型錯(cuò)誤與 II 型錯(cuò)誤,即可以接受的人類評(píng)判質(zhì)量差異,以及不能接受的人類評(píng)判差異。與 BLEU 和 TER 相比,優(yōu)先考慮 chrF,YiSi-1 和 ESIM 等評(píng)估指標(biāo)。
一句話總結(jié)現(xiàn)實(shí)影響:這些發(fā)現(xiàn)對(duì)機(jī)器翻譯中的度量評(píng)估和系統(tǒng)性能評(píng)估的協(xié)議進(jìn)行了改進(jìn)。
這項(xiàng)研究在 ACL 2020 上入圍榮譽(yù)提名論文獎(jiǎng)(Honorable Mention Papers)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬億刺激”計(jì)劃來了
- 6 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長曲線
- 7 2025年8月人工智能投融資觀察
- 8 9 a16z最新AI百強(qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 10 Manus跑路,大廠掉線,只能靠DeepSeek了