EMNLPOct, 2022

TAPE: 评估少样本俄语语言理解

TL;DR该研究提出了一个名为 TAPE 的基准测试,用于非英语语言的 NLU 评估,特别是适用于俄语的多跳思维,伦理概念,逻辑和常识知识等领域,着重于语言为导向的对抗攻击和扰动分析,通过测试自回归基线,发现简单的拼写变化与输入重复对性能影响最大,同时,结果表明在大多数任务上,神经和人类基线之间存在显着差距。