BriefGPT.xyz
大模型
Ask
alpha
关键词
nlu evaluation
搜索结果 - 2
学习快速捷径:关于语言模型中自然语言理解的误导承诺
大型语言模型在自然语言处理领域取得了重要的性能提升,然而近期的研究发现,这些模型在执行任务时往往使用了捷径,导致性能看起来得到了提升,却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查,
→
PDF
6 months ago
EMNLP
TAPE: 评估少样本俄语语言理解
该研究提出了一个名为 TAPE 的基准测试,用于非英语语言的 NLU 评估,特别是适用于俄语的多跳思维,伦理概念,逻辑和常识知识等领域,着重于语言为导向的对抗攻击和扰动分析,通过测试自回归基线,发现简单的拼写变化与输入重复对性能影响最大,同
→
PDF
2 years ago
Prev
Next