BriefGPT.xyz
大模型
Ask
alpha
关键词
zero-shot evaluations
搜索结果 - 3
翻译错误对跨语言学习中的低资源语言有重大影响
在评估跨语言语言理解的常用基准(如 XNLI)中,通过专业翻译人员创建用于多个目标语言的英文评估集的平行版本非常重要,以确保所有目标语言的高质量翻译,以准确地进行跨语言转移的表征。本研究发现,存在翻译的不一致性,并且这些不一致性在 XNLI
→
PDF
5 months ago
实验背景下可以促进语言模型中的稳健语义属性推理,但结果不一致
在先前研究中,语言模型在执行属性继承任务方面表现不佳,然而我们的研究表明,在实验环境中加入上下文示例和指令可以显著提高语言模型的鲁棒性,但这一能力并不一致,暗示着语言模型在语义属性推理的计算原则方面仍有待改进。
PDF
6 months ago
LLMs 是否理解社交知识?使用 SocKET 基准评估大型语言模型的社交能力
介绍了一种名为 SocKET 的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能,结果表明当前模型表现中等,但是存在不同类型和类别任务之间的任务转移潜力,同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力,
→
PDF
a year ago
Prev
Next