- 保留知识不变性:重新思考开放式信息提取的鲁棒性评估
本文提出了第一个模拟开放式信息抽取模型在真实世界中评估的基准测试,并在大规模测试中评测了几种常见 NLP 模型和常用的大语言模型,其中表现出色的模型也出现了最高 23.43 F1 得分的下降。
- ACLWYWEB: 一个用于中国古典文献 NLP 评估的基准数据集
本文介绍 WYWEB 评估基准,它由 9 个古汉语 NLP 任务组成,包括句子分类、序列标注、阅读理解和机器翻译,并评估了现有的预训练语言模型在这个基准上的表现,并提出了一些补充数据集和工具,以进一步促进古代汉语 NLU 的进展。
- 通过密集注释的平行语料库以话语为中心评估机器翻译
本论文提出了一个带有丰富语篇注释的新数据集,并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会,该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。
- 混码语调查:语言技术的语言和社会观点
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。 此外,作者还讨论了如何使大规模语 - 面向任务导向对话的意图分类和槽位填充数据集调查
该研究调查了公开可用的意图分类和填槽任务数据集,并对每个数据集的重要特征进行编目,以提高这些数据集的可访问性,便于未来评估对话系统的意图分类和填槽模型。
- MMCUGE:一个中文语言理解与生成的评估基准
提出了针对自然语言处理中普适性语言智能评估的全面、系统的评估标准 CUGE,并通过预训练的语言模型的评估结果表明还有改进的空间。
- FLORES-101 低资源和多语言机器翻译评估基准
本文介绍了 FLORES-101 评估基准,该数据集由 3001 句从英文维基百科中提取出来的涵盖各种主题和领域的句子,在 101 种语言中由专业翻译人员进行翻译。该数据集可用于评估低资源语言和多对多多语言翻译系统的模型质量。
- 野外语音到唇形生成只需要一个口型同步专家
研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段,并使用 Wav2Lip 模型和新的评估基准,成功地在自由视频中实现了较好的 lip-sync 精度。
- 通过对比集评估模型的局部决策边界
提出了一种新的 NLP 注释范例,通过创建对照集,意在消除测试数据中的系统性差距,从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。
- 使用文体学技术检测机器生成的假新闻的限制
本文讨论了神经语言模型与人工写作之间的风格差异,发现传统风格测量技术不能有效地检测机器生成的虚假新闻。作者提出了构建新型检测机制的必要性与重要性。
- ACLWiC:用于评估上下文感知意义表征的词语上下文数据集
本文阐述了词嵌入无法建模词语语义动态性的限制,并介绍了若干种解决该问题的方法,例如 sense embeddings 和 contextualized embeddings,同时指出目前缺乏适合评估动态语义的基准的不足,因此通过专家注释提出