SP-10K: 一个用于选择偏好获取的大规模评估集
本文提出了基于选择偏好原则的常识知识采集方法,构建了基于事件(activity,state 和 event)的大规模知识图谱 ASER,并使用概念化模块极大地拓展了其覆盖面。
Apr, 2021
该论文提出一种新的大规模基准数据集 SPair-71k 用于在计算机视觉领域解决语义对应问题,其中包含大量变化视角和尺度的图像,从而为解决语义对应问题提供了可靠的测试基础和促进此领域的进一步发展。
Aug, 2019
本篇文章提出了一种基于 Wikidata 的多语言、平行的问句对数据集,即 Multilingual Compositional Wikidata Questions(MCWQ),用于分析语义解析器在英语、希伯来语、卡纳达语和汉语中的组合泛化能力。结果表明,即使使用最先进的预训练多语言编码器,跨语言组合泛化能力也无法实现,文章的方法、数据集和结果将有助于未来关于具有更现实和多样化背景下语义解析的研究。
Aug, 2021
该研究提出了一种基于类别的选择偏好模型,通过从小型语料库中提取的主语 - 动词和宾语 - 动词关系,用于词义消歧任务,以学习动词类别的选择偏好,进而解决诸如同一个动词的不同义项之间的选择偏好等问题。
Sep, 2001
通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略,结合生产语音引擎,利用语言模型融合技术,相对于使用原始语料训练出的语言模型,使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率,并在实时语音搜索流量中得到了有利的侧面对比评估结果。
Mar, 2022
ASCENT++ 是一个自动构建常识知识库的方法,可以捕捉到复合概念并通过 OpenIE、Typicality 和 Saliency 评分进行清洗和排序,以表达常识的时间和空间有效性,并且使用广泛的网页内容提高覆盖率,评估结果表明其在常识推理和问题回答中的优势。
Nov, 2021
研究使用自然语言处理模型进行内容推荐的领域,提出了一种基于语义相似度的数据集构建协议,并定义了适当的度量方法,以评估模型在排名前几位时的效果。
Oct, 2020
本文介绍了一种称为 Ascent 的方法,用于自动构建具有先进表达能力、高精度和高召回率的常识知识库,并且超越了之前的三元组限制,同时捕获了具有子组和方面的复合概念,并通过语义方面完善了断言。
Nov, 2020
本研究提出一种基于依存关系嵌入技术的语义选择偏好模型,能够对高频词汇的匹配提供细粒度的判断。实验结果表明,该模型提高了 CoNLL 数据集的共指解析性能,达到了更复杂系统的最新水平,但其代价也值得商榷。
Jul, 2017