HC4: 用于 Ad Hoc CLIR 的新测试集

Jan, 2022

HC4: A New Suite of Test Collections for Ad Hoc CLIR

Dawn Lawrie, James Mayfield, Douglas Oard, Eugene Yang

TL;DR本文章介绍了一种新的用于跨语言信息检索的测试集合 HC4，并利用交互搜索和判断以及主动学习方法来构建测试集合，以评估神经 CLIR 方法的效用及提供基准结果。

Abstract

HC4 is a new suite of test collections for ad hoc Cross-Language Information Retrieval (clir), with Common Crawl News documents in Chinese, Persian, and Russian, topics in English and in the document languages, a

cross-language information retrieval clir test collections graded relevance judgments active learning

发现论文，激发创造

CJRC: 一个可靠的人工标注中文司法阅读理解基准数据集

本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集，基于 Bert 和 BiDAF 构建了两个强基准模型，实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。

Dec, 2019

通过主动学习实现高效测试集构建

本研究通过研究多种主动学习策略，探究了不依赖系统排名的文献选择方法，以及对未标记文献进行自动分类的两种方法；并在五个具有不同相关文献稀缺程度的 TREC 数据集上进行了实验研究，其结果表明了我们的方法的有效性，同时分析了在不同数据集上，相关文献稀缺性对结果的影响，为了支持进一步的工作和再现性，因此我们将我们的代码在线分享了。

Jan, 2018

探究先验知识在具有挑战性的中文机器阅读理解中的应用

本文介绍了第一个自由形式的中文机器阅读理解数据集 (C^3) ，包含 13,369 个文件和 19,577 个来自作为第二语言的汉语考试中所收集的自由形式的多项选择问题。该文提供了大量先前知识的分析和拥有丰富先前知识的实际应用的相关问题的评估。虽然实施了基于规则和神经网络的各种方法，但最佳模型 (68.5%) 和人类读者 (96.0%) 之间还有显著的性能差距，特别是对需要先前知识的问题。同时也研究了关于困扰者合理性和数据增强的效应，可以看出回答 86.8% 的问题需要对文档中的知识和超出文档范畴的领域内知识的理解。我们期望 C^3 能够为现有系统提出巨大挑战，并成为研究如何更好地利用各种先前知识来更好地理解给定的书面或口头定向文本的平台。

Apr, 2019

跨语言信息检索的简洁有效神经排序和重排序基线

该研究旨在提供一种用于跨语言检索模型的组织框架，并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。

Apr, 2023

跨语言 IR 的神经匹配模型研究

通过研究交互式神经匹配模型，结合多语言词向量，为跨语言信息检索建立端到端系统提供了途径。

May, 2020

单语数据的无监督跨语言信息检索

提出一个针对跨语言信息检索的全面无监督框架，通过基于单语语料库构建共享的跨语言词嵌入空间，利用来自对抗神经网络的迭代过程实现无需双语数据的检索，实验验证了该方法的有效性，并通过无监督集成 CLIR 模型提升性能。

May, 2018

CL Scholar: ACL Anthology 知识图谱挖掘工具

CL Scholar 是一种基于文本和网络信息构建的 ACL 医学知识图谱挖掘器，支持使用自然语言查询和关键词搜索来精确探索当前计算语言学研究进展。

Apr, 2018

Ntcir2 的 CRL

该研究发展了两种不同类型的系统，分别提交了 JJ 和 CC 任务的检索结果，使用了报纸等特征，并以自动反馈检索为基础，在 EJ 和 JE 任务中使用了文档扩展方法，虽然在 CC 任务方面结果不佳，但仍取得了好的成果。

Mar, 2001

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

文献综述的层次目录生成：基准评估

本研究以文獻綜述的目錄生成為挑戰，構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集，並通過端到端和管線方法進行了多方面的評估與分析，提出了基於語義和結構相似度的模型性能評估方式。結果顯示，本研究提出的生成方法與評估指標具有較高的效果和品質，並且為以後的相關研究提供了方向。

Apr, 2023