大规模信息检索评估的活跃抽样
本研究通过研究多种主动学习策略,探究了不依赖系统排名的文献选择方法,以及对未标记文献进行自动分类的两种方法;并在五个具有不同相关文献稀缺程度的 TREC 数据集上进行了实验研究,其结果表明了我们的方法的有效性,同时分析了在不同数据集上,相关文献稀缺性对结果的影响,为了支持进一步的工作和再现性,因此我们将我们的代码在线分享了。
Jan, 2018
研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法,结果表明:基于关键词列表的检索方法容易出现偏见,而主动有监督学习方法在使用合适数量的已标记训练实例时,能够显著提高检索效果。
May, 2022
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文介绍了一种新的样本效率模型评估框架 —— 主动测试,通过精心选择要标记的测试点,以充分利用样本,解决了现有文献大都忽略了标记测试数据的成本,从而导致模型评估与实际应用的脱节的问题,在理论上建立了基于目标的获取策略并做了进一步的改进,以消除引入的偏差并在相同时间内降低估计方差。
Mar, 2021
本研究致力于解决在大型带噪数据集上扩大模型评估规模的问题,并采用主动测试框架,有效查询用户,以最小化审核,测试两种常见计算机视觉任务的性能指标,并表明该方法比其他评估协议更具稳健性,并能节省显着的人工标注工作量。
Jul, 2018
为了解决现有远程监督关系提取方法中测试集质量低导致的评估偏差问题,本文提出了一种名为主动测试的新型评估方法,通过利用嘈杂的测试集和一些人工注释,可以为远程监督关系提取器提供几乎无偏的评估。在广泛使用的基准测试中,实验表明我们提出的方法可以为远程监督关系提取器提供几乎无偏的评估。
Oct, 2020
我们提出了一种新颖的主动学习采样技术,极大地减少了绘制图片素描的需求,通过利用现有照片 - 素描对与没有自己素描的照片之间的关系,并增强这种关系与其中间表示之间的关联,有效平衡不确定性和多样性,在细粒度的基于素描的图像检索任务中,验证了我们的方法并证明其优越性。
Sep, 2023
为了提供更准确的系统间排名并使黄金标准的人工评估更可靠,我们提出了一种被限制的主动采样框架(CASF)用于可靠的人工判断。通过学习器、系统化采样器和约束控制器,CASF 选择代表性样本以获得更准确的系统间排名。CASF 在 137 个真实的 NLG 评估设置上进行了实验,涉及 16 个数据集和 5 个 NLG 任务,使用了 44 个人工评估指标。实验结果展示 CASF 在 93.18% 的情况下成功识别出排名最高的系统,并在 90.91% 的人工评估指标上排名第一或第二,整体系统间排名 Kendall 相关性为 0.83。代码和数据可在网上公开获得。
Jun, 2024
本研究描述并评估了三种主动学习方法,这些方法可以用于最小化需要人工评分者评分的论文数量,同时提供培训现代自动化论文评分系统所需的数据。这三种主动学习方法是基于不确定性的,基于拓扑的和混合方法,并使用双向编码器从转换语言模型中训练出的评分模型对包含在自动化学生评估奖中的论文进行分类。所有三种主动学习方法都高效,并且产生了彼此相似的分类结果。
Jan, 2023