你的深度有多深：DL-HARD 注释深度学习数据集

May, 2021

你的深度有多深：DL-HARD 注释深度学习数据集

How Deep is your Learning: the DL-HARD Annotated Deep Learning Dataset

Iain Mackie, Jeffery Dalton, Andrew Yates

TL;DR介绍了一个名为 DL-HARD 的数据集，它通过对 TREC Deep Learning (DL) 主题进行广泛注释，从而更有效地评估神经排序模型，包括问题意图分类、答案类型、话题类别、来自商业网络搜索引擎的实体以及结果类型元数据等，同时还介绍了识别挑战性查询的框架。DL-HARD 包含了 DL 2019/2020 评估基准的 50 个主题，其中一半是新的并且独立评估的。该研究通过在 DL-HARD 上进行实验，发现参与系统的评估指标和排名存在实质性差异，从而推动了神经排序方法的研究。

Abstract

deep learning hard (DL-HARD) is a new annotated dataset designed to more effectively evaluate neural ranking models on complex topics. It

deep learning hard neural ranking models dataset annotation challenging queries

发现论文，激发创造

硬度感知深度度量学习

本文提出了一种硬度感知的深度度量学习（HDML）框架，通过利用线性插值对嵌入空间进行自适应调整，生成相应的保留标签合成数据进行回收训练，以充分利用所有样本中 buried 的信息，从而使度量始终面对适当的困难程度。实验结果表明，本方法在 widely used 的 CUB-200-2011、Cars196 和 Stanford Online Products 数据集上表现出极具竞争力的性能。

Mar, 2019

TREC 2019 深度学习赛道概览

TREC 2019 新推出的 Deep Learning Track 使用大量标注数据，对包含三百万文档和五十万训练查询的 Ad Hoc 排名展开研究，结果 Deep Learning 方法在 15 组提交的 75 个运行中取得了优异的表现。

Mar, 2020

深度主动学习综述

这篇文章探讨了深度主动学习的现状和未来发展方向，介绍了目前现有的挖掘数据特征的多种方法，并且对 “深度主动学习” 进行了定义和系统梳理。

Aug, 2020

TREC 深度学习赛道：大数据环境中可重用的测试集合

本文为支持 TREC Deep Learning 的数据重复利用，具体描述了数据集的详细情况，阐述了使用 TREC DL 数据写作论文的最佳实践方法，并对 TREC DL 数据的可重复性进行了分析。

Apr, 2021

密集样本深度学习

基于对 DL 学习动态的观察，提出了一种基于复杂特征构建的新理论。

Jul, 2023

深度主动学习的比较调查

研究 DAL 的不同方法，提出 DeepAL+ 工具包，并通过分类实验评估 DAL 方法的性能效果，提供更好的数据标注方法以提高模型性能。

Mar, 2022

深度主动学习综述：近期进展与新前沿

深度学习主导的主动学习方法的调查；介绍了 DAL 任务，总结了最重要的基准和常用的数据集；系统地提供了 DAL 方法的分类，包括注释类型、查询策略、深度模型架构、学习范式和训练过程，并客观分析它们的优点和缺点；全面总结了 DAL 在自然语言处理、计算机视觉和数据挖掘等领域的主要应用；在对当前研究进行详细分析后，讨论了挑战和展望。

May, 2024

远程监督关系提取数据集：实现准确和一致的评估

本文使用深度神经网络进行了遥感监督关系提取，通过建立新的人工标注测试数据集 NYT-H，对遥感监督法进行了更为准确和一致的评估，并发现与使用 DS 标注测试数据的对比系统的排名列表有所不同，说明人工标注数据对于遥感监督关系提取的评估是必要的。

Oct, 2020

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

易训练数据在困难任务中的非常有效性

通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化，以及使用不同硬度度量的实验验证，我们得出了在语言模型中易变难泛化意外地很强，表明可扩展的监管问题可能比之前认为的更容易。

Jan, 2024