- 通过 LLM 驱动的主动学习和人工标注来增强文本分类
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
- ELFS:基于聚类的伪标记强化无标注子集选择
ELFS 是一种新颖的无标签核心集选择方法,通过深度聚类估计数据困难度得分,使用简单但有效的双端修剪方法减小计算得分的偏差,并在五个视觉基准测试中展示了优于其他无标签基线方法的性能。
- ACLARAIDA:模拟推理增强的交互式数据标注
Araida 是一种基于类比推理的方法,可以提高交互式数据注释的自动注释准确性,并减少人工校正的需求,通过动态协调注释模型和最近邻(KNN)模型,显著减少人工校正劳动力。
- 大型语言模型的自动学习方法
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明 - ACLRADE:基于参考的开放领域对话评估
使用参考答案辅助的多任务学习框架可以评估开放领域对话系统,有效解决多对多问题,通过人工标注获取多个评分而非仅限于黄金答案,实验证明该方法优于现有基准。
- 机器视觉模型中的歧义问题:政策建议
本文探讨了机器视觉的图像标签中主观人类判断的三大影响源 —— 图像标签描绘、评定者背景与任务定义,提出了处理机器学习数据集中的标签歧义的最佳实践。
- ACL扩展事件型本体:利用微调过的 LLMs 建议添加动词和类
本研究旨在探讨使用先进的机器学习方法(特别是精调的大型语言模型)对词汇扩展任务的数据进行预注释,同时研究调查了自动分数与人工注释结果之间的相关性和影响。
- 上下文化主题一致性度量
本研究提出了一种基于 LLM 的方法,受到人类主题评估的启发,实现了语境化主题连贯性(CTC)度量,其在自动化主题连贯性方法方面表现出色,可应用于短文本,并不容易受到高分却无意义的主题干扰。
- CLCIFAR:CIFAR 衍生的基准数据集,带有人工注释的补充标签
通过人工对补充标签的注释,本文设计了两个基于 CIFAR10 和 CIFAR100 的数据集,分析了收集数据集的经验转移矩阵,证明了各种 CLL 算法是否能够从实际世界中的补充数据集中学习。
- HQP:用于检测在线宣传的人工注释数据集
本研究针对现有在线宣传检测数据集标签噪声大甚至不正确的问题,提出了一个通过人工注释所得的高质量在线宣传检测数据集 HQP,其应用得到的检测效果在 state-of-the-art language models 中有了显著提高。同时,研究探 - 神经注释细化:开发一种新的三维数据集用于肾上腺分析
本研究提出了一种名为 Neural Annotation Refinement (NeAR) 的方法,通过学习可隐函数对具有形状特征的向量进行解码,结合外观作为输入,修复人工标注的瑕疵,该方法用于系统分析肾上腺,结果表明修复后的模型能更好地 - ACL生成多个新意图检测的高质量数据点的框架
本论文提出了一种基于聚类的框架 --MNID(多新意图检测),用于检测多个新出现的新意图,在人力预算有限的情况下更高效地重训练基础分类器,实验结果表明 MNID 在准确性和 F1 分数上优于基线方法。
- KDD带有约束条件的贝叶斯众包
本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法,该算法基于变分推断,可以比无监督众包分类更有效地对人工注释信息进行聚合,该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。
- COLING利用远程监督与人工标注的双重监督框架进行关系提取
本研究提出了一种双重监督框架,旨在有效利用人工标注数据和远程监督数据来训练关系抽取模型,以应对不同类型的监督数据。该模型采用两种不同的预测网络,分别用于预测人工标注和远程监督标签,并引入不一致性惩罚机制进行优化,实现了更高的抽取精度。
- 众包计数的不确定性估计和样本选择
本文提出了一种基于图像的人群计数方法,可以预测人群密度地图以及与预测密度地图相关的不确定性值,并开发出卷积神经网络架构来预测这些分布,通过使用高斯分布对人群密度值进行建模来获得预测不确定性,并开发了样本选择策略以减少适应计数网络所需的人工注 - 对使用人工监督的 COMPAS 数据学习公平度量的实证研究
本研究通过收集新的人员判断数据,尝试从人员标注数据中学习类似度度量,以实现个人公平性。研究结果表明,所学度量优于欧几里得度量和精度度量,并为学习诸如个人公平度量之类的度量提供了一种工具。
- 高效知识图谱准确率评估
通过使用簇抽样、加权和两阶段抽样,以及分层的抽样设计,提出了一种有效的抽样和评估框架,该框架旨在在最小化人力成本的同时提供具有强大统计保证的高质量的准确性评估。
- WWW注释阴影,亮点和面部:人类参与数字艺术史的贡献
本文研究表明,虽然自动计算技术在数字艺术史中能够揭示新的见解,但人类注释的补充方法更容易发现难以自动检测的细节,人类注释可供数字艺术史研究参考和补充。本研究的注释任务未来还有很大的潜力扩展到数字技术之外的绘画领域。
- IJCAI一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价
提出了一种跨语言对话评估的 ADVMT 模型,利用神经网络指标对开放域对话系统的表现进行评估,并在两种不同语言的情况下进行评估,结果显示其与人工评估的相关性高于现有指标。
- 增量地图更新的道路网络融合
本文提出了一种称为 mapfuse 的系统,该系统将人工注释的地图与任何自动推理地图融合,以有效实现快速地图更新,并研究了道路关闭的问题。