- 神经网络修剪的有效子集选择
在一些领域(如医学数据)中,有大量的标注数据对于深度神经网络的效果至关重要。为了明智地选择待标注的数据(即子集选择问题),我们研究了子集选择和神经网络剪枝之间的关系,并建立了它们之间的联系。借鉴了神经网络剪枝的见解,我们提出了利用神经网络特 - 端到端同步语音翻译的最新进展
该论文提供了对 SimulST 研究的综合概述,着重讨论了四个主要挑战,包括处理长时间和连续的语音流的复杂性、满足实时要求的困难、在翻译质量和延迟限制之间取得平衡的挑战以及缺乏注释数据所带来的复杂性。通过对这些挑战和提出的解决方案的探讨,旨 - COLING德国新闻文章中的引用归属数据集
为分析包括在线新闻文章在内的丰富数据中的人类交流,有效提取说话者、言论内容、受众等是至关重要的。然而,缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题,我们提供了一个基于 WIKINEWS 的新的、可 - 少样本目标检测:研究进展与挑战
本文回顾了近年来少样本目标检测(FSOD)领域的重要进展,总结了现有挑战和解决方案,通过提出一种新颖的 FSOD 分类方法和调查丰富的 FSOD 算法,得出了促进 FSOD 问题深入理解和创新解决方案发展的全面概述,并讨论了这些算法的优点和 - 基于问答的综合中文电子健康记录信息提取的流程
提出了一种新的方法,自动生成用于 QA 模型的迁移学习的训练数据,该模型在电子健康记录的信息提取子任务中表现出色且能够有效处理少样本或零样本情况的问题。
- 从随机到有知识的数据选择:基于多样性的方法优化人工标注和少样本学习
在自然语言处理中,获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构,用于建立用于少样本学习的小型数据集,以解决众包标注的问题。
- CVPR遥感数据的去偏学习
我们提出了一种针对遥感数据的高效半监督学习方法,通过适应 FixMatch 框架以及消除训练数据中的偏差,使用已标记数据的 30% 在遥感数据集上相较于基准监督学习方法提供了 7.1% 的准确度提升,以及相较于监督学习的最新方法 CDS 提 - 群体分析中视觉和行为准确度的统一仿真框架
模拟是一个强大的工具,可以轻松生成带有注释的数据,特别适用于那些需要大型训练数据集的学习模型的领域。我们介绍了一个名为 UniCrowd 的人群模拟器及其关联的验证流程,展示了该模拟器如何生成适用于计算机视觉任务的带注释数据,并包括人群计数 - 建模社交媒体帖子的政治取向:一项扩展分析
通过使用新闻媒体偏见和帖子内容来标记社交媒体帖子的两种启发式方法,以及与随机抽取的人工标注数据集进行比较,我们展示了当前机器学习模型在预测社交媒体帖子的政治倾向方面的改进性能,采用传统的监督学习和少样本学习设置。
- FATURA: 一种用于文件分析与理解的多布局发票图像数据集
FATURA 是一个包含多样布局、带有标注的发票文档图像的数据集,是迄今为止已知的最大公开可访问的发票文档图像数据集,提供了全面的文档分析和理解任务的基准,并在不同的训练和评估场景下进行实验,为研究人员推动文档分析和理解领域提供了帮助。
- 用少量干净实例改进在嘈杂数据上训练的命名实体识别器
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪 NER 数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
- CoAnnotating: 基于不确定性指导的工作分配方法 —— 人员与大型语言模型协同数据标注
使用大规模语言模型和人工标注相结合的新范式 CoAnnotating,在未标注的文本上进行人工标注和语言模型标注,以达到更好的质量和成本效益。
- 关于生成式基础模型对人类活动识别的好处
通过生成式人工智能从文本描述中自动生成虚拟 IMU 数据,人类活动识别(HAR)领域能够解决有限标注数据的问题。此外,还探讨了生成式人工智能在生成基准数据集、特定于 HAR 的模型开发、HAR 中的层次结构探索、复杂活动分解以及健康感知和活 - 医学图像中的普适运动目标分割基础模型
提出了第一个用于医学图像中运动目标分割的基础模型 iMOS,通过对序列中少量图像进行注释,实现双向的运动目标跟踪和分割性能,旨在加快专家的标注速度,推动医学基础模型的发展。
- 通过探索性训练解决通用病变检测任务中的不完整标注问题
通过引入创新的探索式训练方法,结合不完整注释和预测记录来选择可靠的矿化病灶进行重新训练,我们提出的框架在两个医学图像数据集上展现了卓越的性能,超越了现有最优方法。
- ADFA:基于注意力增强的可微分 top-k 特征适应用于无监督医学异常检测
稀缺的注释数据,尤其是罕见疾病的数据,限制了训练数据的多样性和可检测病变的范围,对医学影像中的监督异常检测提出了重大挑战。为了解决这个问题,我们提出了一种新的无监督医学图像异常检测方法:Attention-Augmented Differe - ACLMulti3WOZ:用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集
创造高质量的任务导向对话(ToD)的注释数据是困难的,特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此,现有的数据集仍然非常有限,并且存在诸多限制,如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这 - ACL丰富 NArabizi 树库:多方面支持资源匮乏的语言的方法
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
- 语义比例下的语义分割
提出了一种新的语义分割方法,只需要语义类别比例的大致信息,大大简化了数据标注过程,可行性更强,并取得了可比甚至更好的性能表现,为未来的语义分割研究提供了一个有前途的方向。
- 针对英文手写体草书和印刷体的端到端交互式深度学习标注系统
本文介绍了一种创新的、完整的端到端流程,采用深度学习和用户交互技术,对印刷和草书英文手写手稿进行注释,该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型,结合易于使用的交互式界面,旨在提高检测、分割、序列化和识别阶段的准确