- 大型语言模型中的深度贝叶斯主动学习偏好建模
通过提出一种新的随机获取策略,该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下,在人类喜好数据集中获得 33% 至 68% 的偏好标签。
- ICML放下你的标签:无监督迁移
基于不同基础模型的表示空间引导搜索,TURTLE 发现了下游数据集中的潜在标签而无需任何监督学习,并在 26 个数据集上取得了新的无监督性能的最新成果,超越了零样例传递和无监督提示调优基线的平均表现。
- ACL人机协同的合成文本数据审查与溯源跟踪
使用数据增强技术生成的合成文本及其相应的标签分析是缓慢且繁重的任务。为了消除具有错误标签的文本,我们开发了一种名为 INSPECTOR 的人机交互数据检查技术,结合了数据溯源技术与辅助标注的优势。INSPECTOR 允许用户根据原始文本的转 - 基于修改注意力 Unet 的腰椎全景分割与标记
基于改进的注意力 U-Net 架构的增强方法用于腰椎 3D 切片 MRI 数据的全景分割来实现 99.5% 的准确率
- CVPRTeeth-SEG:一种基于人类先验知识的牙齿矫正治疗高效实例分割框架
通过提出基于 ViT 的框架 TeethSEG,针对牙齿定位、分割和标记的问题,设计了一种多尺度聚合模块和人类先验知识层,通过研发唯一的基于排列的放大器和多头自我 / 交叉门控层,提高了牙齿图像分割的效果,并在包含 15 万张牙齿内景照片的 - 批量主动学习基于人类偏好的奖励函数
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
- STIR:红外手术纹身
为了实现图像引导和医疗介入和手术自动化,对于跟踪和映射组织方法的性能进行量化是至关重要的。我们引入了一种新的标注方法和一个使用该方法的数据集,称为 Surgical Tattoos in Infrared (STIR)。STIR 使用持久但 - 城市场景中的全景 3D 到 2D 标签转移:PanopticNeRF-360
利用粗糙的三维注释和有噪音的二维语义线索结合,从任意视角生成一致的全景标签和高质量图像。
- 评估可解释性方法的函数解释基准
评估构建自动可解释性方法的基本模块的基准套件 FIND,包括与训练神经网络组件类似的函数和相应的描述,表明语言模型仅通过对函数进行黑箱访问,能够推断函数结构,并形成假设、提出实验并根据新数据更新描述,但基于语言模型的描述倾向于捕捉全局函数行 - 深度学习模型高效标注太阳辐射演变视频
机器学习(ML)作为处理大规模复杂数据的关键工具,标注(labeling)是监督式 ML 的重要步骤。本文使用卷积神经网络(CNNs)对天体视频进行训练,以改善数据标注质量并减少人工干预。研究发现通过这种迭代过程获得的高质量标注数据集可以减 - 3DTeethSeg'22:3D 牙齿扫描分割与标记挑战
本文介绍了 3DTeethSeg'22 竞赛的数据集及结果,该竞赛旨在解决牙齿定位、分割和标记的自动化算法挑战,以提高口腔诊断、治疗规划和口腔健康人群研究的效率。
- 更聪明地标记,而不是更艰苦:CleverLabel 实现更快速且高质量地注释模糊图像分类
提出了一种名为 CleverLabel 的新方法,该方法使用 validated proposal-guidEd 注释和 repaired labels 来实现高质量、低成本的标注,可在多个领域的真实图像分类基准测试中,将标注成本降低高达 - MM通过多位专家注释员提高医学图像分析中的物体检测:一项实证研究
本研究探讨了在医学影像分析中利用机器学习算法进行异常检测的方法,重点讨论了算法的性能如何取决于标注者的数量和标签的质量。我们提出了一种简单有效的方法,通过聚合不同水平标注者的标注来解决单个标注者主观性标注的问题。通过估计多个标注的隐藏标签并 - 利用标签语义在嘈杂标记下提取公司与行业匹配的更高性能
在金融机构中,为公司分配适当的行业标签是一项关键任务,本文提出了一种基于语义相似度匹配的 ML 管道,通过使用标签相似矩阵和最小标记策略,实现了对噪声的显著改进和稳健的预测能力。
- 航拍图像中唯一必要的是中心点
本研究使用中心点进行标注,开发了单阶段和两阶段网络结构,在三个航拍目标检测数据集上表现和使用更详细标注的方法几乎等效。
- ECCV利用视觉和语言模型开发目标检测算法的无标签数据
利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类,从而解决大规模获取标注数据的难题,并通过在学习过程中使用这些伪标签,展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。
- 自然语言处理中通过组合标签进行信息传播
本文介绍了自然语言处理中的标注任务并定义了标签概念,在实体链接和信息流方面提出了一种新的方法,并通过熵计算信息损失,最终将其视为两个实体在图上路径的距离。
- 强化元主动学习
该论文提出了一种基于强化学习的在线流式元主动学习方法,它从数据中直接学习信息度量,并结合模型训练来训练主动学习器,可应用于一般类别的分类问题,优于现有最先进的方法。
- 利用标签精炼从社交媒体话语中构建大规模的虚假信息标记数据集
本研究提出一种基于新闻来源可信度标签的弱监督学习方法,通过自监督或重新标注等方式纠正可能存在的标签不准确性,构建大规模、多样化的新领域虚假信息数据集。同时,本文应用提出的方法提供了一个 COVID-19 疫苗虚假信息数据集。
- WRENCH:弱监督全面基准评估
本文提出了一种名为 WRENCH 的基准平台,用于对弱监督方法的评估和比较,它包括用于分类和序列标记的 22 个真实世界数据集,一系列真实、合成和过程生成的弱监督源,并提供流行的弱监督方法的实施。