半监督文本注释的贝叶斯方法
本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法,该算法基于变分推断,可以比无监督众包分类更有效地对人工注释信息进行聚合,该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。
Dec, 2020
本研究提出了一种用于聚合序列标记的贝叶斯方法,该方法通过对注释者的误差和模拟注释的困难度进行建模,有效地减少了常见的跨度注释错误。 通过在命名实体识别,信息抽取和论证挖掘方面进行 crowdsourced 数据的评估,表明我们的序列模型优于以前的现有技术,并且可以通过更有效的主动学习来降低众包成本。
Nov, 2018
本文提出了一种基于贝叶斯图形模型的技术,用于有效地处理高度冗余注释数据,相比于多数真实推断模型,我们的方法得出了更优质的结果。
Feb, 2019
本文介绍了 AnnoBERT,它是首个将注释者特征和标签文本与基于 Transformer 的模型结合起来以检测仇恨言论的架构。通过融合标签文本来丰富文本表示, 训练过程中,模型将注释者与他们在一条文本中的所选标签相关联, 在评估时,当标签信息不可用时,使用学习到的关联预测参与注释者提供的汇总标签,该方法在检测仇恨言论方面显示出优势,特别是在少数类和注释者存在不一致的边缘情况下的性能提高最大。
Dec, 2022
本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型,以更好地处理众包数据标注中用户注释的质量问题,并利用 Gibbs 采样的高效推理算法对其进行实验验证。
Jul, 2014
本文提出了一种概率半监督模型和算法,可以从多个注释者的标记数据中学习,并利用未标记数据,将注释者模型用于估计真实标记和注释者变量专业知识。对各种情况进行了数值比较,并表明了该方法优于不使用未标记数据的多注释者方法及不使用多标记者信息的方法。
Mar, 2012
本文介绍了一种结合少量证据注释和大量文档级别标签的新方法,用于证据提取任务,同时对两个包含证据注释的分类任务进行评估,发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。
Nov, 2020
本研究论文探讨了在计算机视觉任务中,超分辨率学习取得了显著的成功,但获取高质量的标注数据仍然是一个瓶颈。作者调查了 AI 辅助深度学习图像标注系统的学术和非学术作品,这些系统为注释者提供关于输入图像的文本建议、标题或描述,从而提高注释效率和质量。研究涵盖了各种计算机视觉任务的标注,包括图像分类、目标检测、回归、实例、语义分割和姿态估计。作者回顾了各种数据集以及它们对 AI 辅助标注系统的训练和评估的贡献。此外,作者还研究了利用神经符号学习、深度主动学习和自监督学习算法实现语义图像理解和生成自由文本输出的方法,包括图像字幕生成、视觉问答和多模态推理。尽管前景看好,但 AI 辅助图像标注与文本输出能力的公开可用作品有限。文章最后提出了未来研究方向的建议,强调了更多公开可用的数据集和学术界与工业界合作的必要性。
Jun, 2024
本文提出了一种利用 Bayes 卷积网络处理不同标注者之间矛盾标注情况的方法, 以提高深度学习模型在多标注医学图像分割上的性能和泛化能力。
Dec, 2020
本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性,并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究,并发现了不同类型模型的最佳组合。此外,我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本,这可以提供更好的计算性能,降低了应用深度主动学习的障碍。
Jan, 2021