半监督文本注释的贝叶斯方法

COLINGOct, 2020

Bayesian Methods for Semi-supervised Text Annotation

Kristian Miok, Gregor Pirs, Marko Robnik-Sikonja

TL;DR通过贝叶斯深度学习模型和贝叶斯集成方法来指导注释过程，可以提高 BERT 模型的注释和预测性能。

Abstract

human annotations are an important source of information in the development of natural language understanding approaches. As under the pressure of productivity annotators can assign different labels to a given te

human annotations natural language understanding semi-supervised methods bayesian deep learning hate speech detection

发现论文，激发创造

带有约束条件的贝叶斯众包

本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Dec, 2020

一种基于贝叶斯方法的众包序列标注技术

本研究提出了一种用于聚合序列标记的贝叶斯方法，该方法通过对注释者的误差和模拟注释的困难度进行建模，有效地减少了常见的跨度注释错误。通过在命名实体识别，信息抽取和论证挖掘方面进行 crowdsourced 数据的评估，表明我们的序列模型优于以前的现有技术，并且可以通过更有效的主动学习来降低众包成本。

Nov, 2018

大规模真相推断：Bayesian 模型用于裁决高度冗余的众包注释

本文提出了一种基于贝叶斯图形模型的技术，用于有效地处理高度冗余注释数据，相比于多数真实推断模型，我们的方法得出了更优质的结果。

Feb, 2019

AnnoBERT: 有效表示多位标注者的标签选择以提高仇恨言论检测

本文介绍了 AnnoBERT，它是首个将注释者特征和标签文本与基于 Transformer 的模型结合起来以检测仇恨言论的架构。通过融合标签文本来丰富文本表示，训练过程中，模型将注释者与他们在一条文本中的所选标签相关联，在评估时，当标签信息不可用时，使用学习到的关联预测参与注释者提供的汇总标签，该方法在检测仇恨言论方面显示出优势，特别是在少数类和注释者存在不一致的边缘情况下的性能提高最大。

Dec, 2022

贝叶斯非参数众包

本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型，以更好地处理众包数据标注中用户注释的质量问题，并利用 Gibbs 采样的高效推理算法对其进行实验验证。

Jul, 2014

半监督学习中建模多个标注者的专业知识

本文提出了一种概率半监督模型和算法，可以从多个注释者的标记数据中学习，并利用未标记数据，将注释者模型用于估计真实标记和注释者变量专业知识。对各种情况进行了数值比较，并表明了该方法优于不使用未标记数据的多注释者方法及不使用多标记者信息的方法。

Mar, 2012

弱监督和半监督证据提取

本文介绍了一种结合少量证据注释和大量文档级别标签的新方法，用于证据提取任务，同时对两个包含证据注释的分类任务进行评估，发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。

Nov, 2020

具有深度学习和自然语言能力的辅助图像标注系统：一项综述

本研究论文探讨了在计算机视觉任务中，超分辨率学习取得了显著的成功，但获取高质量的标注数据仍然是一个瓶颈。作者调查了 AI 辅助深度学习图像标注系统的学术和非学术作品，这些系统为注释者提供关于输入图像的文本建议、标题或描述，从而提高注释效率和质量。研究涵盖了各种计算机视觉任务的标注，包括图像分类、目标检测、回归、实例、语义分割和姿态估计。作者回顾了各种数据集以及它们对 AI 辅助标注系统的训练和评估的贡献。此外，作者还研究了利用神经符号学习、深度主动学习和自监督学习算法实现语义图像理解和生成自由文本输出的方法，包括图像字幕生成、视觉问答和多模态推理。尽管前景看好，但 AI 辅助图像标注与文本输出能力的公开可用作品有限。文章最后提出了未来研究方向的建议，强调了更多公开可用的数据集和学术界与工业界合作的必要性。

Jun, 2024

D-LEMA：基于多个标注的深度学习集成 —— 应用于皮肤病变分割

本文提出了一种利用 Bayes 卷积网络处理不同标注者之间矛盾标注情况的方法，以提高深度学习模型在多标注医学图像分割上的性能和泛化能力。

Dec, 2020

使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习

本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性，并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究，并发现了不同类型模型的最佳组合。此外，我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本，这可以提供更好的计算性能，降低了应用深度主动学习的障碍。

Jan, 2021