- ACL低资源科学自然语言推理的共同训练
我们提出了一种新的协同训练方法,通过根据分类器的训练动态为远程监督标签分配权重,反映了它们在后续训练轮次中的使用方式。我们通过分配重要权重而不是基于预测置信度的任意阈值过滤示例,使得自动标记的数据得以最大化利用,同时确保噪声标签对模型训练的 - 重新审视远程监督的命名实体识别:一个新的基准和一种简单方法
该研究论文探讨了在遥感监督(DS-NER)框架下的命名实体识别(NER),其中主要挑战在于由于伪阳性、伪阴性和正类型错误等固有错误导致标签质量受损。我们批判性评估了当前 DS-NER 方法的效力,使用了一个名为 QTL 的真实基准数据集,揭 - 基于主题驱动的远程监督框架用于宏观层面的话语解析
通过使用主题结构和教师 - 学生模型的标签转换和 Oracle 注释,我们提出了一种远程监督的框架,用于解决在领域内和领域外任务之间间隔较大的问题。在 MCDTB 和 RST-DT 数据集上,我们的方法都表现出了最佳的性能。
- ACL基于不确定性的文档级远程关系抽取标签去噪
本文提出了一种使用不确定性估计技术的文档层次远程关系提取框架 UDGDE,它通过新颖的实例级不确定性估计方法测量重叠关系的伪标签的可靠性,并针对长尾问题设计动态的不确定性阈值以过滤高不确定性的伪标签,实验证明该框架在两个公共数据集上性能优于 - EMNLP学会分解:基于可比文本的假想问题分解
本文研究大规模中介设备的预训练,在使用来自可比文本,特别是大规模平行新闻的远程监督的情况下将显式分解建模应用于自然语言理解系统。作者称使用这种中间预训练可以更容易地开发强大的显式分解模型。例如,该模型在语义分析方面取得了 20%至 30%的 - 跨语言说话人识别使用远程监督
该论文提出了一种演讲者识别的框架,通过大规模的英文远程监督训练跨语言语言模型,解决了当前方法中存在的上下文推理能力和跨语言泛化性不足问题,并在英文和中文演讲者识别数据集中取得了优于现有方法的表现。
- ACL在社交媒体中检测先前经过事实检查的声明
通过对社交媒体上的观点进行众包事实核查,并运用改进的自适应训练方法进行学习,以建立一个端到端的自动事实核查框架来解决训练数据稀缺的问题,并较之现有技术提升 2 个百分点。
- 针对命名实体识别中无标签实体问题的噪声鲁棒性损失函数
本文提出了一种新的名词实体识别(Named Entity Recognition,NER)的方法 NRCES,通过使用 sigmoid 函数减轻噪声的负面影响并平衡模型的收敛速度和噪声容忍度,成功地解决了大规模无标注数据集的识别问题,并在合 - 自然语言推理提升远程监督关系抽取
本文提出了一种新的 DSRE-NLI 框架,该框架利用现有知识库的远程监督和预训练语言模型的间接监督,通过半自动关系语言表达机制为间接监督提供能量,进而巩固远程注释以便于多分类 RE 模型,并通过数据整合策略实现训练数据的质量提高,大量实验 - 远程监督关系抽取综述:以去噪和预训练方法为重点
关系抽取(RE)是自然语言处理的基础任务,本文综述了四个阶段的 RE 方法,包括模式匹配、统计、神经网络和大型语言模型,并着重介绍了现代 RE 方法的远程监控和去噪预训练方法。
- ACL远程监督下基于加权对比预训练的关系抽取
本研究提出了一种加权对比学习方法,利用有监督数据估计预训练实例的可靠性并明确减少噪声效应,实验证明相对于两种最新的非加权基线,我们的加权对比学习方法在三个监督数据集上有明显的优势。
- 使用远程监督对文本匿名化模型进行引导
本文提出一种基于远程监督的方法,利用知识图谱自动标注出表示个人信息的文档,以训练文本匿名化模型,进而实现 k - 匿名。通过在 Wikipedia 等网站上提取的知识图谱,并利用 RoBERTa 模型进行评估,本方法显示出潜力,但也揭示了可 - COLINGMedDistant19:面向广泛覆盖的医学关系抽取精准基准的研究
本研究针对生物医学领域中关系抽取的挑战,提出利用知识图谱关系对原始文本进行自动标注,以克服标注数据缺乏的问题,并通过构建更为准确的基准集 “MedDistant19” 来解决现有基准集存在的一系列问题,并验证了其在领域中具有普遍适用性。
- ACL基于置信度的多类正负样本学习在距离监督的命名实体识别中的应用
本文研究用多类正类未标签化学习方法和一种基于置信度的方法来解决远程监督下的命名实体识别问题,并在两个基准数据集上的实验表明该方法优于现有的远程监督命名实体识别方法。
- HiCLRE:一种基于分层对比学习的远程监督关系抽取框架
本文提出了一种基于对比学习的层次化关系抽取框架(HiCLRE),该框架结合全局结构信息和局部微粒度交互以减少噪声句子,并在不同的 DSRE 数据集中均显著优于强基准模型,其中包括了远程监督、关系抽取、多粒度重上下文化和对抗扰动等关键词。
- AAAI使用远程监督预测句子上文结构:以主题分割为例
该研究提出了一种利用主题分割技术进行远程监督的方法来解决现代话语解析中由于数据稀缺问题所面临的困境,实验结果表明该方法能够有效地产生准确的树状结构并较之前的方法取得了更高的得分。
- 生物医学关系提取的抽象化多实例学习 (AMIL)
研究提出了用抽象化的多实例学习(AMIL)来改善远程监督下生物医学关系抽取中的训练噪声及数据分布问题。同时,提出了一种新的关系嵌入结构,在生物医学关系提取中进一步提高模型的性能。
- EMNLP使用远程监督的证据检索,无需证据标记即可实现问答
本研究探讨使用仅通过回答标签的远程监督来训练模型,从大规模语料库中学习寻找证据的能力,提出了一种新的方法(DistDR),该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。
- EMNLP通过跨度约束,在远程监督下改进潜在树归纳
本研究提出了一种使用远程监督形式的跨度约束技术来提高无监督语法分析性能的方法。通过少量跨度约束,可以大大提高无监督分析系统 DIORA 的性能。我们的实验表明,基于实体的跨度约束可以使英语 WSJ Penn Treebank 的组成分析提高 - EMNLP具有噪声鲁棒性和语言模型增强的远程监督命名实体识别
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准