SUPP.AI: 寻找补充剂与药物互动的证据
提出了一种基于中间监督的关系抽取模型,该模型能够更准确地捕捉相关背景和实体类型以提高可解释性和性能。通过对模型的不确定性进行评估,达到了在三个基准数据集上的最佳性能表现,并在 DocRED 中的证据检索上优于次优结果 5.04%相对 F1 得分。
Sep, 2021
本研究探讨使用仅通过回答标签的远程监督来训练模型,从大规模语料库中学习寻找证据的能力,提出了一种新的方法(DistDR),该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。
Oct, 2021
本文介绍了一种结合少量证据注释和大量文档级别标签的新方法,用于证据提取任务,同时对两个包含证据注释的分类任务进行评估,发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。
Nov, 2020
本研究探讨使用文本数据增强技术如洗牌、反向翻译和改写等,以句对分类的方式增强软件工程任务中的冲突与重复检测效果。结论发现,数据增强技术对六个软件文本数据集的所有文本句对效果有显著影响,但在数据集相对平衡时,使用增强技术可能会对分类效果产生负面影响。
May, 2023
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
本文介绍了一种新的事件因果识别训练数据增强方法,该方法采用双重学习框架和基于知识引导的方法生成新的句子,实验表明该方法在两个基准测试数据集上表现优于之前的方法。
Jun, 2021
我们提出了一种简单直接的技术,通过应用软标签来改善基于规则的文本数据增强方法在自然语言处理任务中的性能。通过在七个不同的分类任务上进行实验,我们在经验证明了我们的方法的有效性,并公开了源代码以便复现。
Feb, 2024
我们提出了一种新颖的数据增广方法来解决在使用自然语言处理算法对患者的电子健康记录中建模纵向模式时面临的数据稀缺挑战。该方法通过重新排列访问中医疗记录的顺序来生成增广数据,在顺序不明显的情况下,如果有的话。将该方法应用于氯吡格雷治疗失败检测任务中,在预训练过程中使用增广技术使得 ROC-AUC 指标(从 0.908—— 没有增广到 0.961—— 使用增广)提升了 5.3%。同时,通过增广技术在有限标记训练数据的情况下,还能够改善精细调整过程中的性能。
Feb, 2024
本文通过对三种不同模型以及 420 种不同任务的广泛实验,认真研究了数据增强在异常检测中的作用,得出自监督作为另一个模型超参数,需要根据真实异常特征仔细选择数据增强方式的结论,并且在缺乏对应的情况下,自监督甚至会降低准确性,从而为未来的研究提供了新的方向
Aug, 2022