本文提出了一个针对科学领域的人工智能和缩写消歧的数据集,证明了现有的最先进模型在这些数据集上的性能远远不如人类水平,并提出了一种利用句子的句法结构来扩展句中含义不明确的缩写的深度学习模型,该深度学习模型在新的数据集上表现出色,为未来研究提供了强有力的基础。
Oct, 2020
本研究提出一种 Hierarchical Dual-path BERT 方法,该方法利用 RoBERTa 和 SciBERT 预训练模型来分别编码通用精细和高级具体表示,用于缩写消歧。实验结果表明,该方法在各种评估指标上均优于现有技术,特别是其宏 F1 达到了 93.73%。
Jul, 2021
本文提出了一种用于首字母缩略词消歧的简单对比学习框架 (SimCLAD) 方法,强调了对称性,并通过学习真实含义和歧义短语之间的短语级对比分布来提高预训练模型的泛化能力,并在英文科学文献的首字母缩略词消歧任务上取得了比其他竞争性最先进的方法更好的结果。
Nov, 2021
本文回顾了两个针对科学文献中缩略语识别和消歧的共享任务以及各自的参与系统。
Dec, 2020
该研究介绍了新的缩略语识别和消歧方法,并提出了辅助数据集,为科学文档理解的进一步发展做出了贡献。
提出一种二元分类模型,结合 BERT 和多种训练策略进行缩写消歧识别,实验证明模型的有效性,在 SDU@AAAI-21 共享任务 2 中排名第一。
Feb, 2021
本文提出了一种可通用的缩写歧义消除系统,使用来自 Wikipedia 和 AcronymsFinder.com 的方法获取缩写的所有可能扩展,并使用 Doc2Vec 技术对这些扩展进行打分,最终在一个数据集上取得了 90.9%的准确率。
Nov, 2017
本研究旨在解决临床环境中许多 NLP 方法面临的公共数据集稀缺问题,提出了一个大型医学文本数据集 MeDAL,针对缩写消歧设计,用于医学领域的自然语言理解预训练。我们在几种常见架构上预训练了多个模型,并在实验中表明这种预训练可提高下游医学任务的性能和收敛速度。
本研究介绍了一个公共在线识别和消歧各种领域中所使用的缩写和首字母缩略词的系统。
Jan, 2021
本论文提出了一种名为 ADBCMM 的新方法,通过构建对照实验和多语言混合,可以显著提高低资源语言中的简称消歧性能,通过平衡低资源语言中的数据偏差,ADBCMM 能够改善数据集之外的测试性能,在 SDU@AAAI-22 的共享任务 2:简称消歧中,该方法在法语和西班牙语中获得第一名。
Dec, 2021