科技文档理解中的缩略语识别和消歧共享任务
本文提出了一个针对科学领域的人工智能和缩写消歧的数据集,证明了现有的最先进模型在这些数据集上的性能远远不如人类水平,并提出了一种利用句子的句法结构来扩展句中含义不明确的缩写的深度学习模型,该深度学习模型在新的数据集上表现出色,为未来研究提供了强有力的基础。
Oct, 2020
本文提出了一种可通用的缩写歧义消除系统,使用来自 Wikipedia 和 AcronymsFinder.com 的方法获取缩写的所有可能扩展,并使用 Doc2Vec 技术对这些扩展进行打分,最终在一个数据集上取得了 90.9%的准确率。
Nov, 2017
本研究提出一种 Hierarchical Dual-path BERT 方法,该方法利用 RoBERTa 和 SciBERT 预训练模型来分别编码通用精细和高级具体表示,用于缩写消歧。实验结果表明,该方法在各种评估指标上均优于现有技术,特别是其宏 F1 达到了 93.73%。
Jul, 2021
本文提出了一种完全无监督的缩写消岐方法(称为 UAD),它通过从非结构化文本中获取缩写定义,并学习用于表示其不同含义的上下文向量,进而提高其消岐性能,并支持多个含义的成千上万个缩写,是一种高度适用于实际部署的模型。经过充分的实验评估,UAD 在来自不同领域的大型真实数据集上取得了高性能,并超过了基线和最先进方法。
Apr, 2019
本论文提出了一种名为 ADBCMM 的新方法,通过构建对照实验和多语言混合,可以显著提高低资源语言中的简称消歧性能,通过平衡低资源语言中的数据偏差,ADBCMM 能够改善数据集之外的测试性能,在 SDU@AAAI-22 的共享任务 2:简称消歧中,该方法在法语和西班牙语中获得第一名。
Dec, 2021
提出一种二元分类模型,结合 BERT 和多种训练策略进行缩写消歧识别,实验证明模型的有效性,在 SDU@AAAI-21 共享任务 2 中排名第一。
Feb, 2021
本文提出了一种用于首字母缩略词消歧的简单对比学习框架 (SimCLAD) 方法,强调了对称性,并通过学习真实含义和歧义短语之间的短语级对比分布来提高预训练模型的泛化能力,并在英文科学文献的首字母缩略词消歧任务上取得了比其他竞争性最先进的方法更好的结果。
Nov, 2021
通过构建包含更大的首字母缩略词字典、预训练语料库和三个数据集的新基准 GLADIS,我们基于构建的语料库预训练了一个语言模型 AcroBERT,用于解决一般缩略语消歧问题。
Feb, 2023