GLADIS: 一个通用且大规模的缩略语消歧基准

ACLFeb, 2023

GLADIS: 一个通用且大规模的缩略语消歧基准

GLADIS: A General and Large Acronym Disambiguation Benchmark

Lihu Chen, Gaël Varoquaux, Fabian M. Suchanek

TL;DR通过构建包含更大的首字母缩略词字典、预训练语料库和三个数据集的新基准 GLADIS，我们基于构建的语料库预训练了一个语言模型 AcroBERT，用于解决一般缩略语消歧问题。

Abstract

acronym disambiguation (AD) is crucial for natural language understanding on various sources, including biomedical reports, scientific papers, and search engine queries. However, existing acronym disambiguation b

acronym disambiguation benchmark gladis acrobert language model

发现论文，激发创造

这个缩写是什么意思？介绍一个用于缩写识别和消歧的新数据集

本文提出了一个针对科学领域的人工智能和缩写消歧的数据集，证明了现有的最先进模型在这些数据集上的性能远远不如人类水平，并提出了一种利用句子的句法结构来扩展句中含义不明确的缩写的深度学习模型，该深度学习模型在新的数据集上表现出色，为未来研究提供了强有力的基础。

Oct, 2020

利用领域不可知和特定领域知识进行首字母缩写消歧

本研究提出一种 Hierarchical Dual-path BERT 方法，该方法利用 RoBERTa 和 SciBERT 预训练模型来分别编码通用精细和高级具体表示，用于缩写消歧。实验结果表明，该方法在各种评估指标上均优于现有技术，特别是其宏 F1 达到了 93.73％。

Jul, 2021

SimCLAD: 简单的强化对比学习架构用于缩略语消歧

本文提出了一种用于首字母缩略词消歧的简单对比学习框架 (SimCLAD) 方法，强调了对称性，并通过学习真实含义和歧义短语之间的短语级对比分布来提高预训练模型的泛化能力，并在英文科学文献的首字母缩略词消歧任务上取得了比其他竞争性最先进的方法更好的结果。

Nov, 2021

科技文档理解中的缩略语识别和消歧共享任务

本文回顾了两个针对科学文献中缩略语识别和消歧的共享任务以及各自的参与系统。

Dec, 2020

Primer AI 的首字母缩写识别和消歧系统

该研究介绍了新的缩略语识别和消歧方法，并提出了辅助数据集，为科学文档理解的进一步发展做出了贡献。

Dec, 2020

基于 BERT 的多训练策略缩写消歧

提出一种二元分类模型，结合 BERT 和多种训练策略进行缩写消歧识别，实验证明模型的有效性，在 SDU@AAAI-21 共享任务 2 中排名第一。

Feb, 2021

首字母缩写消歧：领域独立方法

本文提出了一种可通用的缩写歧义消除系统，使用来自 Wikipedia 和 AcronymsFinder.com 的方法获取缩写的所有可能扩展，并使用 Doc2Vec 技术对这些扩展进行打分，最终在一个数据集上取得了 90.9％的准确率。

Nov, 2017

MeDAL: 医学缩写消歧数据集用于自然语言理解预训练

本研究旨在解决临床环境中许多 NLP 方法面临的公共数据集稀缺问题，提出了一个大型医学文本数据集 MeDAL，针对缩写消歧设计，用于医学领域的自然语言理解预训练。我们在几种常见架构上预训练了多个模型，并在实验中表明这种预训练可提高下游医学任务的性能和收敛速度。

Dec, 2020

MadDog: 基于 Web 的首字母缩写识别和消歧系统

本研究介绍了一个公共在线识别和消歧各种领域中所使用的缩写和首字母缩略词的系统。

Jan, 2021

通过构建反事实和多语言混合进行缩写歧义消除（ADBCMM）

本论文提出了一种名为 ADBCMM 的新方法，通过构建对照实验和多语言混合，可以显著提高低资源语言中的简称消歧性能，通过平衡低资源语言中的数据偏差，ADBCMM 能够改善数据集之外的测试性能，在 SDU@AAAI-22 的共享任务 2：简称消歧中，该方法在法语和西班牙语中获得第一名。

Dec, 2021