使用 Transformer 进行英文缩略词提取的集成方法

AAAIJan, 2022

使用 Transformer 进行英文缩略词提取的集成方法

An Ensemble Approach to Acronym Extraction using Transformers

Prashant Sharma, Hadeel Saadany, Leonardo Zilio, Diptesh Kanojia, Constantin Orăsan

TL;DR使用多种不同方法（上下文语言模型和卷积神经网络）提取缩写及其相应的长格式，通过向官方训练数据集添加额外的训练数据样本以帮助提高任务性能，在测试数据上实现了良好的宏 F1 分数。

Abstract

Acronyms are abbreviated units of a phrase constructed by using initial components of the phrase in a text. Automatic extraction of acronyms from a text can help various Natural Language Processing tasks like machine translation, information retrieval, and text summarisation. This paper discusses an ensemble approach for the task of →

acronym extraction contextual language model convolutional neural network training dataset macro-f1 scores

发现论文，激发创造

多语言首字母缩略词抽取的领域自适应预训练

本论文介绍了我们参加多语言首字母缩略词提取共享任务 SDU@AAAI-22 的发现。我们采用双向长短时记忆网络链条件随机场（BiLSTM-CRF）和多语言 XLM-RoBERTa 嵌入来处理多语言首字母缩略词提取。我们预训练了 XLM-RoBERTa 模型，以进一步适应共享任务的领域。我们的系统（团队：SMR-NLP）在所有语言的首字母缩略词提取方面都取得了竞争性的性能表现。

Jun, 2022

MACRONYM：多语言和多领域首字母缩写词提取的大规模数据集

该研究论文主要研究了缩写词的提取及其在自然语言处理应用中的重要性，进一步提出了一种用于多语言和多领域缩写提取的新数据集，并通过实验证明不同语言和不同学习设置下的缩写提取存在独特的挑战和必要的进一步研究。

Feb, 2022

PSG: 基于提示的序列生成用于缩略语提取

本文提出了一种基于提示的序列生成方法，用于缩写词提取任务，可以有效地使用预训练语言模型，提高在低资源设置下越南语和波斯语缩写词提取的性能。

Nov, 2021

Primer AI 的首字母缩写识别和消歧系统

该研究介绍了新的缩略语识别和消歧方法，并提出了辅助数据集，为科学文档理解的进一步发展做出了贡献。

Dec, 2020

跨领域自动术语提取中的 Transformer 集成

本文在多语言跨领域设置中，提出了基于 Transformers 预训练语言模型的术语抽取的预测能力的比较研究。实验结果表明，除了荷兰语和法语之外，在所有语言中应用单语言模型的策略优于利用多语言模型的最先进方法。此外，将两个最佳模型的输出组合起来，可以取得显著的改进。

Dec, 2022

利用大型语言模型进行上下文感知缩略语扩展

为了加速严重运动障碍者在辅助和替代交流中的文本输入，我们提出了一种方法，该方法通过将短语缩写为主要的单词首字母来拓展缩写，利用预先训练的大型语言模型（LLMs）来利用会话上下文。通过在四个公共会话数据集上进行零样本、少样本和微调实验，我们展示 LLM 能够精确地扩展高达 70% 的缩写短语，包括具有长达 10 个单词的缩写短语。这种方法有效地节省了高达约 77% 的击键率。添加一个简短的会话回合的上下文比没有上下文的精确率高出一倍以上，这种效应在较长的短语中更为显著。此外，模型对于打字错误的鲁棒性可以通过在嘈杂的数据上进行微调来增强。

May, 2022

首字母缩写消歧：领域独立方法

本文提出了一种可通用的缩写歧义消除系统，使用来自 Wikipedia 和 AcronymsFinder.com 的方法获取缩写的所有可能扩展，并使用 Doc2Vec 技术对这些扩展进行打分，最终在一个数据集上取得了 90.9％的准确率。

Nov, 2017

22 种语言中的首字母缩略词识别与处理

本研究旨在识别新闻文章中的缩写词，以及通过对实体和其变体的识别对新闻进行自动分析，并在语言之间进行链接以及评估研究结果。我们在此基础上描述了不同短文表述方式的合并和频率分布。

Sep, 2013

利用领域不可知和特定领域知识进行首字母缩写消歧

本研究提出一种 Hierarchical Dual-path BERT 方法，该方法利用 RoBERTa 和 SciBERT 预训练模型来分别编码通用精细和高级具体表示，用于缩写消歧。实验结果表明，该方法在各种评估指标上均优于现有技术，特别是其宏 F1 达到了 93.73％。

Jul, 2021

一种用于医学术语缩写消歧的神经主题注意力模型

提出了一种少样本学习方法，使用神经主题 - 注意力模型来改进具有主题信息的上下文化句子表示，以在短量非平衡训练数据集上显著提高医学术语缩略语消歧的性能，尤其是针对罕见意义，已有的稀缺注释数据集不准确和缺失，需要进行修正和补充。

Oct, 2019