- COLING评估语法错误修正的有效性:基于日本背景的人工评估方法
采用自动标注工具 ERRANT,使用日本大学生写作样本对最先进的序列标记语法错误检测和纠正模型(SeqTagger)进行了性能评估。结果表明该模型在错误检测方面显示出高精度但也相对保守,主题分析发现冠词和介词是主要错误类型。
- ACL序列标注的编码器 - 解码器 Transformer 蒸馏
本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏,追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益,并在多个序列标记数据集上展现了新的卓越表现,证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。
- ACL流式序列标注的高效编码器
该研究提出了一种名为 HEAR 的混合编码器,它具有自适应重启模块,可用于流式序列标记任务,能够在维持初始双向编码器性能的同时,提高流式输入的性能,并在节省高达 71.1% 的 FLOP 以及在准确度方面优于双向编码器 10% 的数据集上, - 促使语言模型理解语言结构
使用结构化提示技术,我们证明了预先训练的语言模型(PLMs)可以在零或少量样本情况下执行标记任务,而不是仅靠表面级别的词汇模式,这表明 PLMs 包含了一种通用的语言学知识表示方式。
- IITD 在 WANLP 2022 共享任务中:用于宣传检测的多语言多粒度网络
使用 XLM-R 模型预测给定推文中每个宣传技术的概率,运用多粒度神经网络与 mBERT 编码器,基于大规模阿拉伯语数据集进行多标签分类及序列标注任务,该方法在 WANLP'2022 的两项子任务中获得第二名。
- EMNLP序列标注模型的影响函数
本文通过使用影响函数测度的方法,扩展了序列标注模型的可解释性。作者通过度量标注段之间的影响,确定训练中误差的位置,从而提高了模型的准确性。
- 基于序列标注的少样本关系抽取框架
本篇论文提出基于序列标注联合提取方法的小样本关系抽取任务,利用少量标注数据解决领域中标注数据不足的问题,并将两种实际序列标注模型应用于这个框架达到了良好的效果。
- 使用图感知变压器进行多语言词汇搭配的提取和分类
本文将序列标记 BERT 模型与图形感知变压器架构相结合,用于识别语境中的词汇搭配。实验结果表明,显式地编码句法依存结构对模型性能有帮助,并提供英语、西班牙语和法语词汇搭配类型区别的见解。
- AAAI序列到动作:由动作引导的序列生成进行语法错误更正
本文提出一种名为 Sequence-to-Action(S2A)的模型,可以联合输入源和目标句子,并在预测每个标记之前自动生成一个基于标记的动作序列,以提供更好的语法纠错性能。在英语和中文 GEC 任务的基准数据集上进行实验,证明我们的模型 - 对大型序列标注器进行集成和知识蒸馏,用于语法纠错
本文旨在改进 GEC 序列标记体系结构,特别是在大型配置中采用最新的基于 Transformer 的编码器进行集成。通过跨度级别编辑的多数投票方法来鼓励集成模型,我们的最佳集合在 BEA-2019(测试)上获得了 76.05 的 $F_{0 - EMNLP将序列标注转化为 Seq2Seq 任务
本文通过超过 1000 次实验,研究了 14 种不同的格式,发现其中一个新的格式既简单又有效,在多语言情况下也表现出显著的优势,并且几乎没有幻觉问题。这些发现为我们解决序列标注任务提供了强有力的经验基础。
- EMNLP基于部分和整体提取的文本百分比定量事实深度理解
本文研究了提取文本中百分比的定量事实的问题,并将其作为序列标注问题,介绍了跳过机制来解决部分 / 整体和其相应百分比之间的巨大间隔。实验结果表明,学习序列标注中的跳过机制很有希望,该方法可以应用于自动信息图表生成。
- EMNLPSPaR.txt,一种针对监管文本的廉价浅层分析方法
本文介绍了一项浅层分析任务,并针对此任务生成少量领域特定数据集。作者使用此数据集训练了一个序列标注器,其测试结果达到了 79.93 的 F1 分数并可以识别建筑规范文档中的大多数定义术语和 Multi-Word Expressions。
- 先目标和意见,再极性:增强方面情感三元组提取中的目标意见相关性
提出一种两阶段框架用于增强目标和观点之间的相关性,通过序列标注提取目标和观点,在输入句子中添加一组名为 “可感知对” 的人工标记,以获取更接近相关的目标 - 观点对表示,通过限制标记的注意范围来减少三元组之间的负面干扰。
- ACL使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习
本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性,并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究,并发现了不同类型模型的最佳组合 - 鲁棒对话话语改写的序列标注
该论文提出了一种基于序列标注的对话重写模型,通过在 REINFORCE 框架下注入 BLEU 或 GPT-2 等损失信号,提高了生成语句的流畅度,进而在领域转移方面显示出比当前最先进系统更大的改进。
- ACL多语言双向编码器的显式对齐目标
本文提出了一种新的方法,即 AMBER(Aligned Multilingual Bidirectional EncodeR),它是一个学习对齐多语言编码器的方法,能够让预训练的跨语言编码器在不同的任务中获得更好的性能,如零 - shot - ACL辅助语言选择对序列标记改进的影响
探究了最佳辅助语言能否通过语言距离进行预测,并表明最相关的语言并不总是最佳辅助语言。进一步地,通过使用基于注意力机制的元嵌入,能够有效地组合来自不同语言的预训练嵌入来实现序列标记并取得了五种语言中词性标注的最新成果。
- EMNLP一种简单有效的多跨度问题回答模型
本文提出了一种新方法,通过将阅读理解中的多串问题视为序列标注问题,使得模型不再局限于输出单一连续结果,而是可以输出多个分散的结果,实验结果在 DROP 和 Quoref 数据集上分别提升了 9.9 和 5.5 个 EM 点。
- EMNLP编码、标签、实现:高精度文本编辑
LaserTagger 是一种将文本生成转换为文本编辑任务的序列标注方法,并通过使用 BERT 编码器和自回归 Transformer 解码器的新型模型来预测编辑操作。在四个任务中测试表明,LaserTagger 在三个任务上取得了新的最优