- 基于词语角色的有选择性文本增强技术在低资源文本分类中的应用
本文提出一种名为 STA 的基于单词角色进行选择性文本增强的技术,通过选取适当的词角色生成多样性和相对干净的样本,证明 STA 能够成功地提高分类模型的性能,并在跨数据集实验中表现得比以前的方法更好。
- AutoQGS:从 SPARQL 中自动生成基于知识的低资源问题生成的自动提示
本研究提出了一种基于自动提示的方法来处理低资源情况下的知识问答生成(KBQG),通过从 SPARQL 中直接生成问题并使用基于自然语言生成模型的自动提示器实现 SPARQL 和自然语言描述之间的转化,从而在 WebQuestionsSP、C - 开放领域问答的低资源稠密检索:一份综合调查报告
本文探讨了基于预训练语言模型的致密检索方法,并提供了在低资源情境下实现致密检索的主流技术概览,根据技术需要的资源将其分为文档、文档和问题,以及文档和问题答案对三个类别,并对每个技术的算法、开放问题和优缺点进行了介绍和总结,最后提出了未来研究 - 无需微调?代码智能中的提示微调实验评估
研究表明预训练模型在很多代码智能任务中具有很好的效果,但由于不同形式的输入难以完全利用预训练模型的知识,这篇论文通过在代码智能任务中进行提示调整,探索它对模型性能和低资源情况的影响,实验表明相对于微调,提示调整在三项代码智能任务中都能实现更 - 基于匹配的多类文本分类
本文提出了一种 TCM 框架,将文本分类视为标签与文本间的匹配问题,并且使用细粒度语义信息来区分大量类别,尤其是在低资源情况下。通过对 4 个多标签文本分类数据集的评估,TCM 展现出比前人方法显著的改进。
- ACLBORT: 面向任务的端到端对话的回溯与去噪重建
提出了一种名为 BORT 的后向和去噪重建方法来提高流程化对话系统的准确性和降低错误传播的影响,通过重新构造上下文和对话状态来实现,成功地应用于 MultiWOZ 2.0 和 CamRest676 的实验中,以及低资源场景和零样本领域。
- ACL使用元重权的鲁棒自我增强命名实体识别
本论文研究使用自我增强技术以提高在低资源场景下命名实体识别 (NER) 的性能,提出了基于元反权重策略的统一 Token 替代和混合方法,可以在不增加特定增强方法的情况下提高 NER 的性能。
- ACL想象增强的自然语言理解
该论文提出了一种基于想象力的交叉模态编码器(iACE)来解决自然语言理解任务,从而实现视觉想象力,通过从强大的生成和预训练视觉 - 语言模型传输外部知识来扩大模型的学习能力。实验表明,iACE 在自然语言理解中具有很高的效率,在低资源情况下 - ACL低资源命名实体识别的预训练编码器比较研究
该研究比较了不同策略下的预训练编码器在低数据量情境下的命名实体识别表现,结果表明编码器表现存在显著差异,并需要结合具体场景进行评估选择。
- ACL通过记忆模仿提升低资源文本分类和生成的元学习
文章提出了一种记忆模仿元学习方法,利用任务特定的记忆模块存储支持集信息,并构建模仿模块来强制查询集模仿存储在内存中的某些代表性支持集样本的行为,以提高模型对支持集的利用,进而在文本分类和生成任务中取得了优异的性能。
- 低资源场景下的知识提取:调研与视角
该论文回顾和分类研究了在知识提取中的低资源情况中,利用高资源数据、更强模型、数据和模型相结合等三种方法进行的神经方法,并提出未来研究的方向和应用前景。
- ACL跨语言低资源形态分割中基于数据驱动的模型泛化性研究
该研究旨在通过使用多种语言的数据,比较不同参数设置下的模型表现,从而证明模型通用性取决于数据集的特征而不只是数据集的大小。
- NER-BERT: 一个用于低资源实体标注的预训练模型
本文介绍了一种基于大规模语言模型的命名实体识别预训练方法,通过构建大型高质量命名实体语料库,最终得到的 NER-BERT 模型在九个不同领域的低资源场景下明显优于其他模型。
- ACL使用预训练语言模型进行阿拉伯语及其方言的形态句法标注
该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记,优于现有系统,在不同区域的阿拉伯语可获得显著改进,特别是在资源匮乏的情况下,利用其他高资源方言的数据进行微调,以及使用高质量的形态分析器作为外部语言资源是有益的。
- EMNLP高效、可解释、可重用系统的微型模型:精神健康案例研究
介绍了一种微模型架构,解决了在精神卫生等难以注释数据集和模型输出具有重大影响的场景下,统计模型准确性高但难以解释、低资源场景下性能下降、不可重复使用、难以集成领域专业知识等问题,该方法具有可解释性,能够嵌入领域知识,并在模型决策过程中提供解 - EMNLP突厥语言机器翻译的大规模研究
本文是大规模实际应用机器翻译于突厥语系的案例研究,在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈,并提供这些数据与模型的公开开放。
- COLINGLightNER: 一种轻量级的、可插拔的提示调节策略,用于低资源 NER
本研究提出了一种轻量级调整范式(即 LightNER),借助可插拨提示来进行低资源 NER,克服了目标领域与资源丰富的源领域有不同标签集合的挑战,实验结果表明,LightNER 在标准监督设置中可以获得可比较的性能,在低资源环境下优于其他强 - ICLR有效低资源微调的变分信息瓶颈
本文提出使用变分信息瓶颈 (VIB) 来压制过拟合和提高低资源情景中的传输学习,并证明我们的方法成功地降低了过拟合,提高了泛化能力。我们的 VIB 模型发现的句子表示更加鲁棒且能够在自然语言推断数据集中更好地泛化到领域外数据集,实验结果表明 - ACLX-METRA-ADA: 跨语言元迁移学习自然语言理解和问答
该研究提出了一种名为 X-METRA-ADA 的交叉语言 MEta-TRAnsfer 学习 ADAptation 方法,其采用元学习技术来增强自然语言理解(NLU)领域中的跨语言转化,并通过两个跨语言 NLU 任务的大量实验证明了该方法性能 - Tatoeba 翻译挑战:低资源和多语言 MT 的现实数据集
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。