- 低资源关系抽取的端到端可训练软提取器
通过使用神经引导方法,我们提出了一种新颖的端到端可训练软最近邻推断器(ETRASK)来解决实例关系抽取中面临的非可微性问题,该方法通过软、可微分的选择 K 个最近实例进行可训练,从而在目标任务中实现了推断器的端到端训练,实验证明我们的方法在 - 科学出版物中的流程提取的数据增强技术
我们提出了一种数据增强技术,用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务,通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用(1)原始句子中的特定于过程的信息,(2)角色标签相似度 - 使用预训练语言模型和提示的小样本学习,为低资源语言提取临床信息
使用轻量级蒙特卡洛语言模型,自动生成医疗信息,以及进行临床文件,低资源环境下的可解释性研究。
- WWW用于少样本恶意表情包检测的模块化网络
本文主要研究在低资源情况下,检测仇恨恶搞表情包的方法。通过利用 LoRA 模块和大型语言模型,本研究提出一种模块化网络来增强在少样本学习情境下的仇恨恶搞表情包检测性能和泛化能力。
- ACLPRiSM:使用关系感知评分校准提升低资源文档级关系抽取
在低资源环境中,本文通过采用校准方法提出 PRiSM,该方法能够基于关系语义信息调整逻辑回归结果,实验结果表明,将 PRiSM 与现有模型相结合,在三个 DocRE 数据集上可以提高 26.38 个 F1 分数,同时校准误差在使用约 3% - ACLACLM:基于选择性去噪的生成式数据增强方法在低资源复杂命名实体识别中的应用
本文提出了一种基于条件语言模型微调的 ACLM 注意力映射感知关键词选择数据增强方法,用于解决低资源环境下的语言复杂命名实体识别问题,它能够生成更多样化和连贯的增强数据,在单语、跨语言和多语言复杂命名实体识别任务中,ACLM 相比于神经网络 - ACLGDA:用于关系抽取任务的生成式数据增强技术
本研究提出了一种名为 GDA 的专用增强技术,该技术使用两个互补的模块来保留句子的语义一致性和语法结构,在低资源环境下取得了 2.0%的 F1 改进。
- ACLFew-shot Event Detection: 一个实证研究与一个统一的视角
本文通过对 10 种方法的比较研究,提出一种对少样本事件检测模型的统一视图和基准,为未来的研究提供了许多有价值的研究见解。
- 基于视觉信息的低资源语言关键词检测和定位
该研究探讨了使用视觉语音绑定(VGS)模型在语音中进行关键词定位的方法,聚焦于两个主要研究问题:(1)是否可以使用 VGS 模型进行关键词定位? (2)在真正的低资源环境中是否可以进行跨语言的关键词定位?论文提出并评估了四种本地化方法,精度 - EMNLPMask-then-Fill: 一种用于事件抽取的灵活有效的数据增强框架
本文提出了一个名为 Mask-then-Fill 的灵活有效的数据增强框架,可以在保持原有事件结构不变的前提下更灵活地操作文本以生成更加多样化的数据。该方法可以用更多种类的文本替换原有文本,相比现有的方法,它可以替换任意长度的一段文本而非仅 - EMNLP使用多任务学习和最大边际相关性的法律决策摘要提取
本研究提出了一种在法律决策摘要中提取摘要的技术,该技术利用有限的专家注释数据在低资源环境下操作。我们测试了一组使用顺序模型定位相关内容的模型,并利用最大边际相关性来处理冗余以组合摘要。我们还展示了一种隐式方法来帮助培训我们的建议模型生成更多 - EMNLP自监督图层掩蔽预训练用于图到文本生成
该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果,该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果,并在低资源设置中表现出非常有效的结果。
- 利用语料库相似性衡量在低资源环境下嵌入可靠性的预测
本研究通过模拟 17 种语言的低资源情境,评估嵌入式相似性、稳定性和可靠性在不同条件下的表现,并利用语料相似度来预测训练后的嵌入式属性,结果表明可以利用小数据集下的语料相似度估计低资源情境中嵌入式的可靠性。这些结果对于那些数据受限制无法进行 - 基于数据及知识驱动的多语言训练方法,提升印度语言语音识别系统的性能
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型,分别在印度语种中取得 9.66% ~ 27.24%不等的相对准确率提升。
- 高效的抽象摘要数据增强
本文介绍了一种针对抽象摘要任务的低成本、高效的数据扩充策略,ExtraPhrase,通过提取性摘要和改写两个步骤来构建伪训练数据,实验证明 ExtraPhrase 相比不使用数据扩充的设置在 ROUGE 指标上提高了超过 0.50 分,并且 - AAAIPSG: 基于提示的序列生成用于缩略语提取
本文提出了一种基于提示的序列生成方法,用于缩写词提取任务,可以有效地使用预训练语言模型,提高在低资源设置下越南语和波斯语缩写词提取的性能。
- AAAICL-NERIL: 一个用于印度语言命名实体识别的跨语言模型
通过利用英印平行语料库和英文命名实体识别数据集,在低资源背景下,提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法,利用源语言(英语)数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据 - ACL多模态对话回应生成
本论文提出了一种多模态对话生成模型,通过一种新颖的会话代理 Divter,该模型在低资源情况下学习多模态对话,利用文本和图像对对话历史进行响应,并取得了最先进的结果。
- IJCAI低资源神经机器翻译调查
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从 - ACL极度低资源语言的计算视角:何谓太低?
本研究旨在探究注意力深度学习在资源稀缺语言 —— 苏美尔楔形文字中的应用挑战,并介绍了第一个跨语言信息抽取方法,其中包括词性标注、实体识别和机器翻译。同时,开发了一个用于低资源自然语言处理的解释性工具,并重点评估人工干预。我们的方法适用于其