- 在超低资源环境下创建口语对话系统
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
- GreekT5: 一系列希腊序列到序列模型用于新闻摘要
提出了一系列新颖的文本摘要模型,通过在希腊新闻文章上进行全面评估,发现这些模型在各种评估指标上显著优于现有的希腊抽象新闻摘要模型。
- 减少、重用、循环利用:扰动数据是否比其他语言增强对于低资源自我监督语音模型更好
利用音频增强方法预训练自监督表示学习(SSRL)模型,相比监督模型,在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术,包括音高变化、噪音添加、目标语言口音和其他语言语音,并发现了综合增强(噪音 / 音高)是最佳的增强策略,超过 - bbOCR:一个用于孟加拉文档的开源多领域 OCR 处理流程
本文介绍了 Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果 - MetaXLR: 基于多臂赌博机的低资源跨语言学习的混合语言元表示转换
本研究针对极低资源语言的转移学习提出了多源语言和样本选择策略的增强方法,实现了在使用相同数量数据的情况下 NER 任务的最新成果。
- PESTS: 波斯语 - 英语跨语言语义文本相似性语料库
本文为首次使用语言专家生成了一个波斯语和英语句子之间语义文本相似性语料库 (PESTS),并使用此数据集微调不同的基于 transformers 的模型,并且结果表明,使用 PESTS 数据集,XLM ROBERTa 模型的 Pearson - 低资源语言的神经机器翻译
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
- 使用半监督生成对抗网络检测孟加拉虚假评论
该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下,分类孟加拉虚假评论和真实评论的潜力。实验结果表明,即使只有 1024 个标注样本,使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% - XWikiGen:低资源语言百科文本生成的跨语言摘要
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
- 基于数据驱动的语言无关反向文本规范化
本研究提出了一种语言不可知的数据驱动反文本归一化框架,通过数据增强和神经机器翻译数据,填补了非英语标记语料库与自动语音识别模型转换到书写形式文本的方法的不足。实证评估表明,该模型有效地处理了低资源语言,同时保持了高资源语言的性能。
- 对比学习在低资源语言的双语文本挖掘中的应用
本文介绍了一种针对低资源语言挖掘高质量双语数据的方法,即使用多负对比损失进行语言模型微调,可以获得更干净的双语数据,实验证明,在高棉语和普什图语等低资源语言数据挖掘方面,该方法明显优于以往的最先进方法。
- ICLRyosm: 一份新的针对电影评论的约鲁巴情感语料库
本研究主要关注于探索使用预先训练的语言模型 mBERT 和 AfriBERTa 进行情感分析,以研究那些处理不足的数据集和语言架构上未完成的非洲语言如 Yoruba 的影片评论。
- 文本转语音伪标签对于低资源语音识别中的强制对齐和跨语言预训练模型的有效性
本文提出一种对 Maithili、Bhojpuri 和 Dogri 语言创建标签数据的方法,并使用伪标签训练基于 Transformer 的 wav2vec 2.0 ASR 模型。
- ACLOCR 提升低资源语言机器翻译
研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试,并使用真实和合成数据进行了丰富,以评估最先进的 OCR 系统,分析最常见的错误。表明 OCR 单语数据是一种有价值的资源,可以在回译中提高机器翻译模型的性能。通过消融研 - XAlign: 面向低资源语言的跨语言事实到文本对齐与生成
提出两种无监督对齐方法,建立英语结构化的事实与低资源语言句子的有效交叉生成,构建了包含 0.45M 对跨越 8 种语言的 XAlign 数据集,其中有 5402 种对进行了手动标注,并在该数据集上训练了强大的基线 XF2T 生成模型。
- EMNLP基于能力的课程学习法在多语言机器翻译中的应用
本文提出了一种基于能力的课程学习算法 CCL-M,通过均衡不同语言的学习能力,从而达到在多语言机器翻译中提高低资源语言翻译效果的目的,并且运用该算法在动态平衡采样的基础上,对深度学习的训练集积极剔除并添加。最终在 TED talks 数据集 - ACL利用语言相关性进行低网络资源语言模型适应:印度语言研究
本文针对印度语言中不足文本资源的问题,提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法,通过音译和数据增强等技术,将限制资源语言文本转化到具备足够语料的相关语言中间站,从而提高多语言模型的适用性。
- ACL语言无关去词汇化泛化多语言概念生成自然语言
本文研究了跨语言多领域自然语言生成的挑战,提出了一种新的基于预训练多语言嵌入的去词法化方法,并设计了字符级后编辑模型来确保词语在重构时的正确形式,结果表明该方法在低资源语言上具有非常好的效果。
- EMNLPIndoNLG: 评估印尼语自然语言生成的基准和资源
IndoNLG 是一个基于印度尼西亚,印尼语,爪哇语和巽他语的自然语言生成基准的研究,它通过 Indo4B-Plus 数据的预处理,使用 IndoBART 和 IndoGPT 进行预训练,展示了在低资源语言下更为高效的训练和推断。
- 多语种翻译中的鲁棒优化与数据不平衡问题
本文提出了一种曲率感知任务缩放算法(CATS),该算法通过适应性地重新缩放来自不同任务的梯度,并且可以在考虑到数据不平衡的情况下,指导多语言训练进入曲率较低的邻域,并在所有语言中取得统一较低的损失,并且针对常见的数据失衡问题,CATS 可以