Prabhupadavani: 25 种语言的混合代码演讲翻译数据
本研究通过比较使用多语种和单语种模型进行语音识别的表现,提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术,取得了印度诸多语言语音识别的较好效果。
Mar, 2022
我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法,通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上,这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估,结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较,使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验,结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估,以展示系统的高质量。
Dec, 2023
本论文介绍了 SentMix-3L,一个包含三种语言(孟加拉语、英语和印地语)的代码混合情感分析数据集,并通过对 SentMix-3L 的全面评估表明,采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。
Oct, 2023
为了促进多语言代码混合对话模型的开发,我们构建了一个包含代码混合对话的目标导向对话数据集,并在其中使用英语 - 印地语、英语 - 孟加拉语、英语 - 古吉拉特语和英语 - 泰米尔语的多语言版本。
Jun, 2018
通过先前训练好的自动语音识别 (ASR) 和机器翻译 (MT) 模块的结合,本研究提出了一种名为 COSTA 的端到端模型架构,用于印度语言到英文文本的混合语言实时翻译,并发布出相关评估基准。COSTA 在混合语言的孟加拉语、印地语、马拉地语和泰卢固语到英文文本的翻译中,相对于其他基线模型表现出显著优势,BLEU 点数提高达 3.5。
Jun, 2024
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库,以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES,我们构建了 IndicASR,这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。
Mar, 2024
本文介绍了一个新的程序混合(Code-mixed)语料库及预训练模型,为印度语言 Marathi 的程序混合研究奠定了基础,并提供了三个数据集用于下游任务。
Jun, 2023
本文研究如何用神经机器翻译模型生成印地语 - 英语混合语种句子。通过预训练和使用合成数据来提高模型性能,生成的文本可用于数据增强,提高了语言模型任务和自然语言推理任务的性能,人工评估和客观指标的结果展现出了接近或优于印地语为母语的人群工作者生成的混合语种文本。
Jul, 2021
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
Jul, 2020