Prabhupadavani: 25 种语言的混合代码演讲翻译数据

COLINGJan, 2022

Prabhupadavani: 25 种语言的混合代码演讲翻译数据

Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages

Jivnesh Sandhan, Ayush Daksh, Om Adideva Paranjay, Laxmidhar Behera, Pawan Goyal

TL;DR介绍一份多语言混合口音语音翻译语料库 Prabhupadavani，该语料库包含 25 种语言的多种领域，94 小时的语音，可用于语音翻译和机器翻译任务。

Abstract

Nowadays, the interest in code-mixing has become ubiquitous in Natural Language Processing (NLP); however, not much attention has been given to address this phenomenon for speech translation (ST) task. This can b

code-mixing speech translation dataset multilingual vedic culture

发现论文，激发创造

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

用于构建代码混合目标导向对话系统的数据集

为了促进多语言代码混合对话模型的开发，我们构建了一个包含代码混合对话的目标导向对话数据集，并在其中使用英语 - 印地语、英语 - 孟加拉语、英语 - 古吉拉特语和英语 - 泰米尔语的多语言版本。

Jun, 2018

CoSTA: 使用对齐的语音文本交替进行混合编码的语音翻译

通过先前训练好的自动语音识别 (ASR) 和机器翻译 (MT) 模块的结合，本研究提出了一种名为 COSTA 的端到端模型架构，用于印度语言到英文文本的混合语言实时翻译，并发布出相关评估基准。COSTA 在混合语言的孟加拉语、印地语、马拉地语和泰卢固语到英文文本的翻译中，相对于其他基线模型表现出显著优势，BLEU 点数提高达 3.5。

Jun, 2024

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

我的 Boli：混合马拉地语 - 英语语料库，预训练语言模型和评估基准

本文介绍了一个新的程序混合（Code-mixed）语料库及预训练模型，为印度语言 Marathi 的程序混合研究奠定了基础，并提供了三个数据集用于下游任务。

Jun, 2023

从机器翻译到代码转换：生成高质量的混合语言文本

本文研究如何用神经机器翻译模型生成印地语 - 英语混合语种句子。通过预训练和使用合成数据来提高模型性能，生成的文本可用于数据增强，提高了语言模型任务和自然语言推理任务的性能，人工评估和客观指标的结果展现出了接近或优于印地语为母语的人群工作者生成的混合语种文本。

Jul, 2021

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022

使用拉丁字母编写的南亚语言处理：Dakshina 数据集

该论文介绍了 Dakshina 数据集，包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据，并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。

Jul, 2020