用于多语言回复建议的数据集和基准线
本文提出一种名为 SimSR 的智能回复方法,通过模拟潜在的用户回复,直接优化 Smart Reply 的预测结果,实现对多样化回复的学习,相比于现有方法,该方法在两个公共数据集上分别提高了 21% 和 18% 的 ROUGE 得分和自对比得分。
May, 2023
使用神经模型基于最小递归语义 (MRS) 的结构化表示,生成高质量文本,通过将基于依赖关系的 MRS 的线性化映射到英文文本,可以实现 BLEU 得分为 66.11,该方法可通过使用高精度的广覆盖语言模型生成训练语料库得到进一步提升,在完整测试集上达到 77.17,进一步在与银标准数据最接近的测试数据子集上达到 83.37,结果表明 MRS-based 表示是需要同时具有结构化语义和文本生成能力的应用程序的良好选择。
Apr, 2019
MuSR 是一种支持 220 多种语言的全能多语种句子表示模型,通过使用数十亿个英文为中心的平行语料库,采用使用跨语言一致性规则化技术的多语言 NMT 框架,以训练多语言 Transformer 编码器,并采用辅助 Transformer 解码器,实现了多语言相似性搜索和双文本挖掘任务,表现优于由 148 个独立的多语种句子编码器组成的 LASER3。
Jun, 2023
我们提供了一个高质量的数据集,包含 74 种语言中的超过 70k 个提示 - 回应对,用于训练最先进的开源英语语言模型,以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中,我们的多语言模型优于先前的开源语言模型。此外,我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练(如日语),从而提高性能。这些结果表明,在大量高质量多语言数据的训练下,实现更易用的语言模型变得必要。
May, 2024
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
本研究介绍了多语言收件人和回复选择的概念,着重研究如何利用高资源语言数据来补偿低资源语言数据,并提出了几种用于对话系统的知识转移方法。我们创建了一个新的多语言对话数据集,通过数据集上的实验证明了我们方法的有效性。
Aug, 2018
本文提出了第一个公开的多语言 FAQ 数据集,并采用 Dense Passage Retrieval 的类似设置和测试各种双编码器。实验结果表明,基于 XLM-RoBERTa 的多语言模型是最好的选择,尤其是对于低资源语言。此外,我们的定性分析揭示了模型对简单单词变化的脆弱性。
Sep, 2021
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
通过使用大型语言模型,本研究提出了新的高质量数据集,用于五种欧洲语言的答案句子选择(AS2)任务,并通过多个实验证明这些数据集对于生成强大且跨语言的 AS2 模型至关重要,显著缩小了英语和其他语言之间的性能差距。
Jun, 2024
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024