蒙古语通用语料库的合适规模研究
本研究使用825GB的英文文本语料库,旨在训练大规模语言模型,通过GPT-2和GPT-3的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。
Dec, 2020
本研究介绍了KazakhTTS2语料库的构建过程,并提供了TTS系统的训练和评估细节。本语料库足以为Kazakh和其他Turkic语言的语音和语言研究提供帮助,其公开可用于构建高质量的TTS系统。
Jan, 2022
这篇论文介绍了一个高质量的蒙古文开源文本到语音(TTS)综合数据集,这是第一个公开可用的数据集,为蒙古TTS应用在学术界和工业界的推广做出了贡献。该数据集共包括了约8小时的由22岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于FastSpeech2模型和HiFi-GAN声码器非自回归基线系统的经验和评估结果,该系统在MOS评分上达到4以上且RTF约为$3.30 imes10^{-1}$,可以实际应用。
Sep, 2022
通过对九个流行的大型语言模型的各种生成输出进行经验评估,发现输出中包含的记忆文本比例、独特文本比例和总体输出质量存在关联性,其中高质量的输出中包含的记忆文本比例较高。并提出缓解策略和质量文本的评估方法。
Apr, 2023
该研究介绍和评估了微小、迷你、小型和中型的非套壳土耳其BERT模型,旨在填补资源匮乏语言领域的研究差距。我们使用多个来源的超过75GB文本构建了这些模型的训练集,并在多个任务中进行了测试,包括掩码预测、情感分析、新闻分类和零样本分类。尽管模型规模较小,但我们的模型在保证计算效率和更快执行时间的同时,表现出了强大的性能,包括零样本任务。我们的发现对于发展和应用较小语言模型,特别是在土耳其语境下,提供了有价值的见解。
Jul, 2023
本研究验证了Heaps' law 在大型语言模型生成的文本中的适用性,并发现随着模型大小的增长,生成的词汇越来越符合Heaps' law。未来的研究应重点关注增加模型大小或改进模型架构以提高GPT-Neo产生的输出的丰富性和真实性。
Nov, 2023
MC^2是迄今为止最大的开源多语言少数民族语言语料库,涵盖了西藏语、维吾尔语、哈萨克语(哈萨克阿拉伯文)和蒙古语(传统蒙古文)等四种弱势语言,着重解决现有多语言语料库中有限的资源语言分割问题,并分析了长文本建模和多重书写系统等带来的新研究挑战。希望MC^2能够提高中国弱势语言的平等性,并为低资源语言的进一步研究提供可靠的数据基础。
Nov, 2023
通过评估连贯性、凝聚性和复杂性三个基本语言维度,我们系统性地衡量了长文本的质量,并引入了一套度量旨在评估长文本质量的指标,包括统计和预训练语言模型为基础的指标。利用这些指标,我们提出了LongWanjuan,一个专门为增强语言模型在长文本任务上训练而设计的双语数据集,包含超过160B的标记。在LongWanjuan中,我们将长文本划分为整体性、聚合性和混乱性三种类型,从而能够对长文本质量进行详细分析。此外,我们设计了一种数据混合配方,策略性地平衡了LongWanjuan中不同类型的长文本,从而显著提高了模型在长文本任务上的表现。
Feb, 2024
本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响,全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示,Farasa的字节对编码(BPE)在多个任务中表现优于其他策略,突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而,在情感分析中存在方言特定的分割问题,影响模型效率。计算效率分析验证了Farasa的BPE的稳定性,表明其实际可行性。研究发现,词汇量对模型性能的影响有限,在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念,强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性,尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战,增强模型在不同语境中的鲁棒性,并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解,而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。
Mar, 2024