通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白,通过比较七个选择的语言模型在上下文学习和问答能力方面的表现,发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型,并且上下文学习的表现与问答的表现关系不大。
Apr, 2024
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
这项研究通过使用大型语言模型自动生成土耳其教育内容的问答题,介绍了一种从教育内容中生成测验的新方法,为土耳其教育环境量身定制的教育技术开创了先河。同时,通过将这些语言模型应用于土耳其教育材料中,为自动化土耳其测验生成开辟了新的途径。
Jun, 2024
本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练,发现语言内嵌入是必要的,并且在训练集较大时可以避免形态分析。最终,我们发现这些模型在人工翻译的评估集上表现良好,并将所有的代码、模型和数据公开分享。
Apr, 2020
通过用纯土耳其语语料库训练建立的 cosmosGPT 模型和适应土耳其语的语言模型的全面比较,研究结果显示,尽管相较于其他模型,我们用单语料库建立的语言模型规模较小约 10 倍,但其表现仍然有可观的性能。
本文是大规模实际应用机器翻译于突厥语系的案例研究,在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈,并提供这些数据与模型的公开开放。
Sep, 2021
TurkishBERTweet 是第一个用于土耳其社交媒体的大规模预训练语言模型,使用近 9 亿条推文构建,其相对于 BERTurk 更轻量级且推理时间更短,在情感分类和仇恨言论检测等文本分类任务中表现优于其他可用的替代方法,并且与商业 OpenAI 解决方案相比具有可扩展性和成本效益。
Nov, 2023
该研究探讨土耳其语言模型中的性别偏见及民族偏见,并基于实验证据分析模型特性对偏见的影响,同时公开土耳其性别偏见数据集。
本文介绍了最近关于预训练语言模型(PLMs)的新进展,重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面,并讨论了未来研究的问题和方向。
Mar, 2023