日语聊天数据集的构建及其方法论

May, 2023

日语聊天数据集的构建及其方法论

llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology

Masanori Hirano, Masahiro Suzuki, Hiroki Sakaji

TL;DR该研究构建了一个日语聊天数据集，用于调整大型语言模型（LLMs），结果显示该数据集有可能对 LLMs 有利，但也揭示了在非英语语言中构建 LLMs 所面临的一些困难。

Abstract

This study constructed a japanese chat dataset for tuning large language models (llms), which consist of about 8.4 million records. Recent

japanese chat dataset large language models tuning training llms

发现论文，激发创造

从基础到会话：日语指导数据集和调整大型语言模型

我们构建了一个日本指令数据集，并将其应用于一个日本预训练基础模型。通过我们的指令数据集，对日本和英文现有模型进行了低秩调整（LoRA）。从定量和定性的角度评估了这些模型，结果证实了日本指令数据集的有效性。同时也指出，即使在相对较小的大语言模型中，通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。

Sep, 2023

日本医学问答中的 70B 参数大型语言模型

通过使用多个 70B 参数的大型语言模型以及日本医学问答数据集进行指导调整，我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性，超过了 50%。特别是，与英文为中心的模型相比，以日语为中心的模型在通过指导调整方面取得了更大的改进，这凸显了我们地方语言的持续预训练和标记工具的调整的重要性。我们还检验了两种略有不同的提示格式，结果显示有可观的性能改进。

Jun, 2024

多语言聊天数据集：Tagengo

我们提供了一个高质量的数据集，包含 74 种语言中的超过 70k 个提示 - 回应对，用于训练最先进的开源英语语言模型，以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中，我们的多语言模型优于先前的开源语言模型。此外，我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练（如日语），从而提高性能。这些结果表明，在大量高质量多语言数据的训练下，实现更易用的语言模型变得必要。

May, 2024

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖 8 个语言类别和 32 个领域，包括来自 444 个数据集的统计信息，共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据；旨在为研究人员提供整个 LLM 文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

日本大型语言模型中社会偏见分析

通过构建基于英文偏见基准 BBQ 的日语偏见基准数据集 JBBQ，并分析日本 LLM 的社会偏见，本研究发现，虽然当前的日本 LLM 通过指导调整提高了在 JBBQ 上的准确性，但其偏见程度却增加了。此外，通过在提示中加入关于社会偏见的警告，可以减轻某些模型中的偏见影响。

Jun, 2024

基于语言和领域的大型语言模型的预训练和更新：一个日本商业领域的案例研究

本研究通过结合非英语语言和高需求产业领域的研究，探讨了一种特定于日本商业领域的大型语言模型（LLM）。我们从头开始训练了一个 130 亿参数的 LLM，使用了一组新的商业文本和专利，并持续使用最新的商业文件进行预训练。随后，我们提出了一个新的日本商业领域问题回答（QA）基准，并对我们的模型进行了评估。结果表明，我们的预训练模型提高了 QA 的准确性，并且在不损失一般知识的情况下不断适应新信息。我们的预训练模型和商业领域基准已公开提供。

Apr, 2024

大型语言模型的日本金融基准构建

本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。

Mar, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

为什么不将聊天型大语言模型转换为非英语？

非英语大型语言模型（LLM）的稀缺性限制了其发展。将英语中心的 LLM 转化为非英语被认为是一种有效且资源高效的方法。我们介绍了一个名为 TransLLM 的简单框架，针对聊天型 LLM 转化问题提出了两个关键问题并给出解决方案。通过使用翻译作为连接英语和非英语的桥梁，TransLLM 将转换问题细分为多个常见的子任务。我们通过公开可用的数据进一步提高子任务的性能。在实验中，我们将 LLaMA-2-chat-7B 转化为泰语，仅使用单轮数据的方法，在多轮基准测试 MT-bench 上优于强基准和 ChatGPT。此外，没有安全数据的情况下，我们的方法在安全基准测试 AdvBench 上拒绝了比 ChatGPT 和 GPT-4 更多的有害查询。

May, 2024

构建大规模的日语网络语料库用于大型语言模型

通过从 Common Crawl 档案中提取和精炼文本，该研究构建了一个大型的日语网页语料库，用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符（约 1.73 亿页），是目前可用的日语训练语料库中最大的，超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练，并在日语基准数据集上取得一致（6.6-8.1 分）的改善，该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。

Apr, 2024