Cerbero-7B: 通过增强对话语料库生成和评估实现语言特定 LLM 的重大进展

Nov, 2023

Cerbero-7B: 通过增强对话语料库生成和评估实现语言特定 LLM 的重大进展

Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation

Federico A. Galatolo, Mario G.C.A. Cimino

TL;DR该研究介绍了使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。我们结合了一个生成器 LLM 以创建新样本，并使用一个嵌入器 LLM 以确保多样性。我们提出了一种基于蒙板语言模型（MLM）的质量评估度量方法，用于评估和过滤语料库。利用 llama2-70b 作为生成器和多语言句子转换器作为嵌入器，我们生成了意大利聊天语料库并改进了基于翻译的英语 ChatGPT 自我聊天数据的 Fauno 语料库。改进使用了结构断言和自然语言处理技术。这两个语料库都经过了基于提出的 MLM 模型的全面质量评估。用这些语料库来微调意大利 LLM 可以显著提升语言理解和问答能力。由此产生的模型 cerbero-7b 为意大利 LLM 建立了一个新的最先进水平。这种方法标志着发展语言特定 LLM 的重大进展，特别强调增加支持意大利等少数语言的语料库。

Abstract

This study introduces a novel approach for generating high-quality, language-specific chat corpora using a self-chat mechanism. We combine a generator LLM for creating new samples and an embedder LLM to ensure di

chat corpora self-chat mechanism masked language modelling quality assessment metric italian llm

发现论文，激发创造

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

大型语言模型中的跨语言迁移学习动态数据采样器

提出 ChatFlow 模型，通过跨语言迁移实现了大规模中文语言模型的高性能训练，包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调，实验证明了该方法在加速模型收敛和取得优越性能方面的优势。

May, 2024

聊天检索器：将大型语言模型用于通用和鲁棒的对话密集检索

ChatRetriever 是一个通过对比学习调整的对话式检索模型，能够准确解读用户意图并表示复杂对话会话，通过在高质量对话指令数据上进行掩码训练进一步提升对话理解，实验证明在五个对话式检索基准上 ChatRetriever 显著优于现有模型，在复杂对话上表现出卓越的鲁棒性，展示了适应 LLM 的潜力并推进了对话式检索研究的发展方向。

Apr, 2024

Chat Vector：为语言模型赋予新的语言聊天能力的简易方法

使用聊天向量 (chat vector) 和计算上高效的方法，将对话模型 (ChatGPT) 与人类偏好对齐，展示了对非英语语言特别是中文的适应性及高效性。

Oct, 2023

关于开放领域对话评估的 LLMs 基准测试

大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而，在自动开放领域对话评估方面，现有的评估基准往往依赖于过时的数据集，评估流畅度和相关性等方面，无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究，强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期 LLM 生成的数据集 (SODA) 进行的小型注释实验揭示了 GPT-4 等 LLM 评估者在检测当前 LLM 聊天机器人生成的对话中的实际问题方面存在困难。

Jul, 2024

Camoscio：意大利指令调优的 LLaMA

通过使用 LoRA 和 ChatGPT 翻译的指令提示的语料库，我们精调了最小的变体 LLaMA（7b），在意大利语中为用户的提示引入了专门定制的语言模型 Camoscio。结果表明，该模型在多个意大利语下游任务中的零 - shot 性能与专门为这些任务进行精调的现有模型相媲美。

Jul, 2023

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Nov, 2023