通过扩大高质量的指导性对话提升聊天语言模型

May, 2023

通过扩大高质量的指导性对话提升聊天语言模型

Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng...

TL;DR本文介绍了通过 fine-tuning instruction data 实现 ChatGPT 之类聊天语言模型的有效性，提出了一个系统设计的、不涉及人类查询、包含 150 万高质量多轮对话的 UltraChat 聊天数据集，使用该数据集 fine-tune 了 LLaMA 模型得到了更好的性能表现，成为领先的开源数据集。

Abstract

fine-tuning on instruction data has been widely validated as an effective practice for implementing chat language models like ChatGPT. Scaling the diversity and quality of such data, although straightforward, sta

chat language models instructional conversations dataset fine-tuning performance

发现论文，激发创造

大型语言模型作为用户模拟器

通过从真实人机对话中提取的人类问题作为学习目标，我们训练出了用户模拟器 UserGPT，产生了高质量的以人为中心的合成对话数据集 RealChat。实验结果表明，我们的模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型，手动评估也表明我们的模型具有极高的竞争力。通过与最新 LLaMA 2 模型进行微调，ReaLM 在 MT-Bench 中获得了 6.33 的领先分数，超过了其他同等规模的模型，包括 LLaMA-2-7B-chat 模型。我们的方法还展示了可扩展性和可迁移性，并对训练集数据质量与模型性能之间的相互作用进行了初步探索，为未来的研究奠定了坚实的基础。

Aug, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

Parrot: 通过学习提问增强多轮聊天模型

通过引入 Parrot，一种具有高可扩展性的解决方案，我们在多轮对话中自动生成高质量的指导语料，并利用这些语料来提高聊天模型在多轮对话中的效果。

Oct, 2023

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

TeleChat 技术报告

TeleChat 是一种拥有 30 亿、70 亿和 120 亿参数的大型语言模型集合，包括预训练的语言模型和根据人类偏好进行微调的聊天模型。在各种任务上，包括语言理解、数学、推理、代码生成和基于知识的问答等方面，TeleChat 表现出与其他类似大小的开源模型相当的性能。我们公开发布了 TeleChat 的 7B 和 12B 变种的微调模型检查点、代码和部分预训练数据，以支持未来对大型语言模型的研究和应用。

Jan, 2024

AstroLLaMA-Chat：使用对话和多样化数据集扩展 AstroLLaMA

利用紧凑的 7B 参数的 LLaMA-2 模型来提升天文学问题回答的性能，通过有针对性、持续的预训练，在天文学语料库的精心筛选子集中取得了显著的专业主题理解提升，结果表明有限的资源下的持续预训练仍然可以提高模型在专业主题上的性能，该模型已经作为首个针对天文学社区的开源对话式人工智能工具发布，名称为 AstroLLaMA-Chat。

Jan, 2024

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

ChatQA：构建 GPT-4 级别的对话问答模型

我们介绍了 ChatQA，一种具有 GPT-4 级准确性的对话问答模型系列。我们提出了一种两阶段指令调优方法，可以显著提高大型语言模型的零 - shot 对话问答结果。为了处理对话问答中的检索问题，我们在多轮问答数据集上对密集检索器进行微调，其结果可与最先进的查询重写模型相媲美，并大幅降低部署成本。值得注意的是，我们的 ChatQA-70B 在 10 个对话问答数据集的平均得分上超过了 GPT-4（54.14 vs. 53.90），而无需依赖 OpenAI GPT 模型的任何合成数据。

Jan, 2024