Baize：一个基于数据自聊的开源聊天模型，并具有参数高效调优功能

Apr, 2023

Baize：一个基于数据自聊的开源聊天模型，并具有参数高效调优功能

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

TL;DR本文提出了 Baize 模型，该模型通过利用 ChatGPT 自身进行对话，自动生成具有高质量的多轮对话语料库，并使用参数高效调整来增强 LLaMA，该模型在最小化潜在风险的防护栏下在多次对话方面表现良好。

Abstract

chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted api, creating barriers for ne

chat models api multi-turn chat corpus parameter-efficient tuning baize

发现论文，激发创造

通过扩大高质量的指导性对话提升聊天语言模型

本文介绍了通过 fine-tuning instruction data 实现 ChatGPT 之类聊天语言模型的有效性，提出了一个系统设计的、不涉及人类查询、包含 150 万高质量多轮对话的 UltraChat 聊天数据集，使用该数据集 fine-tune 了 LLaMA 模型得到了更好的性能表现，成为领先的开源数据集。

May, 2023

大型语言模型作为用户模拟器

通过从真实人机对话中提取的人类问题作为学习目标，我们训练出了用户模拟器 UserGPT，产生了高质量的以人为中心的合成对话数据集 RealChat。实验结果表明，我们的模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型，手动评估也表明我们的模型具有极高的竞争力。通过与最新 LLaMA 2 模型进行微调，ReaLM 在 MT-Bench 中获得了 6.33 的领先分数，超过了其他同等规模的模型，包括 LLaMA-2-7B-chat 模型。我们的方法还展示了可扩展性和可迁移性，并对训练集数据质量与模型性能之间的相互作用进行了初步探索，为未来的研究奠定了坚实的基础。

Aug, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

ChatGPT 的一周年：开源大规模语言模型是否在迎头赶上？

2022 年底，ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮，通过使用监督微调和强化学习来对大型语言模型进行指令调优，它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循，使得大型语言模型的研究兴趣得到了极大的加强，各种新的大型语言模型层出不穷，包括很多专注于大型语言模型的初创公司。然而，尽管封闭源的大型语言模型（如 OpenAI 的 GPT 和 Anthropic 的 Claude）通常表现出色，但开源大型语言模型的进展也非常迅速，并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果，这对于研究和商业都具有重要的意义。在本研究中，我们在 ChatGPT 发布一周年之际，全面概述了这一成就，并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。

Nov, 2023

Jais 和 Jais-chat: 以阿拉伯语为中心的基础和经过指令调整的开放生成式大型语言模型

我们介绍了 Jais 和 Jais-chat，这是最新的阿拉伯语中心基于 GPT-3 解码器结构的大规模生成式语言模型，通过对阿拉伯语和英语文本进行预训练来展示出比现有的阿拉伯语和多语言模型更强的知识和推理能力，提供了详细的训练、调优、安全对齐和评估说明，并发布了两个开源版本的模型，旨在推动阿拉伯语语言模型的研究。

Aug, 2023

ChatLaw: 带外部知识库集成的开源法律大语言模型

本文介绍了一个名为 ChatLaw 的开源法律大语言模型，它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现，解决了参考数据筛选过程中的模型幻觉问题，提升了其解决问题的能力。

Jun, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

将实时互动会话建模为定时记录的转录

使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

May, 2024

ChatQA：构建 GPT-4 级别的对话问答模型

我们介绍了 ChatQA，一种具有 GPT-4 级准确性的对话问答模型系列。我们提出了一种两阶段指令调优方法，可以显著提高大型语言模型的零 - shot 对话问答结果。为了处理对话问答中的检索问题，我们在多轮问答数据集上对密集检索器进行微调，其结果可与最先进的查询重写模型相媲美，并大幅降低部署成本。值得注意的是，我们的 ChatQA-70B 在 10 个对话问答数据集的平均得分上超过了 GPT-4（54.14 vs. 53.90），而无需依赖 OpenAI GPT 模型的任何合成数据。

Jan, 2024