Parrot: 通过学习提问增强多轮聊天模型
提出了基于开源 LLMS(LLaMA-7b)和人工翻译评估数据的 ParroT 框架,该框架通过重新规划翻译数据到遵循指令的风格,并引入 “提示” 字段,以调节翻译过程。通过 Finetuning ParroT 模型的三种指令类型,包括翻译指令、对比指令和误差引导指令,实验结果显示翻译指令可以显着提高香草 LLMS 的翻译性能,而误差引导指令则进一步改善了翻译性能,并展示了从人工注释的低质量翻译中学习的重要性。同时,ParroT 模型也可以通过包含多任务数据集 Alpaca 的精调任务中保持其对通用任务的能力。
Apr, 2023
Parrot 是一种新方法,利用文本指导在语言级别驱动视觉令牌对齐,以增强多语言大型语言模型的多模态能力,并提供了一个大规模多语言多模态基准测试数据集(MMMB)。
Jun, 2024
本文介绍了通过 fine-tuning instruction data 实现 ChatGPT 之类聊天语言模型的有效性,提出了一个系统设计的、不涉及人类查询、包含 150 万高质量多轮对话的 UltraChat 聊天数据集,使用该数据集 fine-tune 了 LLaMA 模型得到了更好的性能表现,成为领先的开源数据集。
May, 2023
通过从真实人机对话中提取的人类问题作为学习目标,我们训练出了用户模拟器 UserGPT,产生了高质量的以人为中心的合成对话数据集 RealChat。实验结果表明,我们的模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型,手动评估也表明我们的模型具有极高的竞争力。通过与最新 LLaMA 2 模型进行微调,ReaLM 在 MT-Bench 中获得了 6.33 的领先分数,超过了其他同等规模的模型,包括 LLaMA-2-7B-chat 模型。我们的方法还展示了可扩展性和可迁移性,并对训练集数据质量与模型性能之间的相互作用进行了初步探索,为未来的研究奠定了坚实的基础。
Aug, 2023
本文研究了使用 ChatGPT 替代人工工人进行意图分类的复述生成任务,通过基于已有众包研究的数据收集方法,展示了 ChatGPT 创建的复述更为多样化且能够带来更加强健的模型。
May, 2023
我们介绍了 ChatQA,一种具有 GPT-4 级准确性的对话问答模型系列。我们提出了一种两阶段指令调优方法,可以显著提高大型语言模型的零 - shot 对话问答结果。为了处理对话问答中的检索问题,我们在多轮问答数据集上对密集检索器进行微调,其结果可与最先进的查询重写模型相媲美,并大幅降低部署成本。值得注意的是,我们的 ChatQA-70B 在 10 个对话问答数据集的平均得分上超过了 GPT-4(54.14 vs. 53.90),而无需依赖 OpenAI GPT 模型的任何合成数据。
Jan, 2024
通过分析谷歌自然问答数据库,本文展示了 GPT-4 可在超过 60%的时间内从问题末尾的遗漏词语有效填补丢失的上下文,并探讨了这种信息损失对发展中的角色模型质量的影响,同时提出了使用简单分类器来确定是否需要填充短语以满足人类对话时间限制的问题是否语义完整。
Apr, 2024
本文通过三种不同的方法,基于大型语言模型(LLMs)对于 ChatGPT 响应的逐轮质量进行预测,并使用动态少量样本来改善基准,并分析了其他两种方法的性能并提出未来研究的改进。研究表明,Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距,但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。
Aug, 2023
通过利用开源项目中的大规模指令遵循数据集,我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整,使其在越南语上取得了显著的性能提升,并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。
Sep, 2023