- HumanRankEval: 作为对话助手的语言模型的自动评估
为了加快语言模型作为对话助手的发展,我们提出了一种新的自动评估任务:HumanRankEval(HRE)。它由一个大规模、多样化和高质量的问题集组成,每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排 - 指令调优时代的可控文本生成
基于 Instruction-tuned 模型的可控文本生成,使用基于提示的方法超过了其他可控文本生成方法,在大多数数据集和任务上匹配人类表现,突出了对更多约束和具有挑战性的风格任务的研究的需求。
- 面向事实知识回忆的 LLM 综合评估
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
- 微调、提示、上下文学习和指导微调:我们需要多少标记样本?
在本研究中,我们旨在调查专用模型需要多少标记样本才能达到优越性能,同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为,确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点,发现专用模型通常只需要少量样本(100-100 - 小型语言模型能为较大语言模型选择调整训练数据
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
- 大规模语言模型的稀疏微调扩展
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA - Airavata: 引入印度语指令调整的 LLM
通过将多样化的指令调整的印地语数据集应用于 OpenHathi,我们发布了适用于辅助任务的 Airavata 模型,并共享了 IndicInstruct 数据集,为进一步研究印地语 LLM 提供支持。此外,我们还提供了评估基准和一种评估印地 - 台风:泰国大型语言模型
泰国的 Typhoon 超大语言模型是为泰语开发的,本技术报告介绍了开发泰语 LLMs 的挑战和见解,包括数据准备、预训练、指令调整和评估。
- 令牌化对 LLaMa 俄文适应性的影响
通过词汇替换来解决 LLaMa 俄语适应问题,提高模型质量并加速微调和推理,同时减少内存消耗。
- 指令调整将 LLMs 对齐到人脑
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究 - EMNLP使用查询聚合的指导性对话摘要
通过引入指导训练到对话中,我们提出了一种三步方法来合成高质量的基于查询的摘要三元组。通过在三个摘要数据集上训练统一模型 InstructDS,我们扩展了对话摘要模型的能力,并在人类主观评估中得到了更高的泛化能力和忠实度。
- JMedLoRA:使用指导调整的日语大型语言模型的医疗领域适应
通过 LoRA-based instruction-tuning 来提高日本医学问答任务的性能,在多项选择题的评估中发现其可以部分地将领域特定知识整合到大型语言模型中,较大模型效果更显著,并突出了将英语为中心的模型适应于日本应用的潜力,同时 - EMNLP探索 - 指导:通过主动探索增加领域特定指导范围
通过数据探索实现领域指导调整的数据覆盖增强方法,提高指导模型的颗粒化理解和交流能力,并在多个基准测试中取得显著进展,为改善特定领域中的指导覆盖提供了有希望的机会,推进可适应性语言模型的发展。
- EMNLP指导调优大型语言模型的实证研究
通过深入实证研究指导调优中文语言模型,本文提供了宝贵的研究结果,有助于定制能更好地应对中文指令的大型语言模型。
- 标签监督的 LLaMA 微调
本文介绍了一种基于标签监督的适应大语言模型(LLMs)的方法,通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中,该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Larg - 在训练的哪个阶段,代码数据对 LLMs 的推理有帮助?
使用代码数据在预训练和指令调整阶段可以显著增强大型语言模型的推理能力,同时动态混合代码和文本数据有助于逐步学习推理能力。
- 单语或多语指导调优:哪个更好的羊驼
通过使用多语言调优方法研究基础大型语言模型(LLMs)的代价效益,检验了 LLMs 对于单语和多语环境中查询的有效性,并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明,在有限的计算资源情况下,仅使用有限数据集对多语调优模型 - Donkii:指导调校数据集中的注释错误检测方法能否发现错误?
在这项研究中,我们提出了一个新的 AED 基准测试:Donkii,它包含了三个经过专家和半自动方法注释的指导调整数据集。我们发现这三个数据集中包含明显的错误,有时直接传播到指导调整的 LLMs 中。我们提出了四个适用于生成设置的 AED 基 - 大型多模态模型:CVPR 2023 教程笔记
该论文总结了 CVPR2023 最新视觉基础模型进展讲座中有关多模式 GPT-4 模型的演示,介绍了最新的大规模语言模型中的指令调整、多模态空间的扩展,以及如何用开源资源构建多模态 GPT-4 模型的最小原型等热门话题。
- INSTRUCTEVAL:面向指导调整的大语言模型的全面评估
INSTRUCTEVAL 是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。