supervised fine-tuning | BriefGPT

关键词supervised fine-tuning

搜索结果 - 89

ICML文本序列化与传统表格机器学习范式的关系
最近的研究探讨了语言模型如何在表格机器学习任务中用作特征表示和预测的方法，通过使用文本串行化和有监督的微调技术，我们评估了这些新兴的语言模型技术与传统模式在表格机器学习中的适用性和可靠性，并调查了数据表示和整理方式对预测性能的影响。结果显示
PDF11 days ago
超越答案所学：基于反思的数学推理语言模型训练
监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。
PDF13 days ago
大型语言模型作为软性推理器的系统分析：以三段论推理为例
我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调
PDF13 days ago
训练代码大型语言模型时，揭示监督微调和强化学习之间的相关性
通过综合消融研究，我们发现：（1）原子函数和合成函数对于 SFT 的泛化至关重要，仅少量合成函数即可；（2）通过 RL，即使使用相同的训练提示，可以极大增强 SFT 对目标领域的泛化能力；（3）从头开始训练 RL 可以减轻 SFT 阶段引入
PDF16 days ago
什么是最好的模型？用于大型语言模型的应用驱动评估
通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。
PDF16 days ago
PLUM: 偏好学习加测试用例产生更好的代码语言模型
PLUM 是一个增加了针对代码 LM 的测试用例的偏好学习框架，它通过三个阶段的实验表明，PLUM 显著提高了现有代码 LM 在代码生成任务中的性能，并与监督微调阶段相互协作产生协同效应。
PDF19 days ago
鹦鹉：多语言视觉指令调整
Parrot 是一种新方法，利用文本指导在语言级别驱动视觉令牌对齐，以增强多语言大型语言模型的多模态能力，并提供了一个大规模多语言多模态基准测试数据集（MMMB）。
PDFa month ago
基于 Bert、Roberta 和 Xlnet 的分子性质预测集成模型
提出了一种新的方法，通过集成学习和 BERT、RoBERTa 和 XLNet 的监督微调，无需进行大量预训练即可高精度预测分子属性，解决了实验组面临的计算资源有限的问题，提供了一种具有成本效益和资源高效的解决方案，可能推进分子领域的进一步研
PDFa month ago
利用图像理解的自我训练增强大型视觉语言模型
采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。
PDFa month ago
指令 CP：将大型语言模型快速转换为目标语言
通过 Instruction Continual Pre-training (InsCP) 的方法，可以在维持对话能力的同时，将大型语言模型（LLMs）调整为适应其他语言，从而避免对有害内容过滤的能力下降，且只需要 0.1 十亿个高质量的指
PDFa month ago
从人类演示中学习奖励优化 SFT 数据：提高 LLM 对齐的方法
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法，通过学习奖励模型来代替直接使用人类示范数据，并且在整个对齐过程中从始至终地利用奖励学习，取得了显著的性能提升。
PDFa month ago
自动为涵盖不同粒度的 LLLs 生成大量上下文驱动的 SFT 数据
通过创造高质量的查询 - 回应对，我们引入了一种名为 AugCon 的新方法，能够自动生成多个层次上的具有高多样性、质量和准确性的上下文驱动的 SFT 数据。实验证明 AugCon 在生成高多样性、质量和准确性的 SFT 数据方面具有明显优
PDFa month ago
ACL分散 - 合并：通过减少对齐税来推动指令调优的极限
通过我们的研究，我们提出一个假设：数据偏差可能是大型语言模型在细调过程的后期出现性能下降的原因之一。为了解决这个问题，我们引入了一个简单的分散然后合并的框架。尽管简单，我们的框架在一系列标准的知识和推理基准测试中优于各种复杂的方法。
PDFa month ago
直觉微调：将 SFT 和 RLHF 统一为单一流程
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型（LMs）能力的两个基本过程，它们可以更好地与人类偏好相一致，然
PDFa month ago
NIFTY 金融新闻头条数据集
介绍并公开提供了 NIFTY 金融新闻头条数据集，旨在促进和推进利用大型语言模型（LLMs）进行金融市场预测的研究。该数据集包含两个针对不同建模方法的版本：NIFTY-LM 和 NIFTY-RL。每个版本都提供了经过筛选和排名、附带全面元数
PDFa month ago
RLHF 工作流程：从奖励建模到在线强化学习
我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代 RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代 RLHF 方法。
PDF2 months ago
意大利语的先进基于自然的交互：LLaMAntino-3-ANITA
为了推进意大利语的自然语言处理，我们引入了一种基于新型 Meta LLaMA-3 模型的最先进的大型语言模型（LLM）: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA。我们使用英语和意大利语语料库上的监督微调（SFT
PDF2 months ago
对新知识进行细调的 LLMs 是否鼓励产生幻觉？
大型语言模型在通过有监督微调对齐时，会遇到并未通过预训练获得的新的事实信息，从而可能教会模型产生虚假的事实错误响应，导致模型训练生成不基于其现有知识的事实。本研究旨在研究这种新知识暴露对经过微调的模型利用其现有知识的影响。我们设计了一个可控
PDF2 months ago
Open-SQL 框架：在开源大型语言模型上增强文本到 SQL 转换
我们提出了一种针对开源大型语言模型在 Text-to-SQL 任务中的上下文理解和响应连贯性问题的系统方法，包括对开源大型语言模型在 Text-to-SQL 任务中的全面评估，以及用于有效问题表示的 openprompt 策略、监督微调的新
PDF2 months ago
ACL利用大型语言模型检测德语泰勒克通道中超越关键词偏见的阴谋论
使用 BERT-like 模型和 prompt-based 方法（Llama2、GPT-3.5 和 GPT-4）来检测德语 Telegram 消息中的阴谋论，结果表明两种方法都是有效的，最佳模型是 GPT-4，具有自定义的阴谋论定义。
PDF2 months ago