BriefGPT.xyz
Ask
alpha
关键词
llm finetuning
搜索结果 - 3
对基于单词奖励引导的文本生成进行批判性研究
大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过 LLM 微调,它们使用在
→
PDF
a month ago
MathChat:多轮交互中数学推理和指令遵循的基准评估
这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的 MathChat 基准测试,并观察到这些模型在单回合问题回答方面表现出色,但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发 MathChat sync 这样一
→
PDF
a month ago
BLSP-KD:通过知识蒸馏引导语言 - 语音预训练
通过知识蒸馏,BLSP-KD 通过两个关键技术来优化语音 - 文本对齐质量,实现细粒度对齐,同时还引入了 LLM 的适应方法 PLoRA,通过定量评估说明了 BLSP-KD 在扩展 LLMs 到口语交互方面的优势。
PDF
a month ago
Prev
Next