关键词fine-tuning approaches
搜索结果 - 7
- RLSF: 强化学习来自符号反馈
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
- 探索大型语言模型的领域、技术与挑战
对于大型语言模型(LLMs)的研究,包括基本原理、应用领域以及训练过程,本综述论文对于上下文学习、多种微调方法以及参数使用效率优化等机制进行探讨,同时深入研究了如何通过创新的强化学习框架和融入人类反馈的新方法来更好地与人类偏好相统一的问题。 - 评估大型语言模型中的时间信息和推理技能
大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。 - 大型语言模型也是优秀的原型常识推理器
通过优化任务提示和生成多样化的链式推理和知识,该研究在 ProtoQA 数据集上实现了新的高分,并提供了对大型语言模型的解释,为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。
- 在跨语言迁移范式中衡量灾难性遗忘:探索调整策略
比较两种基于适配器方法和参数微调的跨语言迁移策略,评估其在少资源语言中的性能和跨语言知识遗忘情况,并发现中间训练策略在目标语言上表现优于跨语言验证策略。
- 无监督视觉语言模型的原型适配器
我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法,通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本,并利用这些选择的样本生成类别原型,用 - 利用基于 RGB 的 CLIP 视觉语言模型在卫星图像中检测云的存在
该研究探讨了预训练的 CLIP 视觉 - 语言模型在识别受云影响的卫星图像方面的能力。提出并评估了几种使用该模型进行云存在性检测的方法,包括纯零样本操作和几种微调方法。此外,测试了这些方法在不同数据集和传感器类型(Sentinel-2 和