BriefGPT.xyz
Ask
alpha
关键词
multi-round interactions
搜索结果 - 3
Reflect-RL: 用于语言模型的两人在线强化学习微调
使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型,通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性,并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。
PDF
5 months ago
透过最优控制的镜头看待提示工程
为解决复杂任务并提升人机交互效率,本研究通过最优控制框架,提出了多轮与大型语言模型的交互技术,包括扩展到多个回合的交互、合奏方法和多智能体协作,以系统化现有的 Prompt Engineering 方法,并探索理论挑战和更有效、可解释的方法
→
PDF
8 months ago
CVPR
用于高效交互式视频物体分割的记忆聚合网络
本研究提出了一种称为记忆聚合网络的统一框架,以更高效的方式解决交互式视频对象分割的问题,通过将交互和传播操作整合到单个网络中,并提出一种简单而有效的记忆聚合机制,大大提高了发现有挑战性的感兴趣对象的鲁棒性。在 DAVIS Challenge
→
PDF
4 years ago
Prev
Next