BriefGPT.xyz
大模型
Ask
alpha
关键词
zero-shot generalisation
搜索结果 - 5
技能感知的互信息优化在强化学习中的泛化
为了提高元强化学习代理的泛化能力,在不同任务中辨别上下文嵌入以执行不同的技能,该研究引入了技能感知的互信息目标,通过技能感知的噪声对比估计来优化该目标,并在实验中验证了其能够实现对未见任务的零 - shot 泛化,以及对样本数量减少的鲁棒性
→
PDF
a month ago
多相机强化学习的多视角解缠
使用多个摄像机同时进行训练,以及利用多个摄像机的不同视角信息来提高增强学习的性能,我们提出了一种名为多视图解缠(MVD)的方法,通过学习来自多个摄像机的策略以实现对训练集中任意单个摄像机的无需示范泛化能力。
PDF
2 months ago
ICED:通过上下文环境设计在强化学习中实现零 - shot 转移
通过对深度强化学习的自主代理进行研究,发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息,提出了一种新的理论解释适应性采样策略的合理性;另外,引入了上下文环境设计(ICED)方法,通过使用训练好的变分自动编码
→
PDF
5 months ago
深度强化学习中的层级采样过程对零样本推广的影响
通过采用非均匀采样策略和自监督环境设计方法,解决深度强化学习中自主代理在新环境中泛化能力有限的问题。
PDF
9 months ago
教小型语言模型如何推广到未见过的组合问题
我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法,并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。
PDF
a year ago
Prev
Next