- 功能融合网络
我们提出了一个模型,将对象、动作和效果统一为单一的潜在表示,在共享的感知空间中建立了被称为行动潜力空间的各种行为潜能。使用这个行动潜力空间,我们的系统能够在给定动作和对象时生成效果轨迹,并且能够在给定效果轨迹和对象时生成动作轨迹。
- 逆强化学习的新型变分下界
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler - 模仿复杂轨迹:连接低层稳定性和高层行为
我们提出了一个理论框架,用于研究非马尔可夫、潜在多模态(即 “复杂的”)专家示范在非线性动力系统中的模仿。
- 测量扩散模型在模仿人类艺术家方面的成功
现代扩散模型在人工智能图像生成中处于领先地位。本研究发现,这种成功部分归因于在互联网规模的数据上进行训练,其中包括版权作品。研究通过使用 CLIP 编码器进行艺术家的模仿,验证模型是否能够成功模仿人类艺术家。
- 模仿专有 LLM 的虚假承诺
该研究论文分析了在弱语言模型上进行迁移学习的方法,通过仿效 ChatGPT 这样的专有模型,使用较弱的开源模型来廉价模拟专有模型的功能。论文指出,目前这种方法是不可行的,最好的方法是发展更好的基础模型来提高开源模型的性能。
- 基于奖励函数相似性的选择性模仿
研究了在多个异构智能体追求不同目标或目的的情况下,模仿行为不太可能是一种有效的策略,而人们会更倾向于模仿那些他们认为与自己有相似奖励函数的人的行为,并通过归纳偏差这一方法来进行选择。
- 从人和动物行为学习可重用的机器人运动技能:模仿与再利用
本文研究使用人类和动物运动的先验知识来学习现实机器人的可重复使用的运动技能,并且实现了能够在实际机器人上部署的任务导向控制器。
- ACLTruthfulQA:衡量模型模仿人类错误的程度
提出了一种 benchmark 以衡量语言模型在生成答案时是否真实,测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型,发现最好的模型能够在 58%的问题上保持真实,建议使用不同于模仿网页文本的训练目标来进行微调以提高 - 通过隐式模仿加速强化学习
本文提出和研究了一种隐含模仿的形式模型,通过观察导师,强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息,并阐述了隐含模仿的好处,通过指导单个和多个导师来证明性能和收敛性有所提高。
- 集体意见转变理论:从平稳趋势到突发摆动
通过分析出生率、手机销售和音乐会掌声降低等数据集,运用随机场伊辛模型,研究了模仿和社会压力带来的群体效应,发现其具有标度关系 h ~ w^{-kappa},其中 kappa 取 0.62~0.71。