- 探索因果世界:通过知识转移和课程学习增强机器人操纵能力
使用强化学习训练三指机械臂的复杂任务,通过 fine-tuning 和 curriculum learning 的知识迁移策略提高学习效率和效果,并研究两种学习策略的关键因素及其效果,以应用于更广泛的基于学习的工程应用。
- FlyKD: 利用课程学习在飞行中进行图知识蒸馏
FlyKD 通过生成几乎无限数量的伪标签,并结合课程学习来改善优化过程,超越了普通的知识蒸馏和 LSPGCN,同时揭示了改善优化过程的新研究方向。
- 基于去噪任务难度的浸润模型训练的课程学习
通过对任务困难度、收敛行为和概率分布间相对熵的变化进行综合观察,我们发现较早的时间步骤的去噪任务存在收敛缓慢和相对熵高的挑战,因此我们提出了一个易难混合的学习方案,借鉴了课程学习的思想,在训练过程中将时间步骤或噪声水平划分为难度递减的簇,并 - 基于保持图模式的图神经网络与课程学习的金融违约预测
通过设计模式保持的图神经网络与课程学习 (MotifGNN),本研究提出了一种预测用户财务违约的方法,以同时学习原始图的低阶结构和基于多视图模式的图的高阶结构,以解决之前方法在面对信息有限用户时无法满足预测需求的问题。
- COLINGPopALM: 社交媒体热门响应预测的受欢迎的语言模型
社交媒体平台上的流行回应预测研究中,采用强化学习,利用 Popularity-Aligned Language Models (PopALM) 区分受更多用户喜欢的回应,并通过曲线教学以帮助模型捕捉重要的训练样本,实验证明 PopALM 能 - COLING课程学习结合有向无环图进行多模态情感识别
本文提出了一种多模态对话情感识别的新方法 MultiDAG+CL,该方法利用有向无环图 (DAG) 在统一框架中集成了文本、声学和视觉特征。该模型通过课程学习 (Curriculum Learning) 改善了情感变化和数据不平衡的挑战,逐 - 统计课程学习:一种能实现预言风险的淘汰算法
我们提出了一种统计版本的课程学习(CL)方法,对参数预测问题进行建模。我们考虑三种不同的学习者类型,并提出了一种自适应多重淘汰回合的 CL 算法,用于估计目标参数向量,并确定其风险与弱预言者学习器的风险是否匹配。我们还研究了实例相关的极小极 - 基于数据分布的课程学习
提出一种名为基于数据分布的课程学习(DDCL)的新型课程学习方法,通过评分方法确定训练样本的顺序,实验证明 DDCL 方法相对于无课程的标准评估,对多个数据集应用时,改善了平均分类准确率,并且通过错误损失分析表明,在单个训练时期,使用 DD - 定时奇异 - 深度动态 Q: 对话策略学习的高效探索
基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。
- YODA:面向语言模型的师生渐进学习
通过模仿师生教育过程进行优化,本论文引入了 YODA,一种新颖的师生渐进式学习框架,来提高模型微调的效果。实验证明,使用 YODA 的数据训练 LLaMA2 在数学推理方面可以显著提高性能,并且使用课程学习进一步提高了学习的鲁棒性。
- 通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别
该研究探索了使用单个模型的句子级多语种视觉语音识别,通过将视觉语音单元离散化作为输入,基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练,结合曲线学习改善语音识别中的视觉信息缺失,实现了与以往特定语言视觉语音识别 - 众筹计数的课程 -- 值得吗?
本研究通过 112 个实验证明,课程学习(Curriculum Learning)在使用密度估计方法进行人群计数时,可提高模型学习性能和收敛时间。
- GLIDE-RL: 基于强化学习的通过演示进行语言指导
通过多个教师 - 学生代理的课程学习框架,GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法,通过利用强化学习、课程学习、连续学习和语言模型的进展,能够适应以前未见过的语言指令并验证了其有效性。
- 从确定到不确定的回答:针对视频问答的不确定性感知课程学习
通过在课程学习(CL)框架中逐步训练模型,将 VideoQA 引入其中,并通过不同类型的不确定性引导困难度的动态调整,本论文提出了增强模型泛化能力的可能性,并通过综合实验验证了该方法的有效性。
- 课程设计助力脉冲神经网络对时间序列进行分类
利用课程学习设计一种名为 CSNN 的新方法,研究其对脉冲神经网络(SNNs)的作用,实验证明课程学习对 SNNs 的影响比 ANNs 更为积极,可以通过增加网络稀疏性、神经元的激活状态、抗噪能力和收敛速度来提高约 3% 的 SNNs 准确 - 通过自动课程学习的多智能体追逐任务求解器
本研究介绍了一种结合强化学习和课程学习的灵活求解器(TaskFlex Solver,TFS),能够在二维和三维场景中解决具有多样和动态任务条件的多智能体追捕问题,通过构建基于训练进展的任务分布来提高训练效率和最终性能。实验表明,TFS 在不 - 多智能体强化学习中的协作课程学习
在多智能体环境中,通过使用降低技能水平的协作队友为学习代理制定学习课程,能够同时实现任务完成与整体团队奖励最优。
- 基于贝叶斯优化的课程学习提升自主驾驶深度强化学习方法的环境鲁棒性
通过贝叶斯优化进行概率推理的课程学习方法在自主赛车避障领域表现优于基准的深度强化学习代理与手工设计的课程。
- 强化学习增强的 Pareto 包络:大规模受限压水堆优化的多目标强化学习方法
通过引入 PEARL 方法,该论文解决了多目标问题在工程学领域中评估候选解的耗时问题,并通过学习单一策略替代传统基于策略的多目标强化学习方法,实现了同时解决简单子问题而无需多个神经网络的目标。
- iDesigner: 高分辨率复杂提示下的文本到图像扩散模型的室内设计
我们在设计领域收集和优化文本 - 图像数据,并在开源 CLIP 模型的基础上进行中英文训练。我们还提出了一种利用课程学习和基于 CLIP 反馈的强化学习的精细调整策略,以提高我们方法的提示追随能力,从而改善图像生成的质量。根据收集的数据集进