BriefGPT.xyz
大模型
Ask
alpha
关键词
training tasks
搜索结果 - 3
用学习对手稳定非监督环境设计
训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。
PDF
10 months ago
有限训练任务下的元强化学习 —— 一种密度估计方法
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
PDF
2 years ago
ACL
轻量级跨语言句子表示学习
本文介绍了一种轻量级双变压器体系结构,用于生成记忆高效的跨语言句子表示。同时,还提出了一种新的跨语言语言模型,并引入了两个计算良好的句子级对比学习任务,以提高跨语言句子表示空间的对齐度,从而补偿生成任务的学习瓶颈。实验结果表明,在跨语言句子
→
PDF
3 years ago
Prev
Next