- SMPLOlympics: 用于物理仿真人形机器人的体育环境
通过设计智能人形机器人与现有的 SMPL 和 SMPL-X 人体模型兼容,并使用现有的人体运动演示视频和运动捕捉数据,将强大的动作先验与简单的奖励相结合,使机器人在各种体育运动中表现出人类一样的行为。同时通过提供统一的体育竞技基准和状态奖励 - ALPBench: 用于表格数据上的主动学习流水线评估的基准
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方 - 受限周期性博弈中额外梯度法与乐观主义的最后收敛分离
研究了乐观法和额外梯度法在受限周期游戏中的最终迭代行为,证明了与无限制周期游戏中的收敛性类似的分离结果。
- 具有前瞻信息的强化学习
通过利用先验信息,我们设计了一种能够有效地学习和处理未知环境中的强化学习问题的算法,大大提高了收集奖励的效率。
- 基于统一学习算法形式化的带输出约束的分析
我们对神经网络模型学习算法进行了分类,并提出了一种新的算法来整合主任务信息和约束注入,同时提出了 $Heta$-score 作为度量主任务度量和约束违规的指标,在自然语言推理、合成传导示例和语义角色标记等自然语言处理任务上探索和揭示了各种 - 为了取得更好成绩而付费:学习智能体之间的游戏支付
在重复博弈中,我们研究了采用货币调节等教授动态学习策略的玩家对于行为激励的影响,包括其对学习动态、福利和分配的影响,并提出了一个简单的博弈论模型以解释这些情况。我们的研究表明,在一类广泛的博弈中,通过让学习代理在游戏动态过程中向其他玩家支付 - 从不完整数据中学习分阶段树
该研究介绍了处理缺失数据的阶梯树学习算法,通过模型的全似然性能直接估计模型,证明了在学习阶梯树时考虑不同的缺失模式是可行的。
- 指数族潜变量模型中精确推理与学习的统一理论
该论文研究了概率图模型中精确实现推断和学习的条件,并开发出相应的算法,通过展示各种示例模型的应用,最终展示了如何将这些模型组合成可处理的概率图模型。
- 算法推理方面的 ChatGPT 基准测试
ChatGPT 在 CLRS 基准套件中评估其解决算法问题的能力,结果表明 ChatGPT 能够使用 Python 优于专用的 GNN 模型成功解决这些问题,为关于使用神经网络学习算法的讨论提出了新的观点。
- 自适应采样策略暗示有偏信念:热炉效应的推广
研究旨在解释学习过程中的负性偏差现象,并表明这种负性偏差在特定设置下仍然存在,同时也存在贝叶斯学习者对替代方案预期值的低估现象。
- 马尔可夫决策过程验证学习算法
提出了一个泛用的框架,应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP),主要关注概率可达性问题,包括精确和近似的情况,不受时间限制或折扣因子等条件的限制。
- 具有显式预测器的增强学习算法
利用机器学习模型从过去和现在的数据中获得的预测,近期算法设计的先进方法已经显示出提高性能的潜力,并在预测失败时提供最坏情况保证,本文研究在线问题,着重于将学习问题与算法挑战相互整合,并设计了专为所需算法任务而量身定制的在线学习算法,通过细致 - 奖励驱动的委托代理赌博游戏中的学习
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一 - 隐私保护的分布式优化与学习
分布式优化和学习中的隐私保护方法进行了综述,介绍了密码学、差分隐私等技术,并提出利用差分隐私算法来确保隐私和优化准确性,在多个机器学习问题中得到实际应用验证。同时探讨了该研究领域的挑战和未来方向。
- 自主驾驶车辆:人工智能与学习算法的演进
自动驾驶汽车中人工智能和学习算法的进化轨迹及其在车辆自主决策能力塑造中的基础原则、伦理考虑、偏见和软件开发中的作用、以及不同级别自动化水平下的算法和任务自动化的细致用法的综合探索。
- 有界契约是否可学习和近似最优?
本文研究了基于隐藏行动模型的委托 - 代理问题,在其中委托人通过合同激励代理人参与项目。我们探讨了有界支付的合同是否可学习并近似最优。我们的主要结果是两个学习算法,可以在文献中的两个标准假设下通过多项式数量的查询找到近乎最优的有界合同。我们 - 一种用于机器学习中的高维数据集的基于对比的特征选择算法
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
- AAAI计数奖励自动机:通过利用奖励函数结构的样本高效强化学习
我们提出了一种计数奖励自动机 —— 一种能够模拟任何能以形式语言表示的奖励函数的有限状态机变体。与以前的方法不同,这些方法仅能表达任务为正则语言,而我们的框架允许通过无限制语法来描述任务。我们证明了一个配备这样抽象机器的代理能够解决比使用当 - RLHF 与 IIA:逆向激励
现有的基于人类反馈的强化学习算法基于假设无关替代物的独立性,因此可能激励与偏好相悖的响应,并且当在查询格式或学习算法上进行创新时会导致严重的行为。
- 脑启发的机器智能:神经生物学可行的信用分配综述
通过对受神经生物学启发或影响的人工神经网络中进行信用分配的算法的调查,我们提出了一个分类法,根据学习算法回答复杂自适应神经系统突触可塑性机制的核心问题的方式,整理了不断增长的大脑启发学习过程集合为六个通用家族,并在反向传播和其已知批评的背景