一种稳健的逆优化效用学习框架
本研究提出了一种基于偏好学习方法的离线学习效用函数的优化算法,不仅可以使用关于结果的偏好,还可以使用效用函数空间的粗略信息,尤其在使用很少的结果时有助于提高效用函数的估计精度,并且可以结合模型来考虑效用函数学习任务中发生的不确定性。
Aug, 2022
本文提出了一种生成对抗网络方法,用于在普遍和现实环境中近似解决鲁棒效用优化问题,该方法适用于任何连续效用函数,能够在存在交易成本的实际市场环境中使用可观测市场信息进行训练,并表现出与最优参考策略相当的性能,并且对于没有已知最优策略的情况下,该方法优于所有其他参考策略。此外,该文还揭示了在具有交易成本的情况下,学习最优(非)鲁棒投资的生成方法能够生成可以广泛应用于理想化环境的渐近策略的替代选择。
Mar, 2024
本文研究了基于成本敏感的多保真贝叶斯优化算法用于高效的超参数优化问题,引入了用户预定义的效用函数来描述成本和性能之间的权衡,并提出了一种新的获取函数和停止准则以动态选择每个步骤的最佳配置,并最大程度地提高未来效用,同时自动终止优化过程,通过转移学习提高学习曲线外推方法的样本效率,能够捕捉不同配置之间的相关性,为多保真贝叶斯优化提供合理的代理函数,并在各种学习曲线数据集上验证算法,优于现有基线方法,实现更好的成本和性能的权衡。
May, 2024
本文提出一种游戏化方法作为智能建筑基础设施的新框架,旨在激励人类占用者重新考虑个人能源使用并对其环境产生积极影响。我们引入了一种以博弈论为基础的策略,在建筑管理员与占用者之间创建接口,可能会激励节能行为,运用新型效用学习框架提高预测性能,通过双向递归神经网络扩展效用学习模式进行优化,最后我们还开源了与能源博弈论框架有关的去匿名化的高维数据。
Oct, 2019
提出了一种基于 Angluin 等人的等效查询模型和 Littlestone 的在线学习模型的交互式学习模型的一般框架,旨在利用少数迭代来学习地面真实模型,该模型基于图表示和用户反馈,但是这不一定要求相应的权重在信息安全的环境下 100% 正确。
Oct, 2017
本文探讨了如何从单调偏好数据中学习效用函数,提供了用于多种重要类别的样本复杂度保证和有效算法,并使用最近多类学习的进展和有关线性价格模型的紧密联系,提出了一种解决线性效用函数学习问题的高效算法。(Sample complexity guarantees and efficient algorithms are provided for learning utility function from revealed preference data, and a computationally efficient algorithm with tight sample complexity guarantees is proposed for learning linear utility functions under a linear price model).
Jul, 2014
在实际医疗问题中,经常存在着多个竞争性的关注点,如治疗效果和副作用严重程度。本研究提出了一种新的方法,称为隐性效用 Q 学习(LUQ-Learning),来解决现有方法在评估复合结果时存在的限制,包括对单一时间点和两个结果的约束、无法纳入患者自述的偏好和有限的理论保证。我们的方法在模拟实验中表现优异,并与多个替代方案相比具有高度竞争的实证表现。
Jul, 2023
在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
Nov, 2023
本研究提出一种旨在平衡公平性和实用性的机器学习分类任务的独特解决方案,它利用贝叶斯学习估计样本预测的不确定性,并通过不确定性量化来定义新型的公平性 - 效用目标,从而实现同时优化公平性和实用性。实证研究发现,具有低分类不确定性的样本比高不确定性的样本更准确、更公平。实验结果表明,该方法在公平性和实用性平衡方面表现优异,并有望在机器学习中实现最佳公平性和实用性。
Apr, 2023
本研究提出了一种新的贝叶斯优化框架,用于考虑输入不确定性的多目标优化,包括鲁棒性的量化和搜索一个鲁棒的帕累托前沿,并通过数值基准测试证明了其有效性。
Feb, 2022