BriefGPT.xyz
Ask
alpha
关键词
value
搜索结果 - 4
大型语言模型的多参考偏好优化
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MR
→
PDF
a month ago
重新思考和重新计算机器学习模型的价值
本文指出机器学习模型在组织或社会环境中的应用为人们提供价值,因此应该重新评估和选择模型。同时,强调了学习和评估中的价值观念应该起到至关重要的作用,并且不同的模型需要在不同的应用环境中学习和提供不同的价值。最后,提出了这种新的视角和方法对实验
→
PDF
2 years ago
MM
人工智能与大数据的知识复用价值框架
提出了一个概念框架来描述和管理人工智能 - 大数据环境中价值的多样性和不确定性,并基于抽象和高度可伸缩的定义来设计框架,以支持商业智能评估人工智能 - 大数据项目的影响。
PDF
3 years ago
长期强化学习是否比短期强化学习更困难?
通过构建 ε- 网络和在线轨迹合成算法,证明纯表格的情况下,对于每个长度的规划时间,可以通过对数级的样本复杂度在多项式时间内发现适当规范化后的最佳策略,从而证明了一个假设,即规划时间的增加并不会增加学习长时序的 RW 的难度。
PDF
4 years ago
Prev
Next