BriefGPT.xyz
Ask
alpha
关键词
reward signals
搜索结果 - 2
AndroidWorld: 一个用于自主智能体动态基准测试的环境
自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理
PDF
a month ago
NIPS
对随机赌徒的对抗攻击
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法 epsilon-greedy 和 UCB 的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特
→
PDF
6 years ago
Prev
Next