Oct, 2023
无眠多臂赌博中的零样本学习
Towards Zero Shot Learning in Restless Multi-armed Bandits
Yunfan Zhao, Nikhil Behari, Edward Hughes, Edwin Zhang, Dheeraj Nagaraj...
TL;DR提出了一种基于神经网络的预训练模型(PreFeRMAB),具备广泛的零样本能力,能够更加高效地在特定实例上进行微调,同时适用于离散或连续状态空间的多动作问题,解决了以往研究中在处理连续状态时需要重新训练等限制,拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。