Oct, 2023

无眠多臂赌博中的零样本学习

TL;DR提出了一种基于神经网络的预训练模型(PreFeRMAB),具备广泛的零样本能力,能够更加高效地在特定实例上进行微调,同时适用于离散或连续状态空间的多动作问题,解决了以往研究中在处理连续状态时需要重新训练等限制,拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。