Feb, 2024

战舰开火:自然语言指导下的采样式程序提问

TL;DR使用大型语言模型生成自然语言问题,将其转化为符号程序,并评估其预期信息增益,从而在有限的认知资源下提出信息丰富的问题。结果表明,这种简单的蒙特卡洛优化策略可以在各种战舰游戏场景中产生与人类表现相似的有信息的问题,而纯语言模型则在将问题与游戏状态联系起来方面遇到一些困难。