Apr, 2024

超越查询:通过强化学习训练更小的语言模型进行网络交互

TL;DR针对传统搜索系统在产品搜索等场景中面临的挑战,本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架,名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构,结合语言建模和价值评估模块,实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果,发现在无人示范的情况下,无监督学习方法的效果优于行为克隆方法,同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。