Jan, 2024

从面向语言到紧急沟通的知识蒸馏:针对多智能体远程控制

TL;DR通过使用预训练的大型语言模型,我们比较了基于多智能体深度强化学习 (MADRL) 的紧急通信 (EC) 和以人类语言为基础的语义通信 (LSC),在一个多智能体远程导航任务中,使用多模态输入数据,显示了 EC 在使用多模态数据时产生高成本和困难,而 LSC 由于 LLM 的巨大规模造成了高推理计算成本。为了解决各自的瓶颈问题,我们提出了一种通过知识蒸馏 (KD) 引导 EC 训练的语言引导 EC (LEC) 的新框架。模拟结果证实,LEC 在避开信道信号差区域的同时,实现了更快的行程时间,并且相比于 EC 加速了 MADRL 训练收敛速度达 61.8%。