Jun, 2023

深度语言网络:使用变分推断联合训练堆叠的LLMs

TL;DR本文提出了 Deep Language Network (DLN) 架构,通过 prompt 优化和变分推理算法,实现了运用较小、较弱 LLM 实现高性能的语言模型,以及进行 few-shot learning 的相关研究。