Jun, 2023
深度语言网络:使用变分推断联合训练堆叠的 LLMs
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference
Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler...
TL;DR本文提出了 Deep Language Network (DLN) 架构,通过 prompt 优化和变分推理算法,实现了运用较小、较弱 LLM 实现高性能的语言模型,以及进行 few-shot learning 的相关研究。