Sep, 2023

大型语言模型对齐:一项调查

TL;DR大型语言模型(LLMs)的对齐方法研究,包括外部和内部对齐方法,探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法,并展望了未来的研究方向。