Nov, 2023

BLT:大型语言模型能应对基础法律文本吗?

TL;DR公开可获得的最好的 LLM(如 GPT-4 和 PaLM 2)在律师或律师助理所需的基本文本处理方面表现不佳,我们引入了一个基准来量化这种不良表现,这对于目前的 LLMs 在法律实践中的可靠性提出了疑问。为这些任务进行微调使得一种旧的 LLM 在我们的测试集上接近完美的表现,并提高了与法律相关的任务的表现。这个鲜明的结果凸显了在 LLM 训练中需要更多的领域专业知识。