Jul, 2024

ConCodeEval:评估领域特定语言中大型语言模型对代码约束的性能

TL;DR使用硬约束和软约束作为代码在五种不同表示形式下来评估大型语言模型的可控性,研究发现无论是在预训练数据中的占比如何,大型语言模型都难以理解所有表示形式中的约束,尤其对XML和资源丰富的Python这两种表示形式的约束理解较差。