May, 2025
CodeMixBench:基于混合代码提示评估大型语言模型的代码生成能力
CodeMixBench: Evaluating Large Language Models on Code Generation with
Code-Mixed Prompts
TL;DR本研究针对现有基准未能考虑多语言开发者在与大型语言模型互动时使用混合语言的情况,提出了CodeMixBench基准,以评估模型在混合代码提示下的鲁棒性。通过介绍受控代码混合(CMD),研究揭示了混合提示使得模型性能下降的现象,尤其是对于较小的模型,指出了多语言代码生成的挑战及未来发展方向。