Dec, 2023

竞赛级问题对 LLMs 的有效性评估

TL;DR评估大语言模型在 Codeforces 编程问题上的推理能力,发现了潜在的数据污染问题,并探索了多种方法来解决这些挑战,强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。