Jun, 2024

Hints-In-Browser:针对编程反馈生成的语言模型基准测试

TL;DR通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。