assessment methods | BriefGPT

关键词assessment methods

搜索结果 - 5

大型语言模型的基准数据污染：调查
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。
PDFa month ago
大型语言模型在学生论文评价中的应用
本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相
PDFa month ago
探索神经模型分类鲁棒性的精确观察
深度学习和鲁棒性在安全关键应用中的测评方法以及概率鲁棒性的权衡和使用条件进行了比较分析，提出了一种基于假设检验的直观实用测量标准，并将其整合到 TorchAttacks 库中，为对模型鲁棒性的理解做出了贡献。
PDF2 months ago
LLM 作为法官是否稳健？对零样本 LLM 评估进行普适对抗攻击研究
LLM 评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。
PDF4 months ago
基于创造性视角的大型语言模型幻觉调查
大型语言模型（LLM）中的幻觉被视为限制，但是它们是否也可能是创造力的源泉？本研究探讨了这个可能性，认为幻觉可能通过促进创造力来促进 LLM 应用。通过回顾幻觉的分类及其对 LLM 在关键应用中可靠性的负面影响的调查，本研究开始讨论幻觉在
PDF5 months ago