Apr, 2023

ChatGPT 和 Bard 能否生成对齐的评估题目?针对人类表现的可靠性分析

TL;DR本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性,结果显示,这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。