- 使用微调和多元回归的自动作文多维评分
我们开发了两个模型,通过对两个大型数据集进行微调和其他策略,自动评分英文文章的多个维度,结果显示我们的系统在精确度、F1 得分和 Quadratic Weighted Kappa 三个标准下取得了卓越的性能,并且在整体评分中优于现有方法。
- 超越一致性:基于语言信息支持的反事实分析,诊断自动化作文评分方法的合理性对齐
使用大型语言模型辅助对反事实干预的改进方法揭示了自动作文评分方法在评分机制上的不足,并展示了大型语言模型在与评分标准更全面地对齐方面的优势,同时也能识别反事实干预进行反馈,提高了对神经自动作文评分方法的理解,对其他追求模型驱动决策透明性的领 - GPT-4 能进行 L2 分析性评估吗?
通过对基于 GPT-4 的零样本公开数据集进行实验,我们观察到自动预测的分析分数与个体能力组成相关的多个特征之间存在显著相关性。
- 探索 LLM 联合作文评分和反馈生成的提示策略
通过探索多种提词策略,本研究旨在研究基于大型语言模型(LLMs)的零样本和少样本生成文章反馈的能力,发现同时处理自动化文章评分(AES)和反馈生成可以改善 AES 性能,但评分对生成的反馈质量的影响最终仍较低。
- 通过多特性专业化引导大型语言模型进行零 - shot 作文评分
借助 ChatGPT 将写作熟练度分解成不同特征,并生成每个特征的评分标准,然后利用大型语言模型在几轮对话中提取特征得分,并通过特征平均和最大最小缩放得出总体得分,实验证明 Multi Trait Specialization 在所有大型语 - COLING基于 Transformer 的联合建模:自动作文评分与离题检测
提出了一种无监督技术的自动化开放式论文评分模型,可以同时评分论文并检测离题的论文。该模型使用了一种新颖的主题正则化模块(TRM),可连接在变换器模型之上,并使用了一种混合损失函数进行训练。训练后,该模型还用于计算离题论文检测的马氏距离分数。 - ACL多特征作文打分的自回归得分生成
通过自动回归多特征分数(ArTS)的预测来取代传统的编码器方法,使用预训练的 T5 模型来在多特征自动化作文评分中提供更高的效能。
- COLING大型语言模型能否自动评估书面文章的熟练程度?
利用大型语言模型(LLMs)对写作文章进行自动评分的实验表明,虽然适当选择题目对任务和模型性质很重要,但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距,但它们提供了改善文章质量的 - ICLR基于提示的文本去噪的令人沮丧地简洁方法
本文介绍了一种对自动化作文评分任务的新视角,挑战了 ASAP 数据集作为静态实体的传统观点。通过使用提示的简单文本去噪技术,我们探索了数据集内的动态潜力。尽管承认以前对构建回归系统的重视,但我们的论文强调了通过文本去噪对数据集进行微小改动可 - DREsS: 英语外语写作基于标准评分的数据集
DREsS 是一个大规模的基于评分标准的自动作文评分数据集,包含 DREsS_New、DREsS_Std 和 DREsS_CASE 三个子数据集。该研究还提出了一种基于损坏的增强策略 CASE,通过生成 20K 个合成样本来改善基线结果 4 - 从自动化到增强:大语言模型提升作文评分领域
研究调查了大型语言模型(LLMs),特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分(AES)系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评 - 大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例
ChatGPT 以小样本的实验方法,通过对英文作文的自动评估,揭示了其在自动化作文评分方面的能力和限制,尽管结果存在回归效应,但有效的 ChatGPT 提示的设计和实施需要深厚的领域专业知识和技术能力。
- EMNLP学会欣赏勤奋的喷子:在对话安全任务中考虑评价者效应
使用自动论文评分(AES)方法,通过多个用户对话进行隐藏类别分析(LCA)来推断正确标签,从而解决了聊天机器人在协同攻击中可能遇到的高成本和一致性限制。
- FABRIC:论文自动评分与反馈生成
FABRIC 是一个自动化生成学生英语写作作文得分、具体基于规则的得分和改进建议的流水线系统,该系统在指导下选择了用于具体得分的规则,并通过实际数据集和改进策略显著提升模型准确性,最终经由教育专家和学生评价得分和建议的有效性。
- 增强训练在自动化论文评分中的具体方法
本研究提出了一系列的数据增强操作,用于训练和测试自动评分模型以学习被先前研究忽视的特征和功能,同时在 Automated Student Assessment Prize 数据集中实现了最先进的性能。
- 自动化作文评分反馈综述
发展中的自动化作文评分系统不仅旨在评分,同时可以作为一种学习工具,以改善用户的写作技能。反馈是使其在现实生活中有用的最重要的方面,并且本文回顾了有关反馈的研究,包括不同类型的反馈和自动化作文评分中的不同特征。我们还审查了提供反馈的最新案例研 - ACLPrompt - 和 Trait 感知的跨 Prompt 文章 Trait 评分
本文提出一种鲁棒的模型来预测各种特征分数,该模型考虑了文章是否符合题意,在不同题目下进行得分,使用文学 - 题意注意力机制编码文章,使用主题建模机制提取主题一致性特征,并使用特征相似损失函数计算多特征评分结果。实验证明了该模型在所有提示和特 - 神经网络自动化评分中动态损失函数的有效性
该研究利用动态损失函数建立基于神经网络和注意机制的自动化作文评分模型,能够避免回归模型预测训练样本均值的欠拟合现象,并在测试集上取得 Quadratic Weighted Kappa 得分 0.752。
- ChatGPT 和 Bard 能否生成对齐的评估题目?针对人类表现的可靠性分析
本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性,结果显示,这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。
- AAAIH-AES:针对印地语的自动化作文评分
研究了使用自然语言处理 (NLP) 进行自动文章评分 (AES) 在英语中被广泛探索,而在印地语等低资源语言中尚未被探索的现状,并在印地语领域复现和比较了 AES 的最新方法。