提高语言学习聊天机器人的对话质量:对 GPT4 进行 ASR 错误修正的评估
本文使用 ChatGPT 模型作为例子,研究其在零样本或一次样本设置中执行 ASR 错误校正的能力,并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明,使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性能。
Jul, 2023
研究发现,提供具体及时的反馈可以提高人类导师的表现,但由于评估导师表现的时间消耗性质,给出具体及时的反馈存在挑战,然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。 这项工作在导师 - 学生模式下评估了由 GPT-4 生成的 30 次对话,并将两种不同的提示方法进行比较:零 - shot 思维链和少 - shot 思维链,以识别基于五个标准的有效赞扬的具体组成部分,并通过与人类评分员的结果进行比较来评估 GPT-4 是否能够准确识别每个赞扬标准。研究发现,零 - shot 和少 - shot 思维链方法产生了相似的结果。 GPT-4 在识别导师提供具体和即时赞扬的情况下表现良好,但在识别导师提供真诚赞扬的能力方面表现不佳,尤其是在没有提供真诚导师赞扬语句的零 - shot 提示场景中。未来的研究将着重于增强提示工程,开发更普遍的导师评分表,并使用实际的导师对话来进行评估。
Jul, 2023
本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现,通过与 Grammarly 和 GECToR 等商业和先进模型比较,发现 ChatGPT 在自动评估指标上表现较弱,但经过人工评估,发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性,这表明自动评估指标低估了 ChatGPT 工具的潜力。
Mar, 2023
OpenAI 开发的第四代 GPT 系列语言模型 GPT-4,具有更强的多语种能力、上下文理解能力和推理能力,可以应用于聊天机器人、个人助理、语言翻译、文本摘要和问答等领域,但也存在计算需求、数据需求和伦理问题等挑战。
May, 2023
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
本文旨在探究 ChatGPT 在语法错误修复领域的潜力,通过设计零样本连贯性(CoT)和少样本 CoT 方案来进行评估,并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外,作者强调其在低资源和多语言 GEC 任务中的潜力,但是需要进一步分析各种类型的跨句子错误,并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。
Apr, 2023
ChatGPT-4 作为一种编辑工具被评估其在西班牙文学和学术书籍中的潜力,研究分析了 ChatGPT-4 在语法纠正、文体连贯性和西班牙文本语义丰富性方面的特点和能力,并发现 ChatGPT-4 在语法和拼写纠正方面具有高准确性和快速性,但在上下文敏感性、文献计量分析、深层语境理解和与视觉内容(如图表)的互动等领域仍面临挑战。然而,研究认为 ChatGPT-4 与人类审核员和编辑之间的合作可以提高效率而不降低质量。此外,作者认为 ChatGPT-4 在编辑过程中是一种有价值的工具,但其使用应与人类编辑员的工作相辅相成,以确保西班牙文学和学术书籍的高质量编辑。
Sep, 2023
在本文中,研究人员探索了 ChatGPT 的新颖知识,在融合现有的自然语言处理技术时,如早期或晚期融合,增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。
Jul, 2023
本文研究了 Generative Pre-trained Transformer 模型训练过程中不同类型的合成和真实的 ASR 假设对于模型的影响,并提出一种基线缓解策略。结果表明,模型在创作过程中,对话历史中引入 ASR 假设很敏感。因此,需要进一步探索增强神经聊天机器人语音健壮性的技术。
Aug, 2020
使用大型语言模型和一种具有连续思考特点的填充范式,提出了一种 NLG 质量评估框架,结合两种生成任务 —— 文本摘要和对话生成,使用 GPT-4 模型作为骨干模型,与以往方法相比性能更好。
Mar, 2023