提高语言学习聊天机器人的对话质量：对 GPT4 进行 ASR 错误修正的评估

Jul, 2023

提高语言学习聊天机器人的对话质量：对 GPT4 进行 ASR 错误修正的评估

Enhancing conversational quality in language learning chatbots: An evaluation of GPT4 for ASR error correction

Long Mai, Julie Carson-Berndsen

TL;DR本文探讨在对话环境中使用 GPT4 进行 ASR 错误校正，通过使用语义文本相似度和下一回应的合理性评估错误校正模型对对话质量的影响，我们发现 GPT4 矫正的转录虽然会增加词错误率，但会导致更高的对话质量，且无需领域内训练数据。

Abstract

The integration of natural language processing (NLP) technologies into educational applications has shown promising results, particularly in the language learning domain. Recently, many →

natural language processing educational applications spoken open-domain chatbots asr error correction conversation quality

发现论文，激发创造

生成式大型语言模型能否执行 ASR 错误校正？

本文使用 ChatGPT 模型作为例子，研究其在零样本或一次样本设置中执行 ASR 错误校正的能力，并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明，使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性能。

Jul, 2023

GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析

研究发现，提供具体及时的反馈可以提高人类导师的表现，但由于评估导师表现的时间消耗性质，给出具体及时的反馈存在挑战，然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。这项工作在导师 - 学生模式下评估了由 GPT-4 生成的 30 次对话，并将两种不同的提示方法进行比较：零 - shot 思维链和少 - shot 思维链，以识别基于五个标准的有效赞扬的具体组成部分，并通过与人类评分员的结果进行比较来评估 GPT-4 是否能够准确识别每个赞扬标准。研究发现，零 - shot 和少 - shot 思维链方法产生了相似的结果。 GPT-4 在识别导师提供具体和即时赞扬的情况下表现良好，但在识别导师提供真诚赞扬的能力方面表现不佳，尤其是在没有提供真诚导师赞扬语句的零 - shot 提示场景中。未来的研究将着重于增强提示工程，开发更普遍的导师评分表，并使用实际的导师对话来进行评估。

Jul, 2023

ChatGPT 还是 Grammarly？评估 ChatGPT 在语法错误更正基准上的性能

本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现，通过与 Grammarly 和 GECToR 等商业和先进模型比较，发现 ChatGPT 在自动评估指标上表现较弱，但经过人工评估，发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性，这表明自动评估指标低估了 ChatGPT 工具的潜力。

Mar, 2023

Gpt-4: 自然语言处理中的进展与机遇综述

OpenAI 开发的第四代 GPT 系列语言模型 GPT-4，具有更强的多语种能力、上下文理解能力和推理能力，可以应用于聊天机器人、个人助理、语言翻译、文本摘要和问答等领域，但也存在计算需求、数据需求和伦理问题等挑战。

May, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT 是否为高度流利的语法错误修正系统？一项全面评估

本文旨在探究 ChatGPT 在语法错误修复领域的潜力，通过设计零样本连贯性（CoT）和少样本 CoT 方案来进行评估，并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外，作者强调其在低资源和多语言 GEC 任务中的潜力，但是需要进一步分析各种类型的跨句子错误，并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。

Apr, 2023

ChatGPT-4 作为评审西班牙学术书籍的工具

ChatGPT-4 作为一种编辑工具被评估其在西班牙文学和学术书籍中的潜力，研究分析了 ChatGPT-4 在语法纠正、文体连贯性和西班牙文本语义丰富性方面的特点和能力，并发现 ChatGPT-4 在语法和拼写纠正方面具有高准确性和快速性，但在上下文敏感性、文献计量分析、深层语境理解和与视觉内容（如图表）的互动等领域仍面临挑战。然而，研究认为 ChatGPT-4 与人类审核员和编辑之间的合作可以提高效率而不降低质量。此外，作者认为 ChatGPT-4 在编辑过程中是一种有价值的工具，但其使用应与人类编辑员的工作相辅相成，以确保西班牙文学和学术书籍的高质量编辑。

Sep, 2023

ChatGPT 的回复能提升传统自然语言处理吗？

在本文中，研究人员探索了 ChatGPT 的新颖知识，在融合现有的自然语言处理技术时，如早期或晚期融合，增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。

Jul, 2023

神经开放域对话系统在对话历史的语音识别错误中是否具有鲁棒性？实证研究

本文研究了 Generative Pre-trained Transformer 模型训练过程中不同类型的合成和真实的 ASR 假设对于模型的影响，并提出一种基线缓解策略。结果表明，模型在创作过程中，对话历史中引入 ASR 假设很敏感。因此，需要进一步探索增强神经聊天机器人语音健壮性的技术。

Aug, 2020

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023