大型语言模型是否仍存在纠正问题?
本文使用 ChatGPT 模型作为例子,研究其在零样本或一次样本设置中执行 ASR 错误校正的能力,并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明,使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性能。
Jul, 2023
对 ChatGPT 进行中文文本纠错的评估,发现 ChatGPT 在中文文本纠错中表现出令人惊讶的性能,但也存在一些不令人满意的问题。
Jul, 2023
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
通过自洽性推理和语言学提示工程,我们发现基于大型语言模型(LLM)的文本规范化能够实现比顶级规范化系统低约 40%的错误率,并据此发现了传统文本规范化任务设计中的关键限制。我们创建了一个新的文本规范化错误分类系统,并应用于 GPT-3.5-Turbo 和 GPT-4.0 的结果,从而可以识别出基于 GPT 的 TN 的优势和劣势,为未来的研究提供了机会。
Sep, 2023
通过使用两步式流程,我们提出了一个用于语法错误解释的系统,该系统可以对每个语法错误提供一句解释,并通过分析 GPT-4 在语法错误解释方面的能力,提高了错误解释的准确性。我们的研究还评估了使用我们的系统处理德语和中文语法错误纠正数据的效果,并得出结论该系统可以高效地生成正确的解释,为德语和中文的学习者提供帮助。最后,我们决定开源我们的数据和代码,以鼓励该领域的进一步研究。
Nov, 2023
本文研究了大型语言模型在以 AI 为驱动的语言教学和评估系统中的潜在应用,探讨了几个研究领域,并讨论了与语言学习者相关的基于生成式 AI 的风险和伦理考虑。
Jul, 2023
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
在这项研究中,我们提出了新颖的实验见解,揭示了大型语言模型(LLMs)的韧性,特别是 GPT-4,在经历大规模字符级排列混乱时。我们设计了 Scrambled Bench 套件来评估 LLMs 处理乱序输入的能力,包括恢复乱序句子和回答给定乱序上下文的问题。实验结果表明,大多数强大的 LLMs 表现出类似 typoglycemia 的能力,即在单词中的字母被乱序时,只要首尾字母位置不变,人们仍能理解其含义。令人惊讶的是,我们发现只有 GPT-4 几乎完美地处理具有不自然错误的输入,甚至在极端情况下也能如此,这对其他 LLMs 和甚至人类来说都是巨大的挑战。具体来说,GPT-4 几乎可以将乱序的句子完美地重建为原始句子,编辑距离降低了 95%,即使每个单词中的所有字母都被完全乱序。令人意想不到的是,尽管乱序文本导致了输入标记化的严重混乱,但 LLMs 仍然表现出如此强大的韧性。
Nov, 2023