基于 GPT 的文本规范化研究

Sep, 2023

A Chat About Boring Problems: Studying GPT-based text normalization

Yang Zhang, Travis M. Bartley, Mariana Graterol-Fuenmayor, Vitaly Lavrukhin, Evelina Bakhturina...

TL;DR通过自洽性推理和语言学提示工程，我们发现基于大型语言模型（LLM）的文本规范化能够实现比顶级规范化系统低约 40％的错误率，并据此发现了传统文本规范化任务设计中的关键限制。我们创建了一个新的文本规范化错误分类系统，并应用于 GPT-3.5-Turbo 和 GPT-4.0 的结果，从而可以识别出基于 GPT 的 TN 的优势和劣势，为未来的研究提供了机会。

Abstract

text normalization - the conversion of text from written to spoken form - is traditionally assumed to be an ill-formed task for language models. In this work, we argue otherwise. We empirically show the capacity

text normalization language models large-language models self-consistency reasoning linguistic-informed prompt engineering

发现论文，激发创造

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023

非自然错误纠正：GPT-4 几乎能够完美处理非自然混乱文本

在这项研究中，我们提出了新颖的实验见解，揭示了大型语言模型（LLMs）的韧性，特别是 GPT-4，在经历大规模字符级排列混乱时。我们设计了 Scrambled Bench 套件来评估 LLMs 处理乱序输入的能力，包括恢复乱序句子和回答给定乱序上下文的问题。实验结果表明，大多数强大的 LLMs 表现出类似 typoglycemia 的能力，即在单词中的字母被乱序时，只要首尾字母位置不变，人们仍能理解其含义。令人惊讶的是，我们发现只有 GPT-4 几乎完美地处理具有不自然错误的输入，甚至在极端情况下也能如此，这对其他 LLMs 和甚至人类来说都是巨大的挑战。具体来说，GPT-4 几乎可以将乱序的句子完美地重建为原始句子，编辑距离降低了 95%，即使每个单词中的所有字母都被完全乱序。令人意想不到的是，尽管乱序文本导致了输入标记化的严重混乱，但 LLMs 仍然表现出如此强大的韧性。

Nov, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

基于算法问题的 GPT-4 评测：对提示策略的系统评估

GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性，证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。

Feb, 2024

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

大型语言模型的有约束文本生成的综合评估

通过在大型语言模型中引入详细的约束条件，本研究调查了约束文本生成的问题，并对多个语言模型进行了分类和评估，旨在为未来的约束文本生成提供启示。

Oct, 2023