ChatGPT中关于释义类型的人类理解

Jul, 2024

Towards Human Understanding of Paraphrase Types in ChatGPT

Dominik Meier, Jan Philip Wahle, Terry Ruas, Bela Gipp

TL;DRChatGPT在生成英文释义时可以处理简单的文本更改，如添加和删除，但在复杂结构（例如从属关系变化）方面表现困难。本研究旨在了解释义语言模型在理解方面取得了哪些成功，并探讨了仍有待解决的问题。此外，我们的数据集可用于开发具有特定语言能力的语言模型。

Abstract

paraphrases represent a human's intuitive ability to understand expressions presented in various different ways. Current paraphrase evaluations of language models primarily use binary approaches, offering limited interpretability of specific text changes. →

发现论文，激发创造

提高BLEU参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究BLEU误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高BLEU与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进BLEU的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高BLEU的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020

将改写生成视为零样本多语言翻译：将语义相似性从词汇和句法多样性中分离开来

通过引入简单的改进算法，不鼓励生成输入中已有的 N-grams，利用多语言神经机器翻译模型生成同义句，控制输入和输出之间的词汇多样性，人工评估表明，该方法比基于ParaBank 2的同义句生成器更好地维护意义和语法正确性，并且在两种非英语语言上也同样有效。

Aug, 2020

改述检测：人类与机器内容

本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战，探讨人工改写和机器改写之间的区别，并对常用的数据集进行综合分析和评估，结果显示自动生成文本的水平仍不及人类普及水平，适合于语义多样性语料的 TF-IDF 方法的效果最好，同时，发现了四个语义多样性和挑战性最高的数据集。

Mar, 2023

ParaAMR：一种大规模的语法多样化释义数据集，基于AMR回译得出

本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR，并证明了其在各种 NLP 应用方面的巨大潜力。

May, 2023

生成和检测的释义类型

当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分，忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点，通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明，虽然目前的技术在二元分类场景即复述或非复述上表现良好，但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色，但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外，扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。

Oct, 2023

您是一位专业的语言标注专家”：LLMs作为抽象意义表达分析器的限制

通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果，研究发现这些模型能够可靠地重现 AMR 的基本格式，并且通常能够捕捉到核心事件、论证和修饰结构，但模型的输出容易出现频繁和重大错误，从整体上来看，即使在演示中，模型也几乎没有成功地产生完全准确的解析结果，这表明这些模型尽管能够捕捉到语义结构的某些方面，但在支持完全准确的语义分析或解析方面仍存在关键的局限性。

Oct, 2023

解剖近义句：预训练语言模型中提示句法和补充信息对知识检索的影响

预训练语言模型可以通过闭式样式提示来推断关系性知识，使用统一的元模板设计的CONPARE-LAMA探针表明句子结构在知识检索性能方面具有多种可取的特性，并且领域信息相对于语法形式更可靠地提升知识检索性能。

Apr, 2024

ChatGPT中表达的语法准确性与语言学家和普通人的比较

通过实验和比较ChatGPT与普通人和语言学家在语言构造的判断上的一致性，在判断任务和语言处理方式上的差异性分析，我们的研究结果显示ChatGPT是人工智能模型中与语法直觉最接近的模型之一。

Jun, 2024

改述类型间引发提示工程能力

这项研究通过对一系列不同的语言表达的变化进行系统和实证评估，发现语言模型在适应特定的语义转换类型（如形态、词汇）的提示时具有潜力，这为开发能够处理语言表达的变异性的更强大的语言模型做出了贡献。

Jun, 2024

PARAPHRASUS : 一个综合基准，用于评估释义检测模型

本研究解决了现有释义检测模型评估方式过于简化的问题，提出了一种多维度评估基准PARAPHRASUS，以便于更准确地选择模型。研究表明，细粒度评估下的模型会展现出在传统分类数据集中无法捕捉的权衡关系，能够更全面地反映模型的语义理解能力。

Sep, 2024