ChatGPT中关于释义类型的人类理解
通过现代神经转述技术研究BLEU误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高BLEU与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进BLEU的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高BLEU的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020
通过引入简单的改进算法,不鼓励生成输入中已有的 N-grams,利用多语言神经机器翻译模型生成同义句,控制输入和输出之间的词汇多样性,人工评估表明,该方法比基于ParaBank 2的同义句生成器更好地维护意义和语法正确性,并且在两种非英语语言上也同样有效。
Aug, 2020
本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战,探讨人工改写和机器改写之间的区别,并对常用的数据集进行综合分析和评估,结果显示自动生成文本的水平仍不及人类普及水平,适合于语义多样性语料的 TF-IDF 方法的效果最好,同时,发现了四个语义多样性和挑战性最高的数据集。
Mar, 2023
本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR,并证明了其在各种 NLP 应用方面的巨大潜力。
May, 2023
当前的复述生成和检测方法在相似性评分上过于依赖于单一的通用评分,忽视了语言的复杂语言属性。本文引入了两个新的任务来解决这个缺点,通过考虑特定文本位置上的复述类型 - 特定的语言扰动。我们将这些任务命名为复述类型生成和复述类型检测。我们的结果表明,虽然目前的技术在二元分类场景即复述或非复述上表现良好,但细粒度的复述类型的包含带来了显著的挑战。尽管大多数方法在生成和检测常规语义相似内容方面表现出色,但它们未能理解所操作的固有语言变量。在生成和识别复述类型训练的模型也在没有这些任务的情况下显示出改进。另外,扩展这些模型进一步提高了它们理解复述类型的能力。我们相信复述类型可以为开发复述模型和解决未来任务的开启一种新的范式。
Oct, 2023
通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果,研究发现这些模型能够可靠地重现 AMR 的基本格式,并且通常能够捕捉到核心事件、论证和修饰结构,但模型的输出容易出现频繁和重大错误,从整体上来看,即使在演示中,模型也几乎没有成功地产生完全准确的解析结果,这表明这些模型尽管能够捕捉到语义结构的某些方面,但在支持完全准确的语义分析或解析方面仍存在关键的局限性。
Oct, 2023
预训练语言模型可以通过闭式样式提示来推断关系性知识,使用统一的元模板设计的CONPARE-LAMA探针表明句子结构在知识检索性能方面具有多种可取的特性,并且领域信息相对于语法形式更可靠地提升知识检索性能。
Apr, 2024
通过实验和比较ChatGPT与普通人和语言学家在语言构造的判断上的一致性,在判断任务和语言处理方式上的差异性分析,我们的研究结果显示ChatGPT是人工智能模型中与语法直觉最接近的模型之一。
Jun, 2024
这项研究通过对一系列不同的语言表达的变化进行系统和实证评估,发现语言模型在适应特定的语义转换类型(如形态、词汇)的提示时具有潜力,这为开发能够处理语言表达的变异性的更强大的语言模型做出了贡献。
Jun, 2024
本研究解决了现有释义检测模型评估方式过于简化的问题,提出了一种多维度评估基准PARAPHRASUS,以便于更准确地选择模型。研究表明,细粒度评估下的模型会展现出在传统分类数据集中无法捕捉的权衡关系,能够更全面地反映模型的语义理解能力。
Sep, 2024