指代表达生成的内在任务评估

Feb, 2024

Intrinsic Task-based Evaluation for Referring Expression Generation

Guanyi Chen, Fahime Same, Kees van Deemter

TL;DR提出了一种基于内在任务的评估协议，针对对话生成模型中的表述生成模型进行了综合性评估，发现新的评估协议能更准确和可靠地评估每个模型的性能。

Abstract

Recently, a human evaluation study of referring expression generation (REG) models had an unexpected conclusion: on \textsc{webnlg}, Referring Expressions (REs) generated by the state-of-the-art neural models wer

referring expression generation reg models evaluation protocol neural models referential success

发现论文，激发创造

使用实体概况生成指代表达式

该研究提出了一种面向上下文的实体参照生成模型，并解决了现有模型依赖于特定实体训练数据的局限性，同时在 WebNLG 数据集上进行的实验表明，该模型在多个方面有着优越的表现。

Sep, 2019

非神经模型也很重要：对神经指代表达生成系统的重新评估

本文旨在在生成语言上考虑基于非神经网络模型的表现，以推广广义的自然语言生成技术，并在针对两个数据集的实验中发现，某些任务使用非神经网络模型能够比神经模型获得更好的性能。

Mar, 2022

参考生成模型：如何经受时间的考验？

近年来，许多自然语言处理（NLP）的研究主要关注于性能改进。本文通过在上下文中生成指代表达式（REG-in-context）的任务作为案例研究，聚焦于 NLP 的语言和科学方面。我们对 GREC 进行分析，这是一个十多年前在英语中解决这个主题的多样共享任务的综合数据集。我们研究了模型在更现实的数据集上和使用更先进方法评估时的表现。我们通过不同评估指标和特征选择实验来测试这些模型。我们得出结论，GREC 不能再被视为可靠评估模型仿真人类参考生成能力的工具，因为结果受到语料库和评估指标选项的极大影响。我们的结果还表明，预训练语言模型对语料库的选择不太依赖，相比传统机器学习模型更能提供更强大的类别预测。

Jul, 2023

神经网络引用表达生成的端到端方法

本文提出了一种新方法 NeuralREG，该方法通过深度神经网络一步决定形式和内容，并在 WebNLG 语料库的去词汇化版本上显示出优越的性能，数据和模型已公开。

May, 2018

能否定位？交互式提及表达生成

本文提出了一个具有相互作用的交互式 REF 模型，利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs，实验证明该模型在三个参考数据集上优于现有方法，并通过人工评估证明其生成了更好且具有交互能力的 REs。

Aug, 2023

在逼真的多语种数据集上评估神经指称形式选择器

本文提出了使用 OntoNotes 语料库替代 WebNLG 的方法来评估神经指代形式选择模型，而其使用的英语和汉语表现出不同特点，其中汉语指代形式选择更取决于语境。

Oct, 2022

GenRES：大型语言模型时代下的生成式关系抽取评估的反思

关系抽取领域正在向利用大语言模型的生成式关系抽取方向转变，用以填补传统的关系抽取度量方法在评估生成式方法时的不足，介绍了多维度评估方法 GenRES，并通过对十四个领先的大语言模型进行全面评估，通过文件、包、句子级别的数据集为未来生成式关系抽取研究设立了基准。

Feb, 2024

理解引导的指示表达式

本研究探讨了自然语言生成和阅读，特别是在图像中的特定物体的指称表达。我们提出了两种方法来利用人类生成表达的理解模块，以改进表达的生成质量，并在多个基准数据集上展示了改进效果。

Jan, 2017

Review-Feedback-Reason（ReFeR）：一种新颖的自然语言生成（NLG）评估和推理框架

通过利用 LLM 代理使用 Review-Feedback-Reason (ReFeR) 的新型评估框架，本研究提出一种评估自然语言生成质量的方法，不仅能够提高 NLG 评估的准确性，超过以前的基准约 20%，还能生成建设性反馈并显著改善集体推理的能力。该方法在三个推理基准测试中表现出色，超过大部分最先进的方法，并在平均水平上比 GPT-3.5 Turbo 高出约 11.67% 和 GPT-4 高出约 1%。

Jul, 2024

大语言模型时代下关系抽取的再审视

本文探讨了利用 GPT-3 和 Flan-T5 等大型语言模型来进行关系提取（RE）的问题，通过将关系线性化生成目标字符串的方法进行了序列到序列的任务处理，通过人工评估的方式，在不同程度的监督下评估了它们在标准 RE 任务中的表现，发现通过 GPT-3 进行的少量提示与现有完全监督模型大致相当，而使用 Chain-of-Thought 风格的解释进一步监督和微调后，该模型产生了最优结果。

May, 2023