automatic evaluation metrics | BriefGPT

关键词automatic evaluation metrics

搜索结果 - 48

零射击机器翻译评估对于印度低资源语言有多好？
机器翻译评估在高资源语言上的研究已有所涉及，但基于近期数据和模型的增加，对低资源语言的评估也引起了兴趣。本文针对低资源的印度语言，即阿萨姆语、卡纳达语、迈蒂利语和旁遮普语，通过收集足够的多维度质量度量和直接评估注解，构建测试集并使用元评估方
PDFa month ago
ACLSLIDE: 一个融合小型和大型语言模型的开放领域对话评估框架
使用 Small and Large Integrated for Dialogue Evaluation（SLIDE）框架，结合小型专门模型（SLM）和大型语言模型（LLMs）来解决开放领域对话系统中的一对多问题和领域特定场景下的性能不佳
PDFa month ago
绿色：生成性放射学报告评估和错误标注
介绍了一种名为 GREEN（生成式放射学报告评估和错误标注）的放射学报告生成度量方法，利用语言模型的自然语言理解能力定量和定性地识别和解释候选报告中的临床显著错误，该方法不仅与专家错误计数具有更高的相关性，而且与专家偏好更加一致。
PDF2 months ago
OARelatedWork：一种来自开放获取资源的大规模相关工作段落全文数据集
该论文介绍了 OARelatedWork，这是第一个大规模的多文档摘要数据集，用于相关工作生成，包含整个相关工作部分和引用论文的全文。该数据集包括 94450 篇论文和 5824689 篇独特引用的论文。它旨在自动生成相关工作，将该领域从仅
PDF2 months ago
RepEval: LLM 表征的有效文本评估
自动生成文本的自动评估指标在自然语言生成领域中起着重要作用，特别是随着大规模语言模型的快速发展。然而，现有的评估指标通常局限于特定情景，因此需要新的、灵活和有效的指标。本研究介绍了 RepEval，这是第一个利用 LLM 表示的投影进行评估
PDF2 months ago
大型语言模型是语法错误修正的最先进评估器
研究发现大型语言模型（LLMs）在语法错误纠正（GEC）评估中表现优异，特别强调了流畅度作为评估标准的重要性。
PDF3 months ago
大型语言模型 “ad referendum”: 在法律领域的机器翻译水平如何？
这项研究评估了两个最先进的大型语言模型（LLMs）与传统神经机器翻译（NMT）系统在法律领域的四种语言对中的机器翻译（MT）质量，结合自动评估度量标准（AEMs）和专业翻译员的人工评估（HE）来评估翻译的排序、流畅性和足够性。结果表明，虽然
PDF5 months ago
JaSPICE：基于谓词 - 论元结构的自动评估度量方法用于图像字幕模型
本研究提出了一种自动评估度量 ——JaSPICE，根据场景图评估日语字幕，并通过依赖关系和谓语 - 论元结构生成场景图，并使用同义词扩展图。实验结果表明，我们的度量方法在与人工评估的相关系数方面超过基准度量方法。
PDF8 months ago
FETV：开放领域文本视频生成的细粒度评估基准
我们提出了 FETV，一个用于细粒度评估文本到视频生成的基准，它基于三个正交方面对提示进行分类，并且是与时间相关的，通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估，发现现有的自动评估指标与人工评估的相关性较差，并提出了两个新
PDF8 months ago
EMNLP评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型
通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们
PDF8 months ago
在段落级别上训练和元评估机器翻译评估指标
机器翻译中，自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法，并利用这些新数据集对现有句子级指标进行基准测试，以及在段落级训练学习指标。有趣的是，我们的实验结果表
PDF10 months ago
针对法律摘要的论证段落增强
本文利用命题分析和法律 argumentative scheme 结合创建法律 argumentative segments，采用 GPT-3.5 生成 argumentative segments 的 summary，评估表明我们的方法更
PDFa year ago
不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术
本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的
PDFa year ago
ChartSumm: 长短汇总自动图表概括的综合基准
本文介绍了 ChartSumm 数据集，它是一个大规模的基准数据集，由 84,363 个图表及其元数据和描述组成，涵盖了各种主题和图表类型。该数据集可用于生成短和长的摘要，用以提供给视障人士以及为其他数据驱动模型的训练提供基础。通过使用 C
PDFa year ago
使用 ChatGPT 进行类人摘要评估
通过四种人类评估方法对五个数据集上的文本摘要进行评估，研究探讨了 ChatGPT 在人类化摘要评估方面的表现，ChatGPT 优于某些数据集上常用的自动评估指标。此外，研究还分析了不同提示对结果的影响，并与人工评估结果进行了比较，从而探讨了
PDFa year ago
重新审视生物医学领域中自动问题摘要评估
本研究针对生物医学领域的问答摘要任务，从四个不同角度进行了人工评估，用以评估现有的自动化摘要评估指标和系统的可行性，并公布了人工注释数据集，以促进生物医学领域的摘要评估方法的研究。
PDFa year ago
PR-MCS: 针对多语言图像字幕生成的扰动鲁棒度量
本文提出了 Perturbation Robust Multi-Lingual CLIPScore (PR-MCS) 作为一种新型的无参考图像字幕度量标准，应用于多种语言，以确保对各种干扰类型的语言扰动具有高度鲁棒性。
PDFa year ago
CVPRSpaText: 控制型图像生成的空间文本表示
该论文提出了一种使用开放词汇场景控制的文本到图像生成方法 SpaText，基于 CLIP 的空间 - 文本表示方法，通过支持自由形式的自然语言描述的感兴趣区域的分割图来控制场景的布局和不同区域对象的形状。此外，该论文还提供了几种自动评估指标
PDF2 years ago
推理电路：基于结构化理由的少样本多跳问题生成
提出一种新框架，将基于链式思考的结构化理性生成应用于低监督下的多跳问题生成中，其通过对少量例子进行注释并将每个推理步骤视为单独的任务来执行，显示了对生成问题难度的改进和比没有理性的基线模型更好的性能，而且模型规模较小。
PDF2 years ago
EMNLP能量排名提升抽象化摘要
本文提出了一种基于能量的模型，利用自动评估指标和重排机制对生成的摘要进行排序，以解决当前抽象摘要系统存在的问题。我们的实验结果表明，这种方式可以提高生成摘要的得分，但对高度抽象的摘要的应用要小心，因为现有的指标还不足够可靠。
PDF2 years ago