human evaluations | BriefGPT

关键词human evaluations

搜索结果 - 21

推动文本到图像模型评估中的地理包容性
通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。
PDF3 months ago
探索会议总结的自动评价指标
会议总结的关键任务是识别和提取关键字，但现有评估指标无法准确捕捉会议特定错误，本文通过对人工评估和自动评估的相关性研究，揭示自动指标无法捕捉可观测错误且掩盖了某些错误，同时发现不同模型架构对会议文件中的挑战有不同的响应，存在明显的挑战与错误
PDF3 months ago
FEEL: 评估大型语言模型的情感支持能力框架
通过使用大型语言模型，我们提出了一种评估情感支持能力的框架 FEEL，它综合考虑了情感支持对话的各个方面，并采用概率分布和集成学习策略来提升评估准确性，实验证明与人类评估相比，该模型在对话评估方面取得了显著的改善。
PDF4 months ago
通过模型生成的图像满意度的动机背景的视角理解主观性
图像生成模型在各种应用中变得普遍。这些模型通常通过使用假设普遍标准的人类质量判断进行微调和评估，而未考虑任务的主观性。为了研究如何量化主观性及其影响的规模，我们测量了不同使用情况下人类标注者之间的评估差异。通过模拟标注者主观性的潜在因素，我
PDF5 months ago
ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有
PDF6 months ago
大规模语言模型的拆分和再表述
使用大型语言模型，通过训练样本和模型参数的相对较小数量，显著改进了 Split and Rephrase 任务的性能，并证明了大语言模型在该任务中的潜力。
PDF7 months ago
经过训练的机器翻译度量指标学会适应机器翻译的参考译文
通过对机器翻译（MT）的人类评估训练的神经度量标准进行控制实验，将未经人类评估培训的基准度量标准（Prism）与经过培训的同一度量标准（Prism+FT）进行比较。令人惊讶的是，Prism+FT 对于机器翻译参考文献的鲁棒性更强，而这在 M
PDF8 months ago
零样本对话摘要评估与小型大型语言模型
大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 RO
PDF8 months ago
形式胜于内容：大型语言模型的评估偏见
在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 L
PDFa year ago
ACLNLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷
该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。
PDFa year ago
重新审视生物医学领域中自动问题摘要评估
本研究针对生物医学领域的问答摘要任务，从四个不同角度进行了人工评估，用以评估现有的自动化摘要评估指标和系统的可行性，并公布了人工注释数据集，以促进生物医学领域的摘要评估方法的研究。
PDFa year ago
COLING使用跟进概率进行开放域对话评估
本研究提出一种新的自动对话评估方法，使用固定的跟进集合（例如，这里没有真正相关的内容，你想说什么），测量语言模型继续对话的概率。相对于现有的 12 种评估方法，本方法与人类评估的相关性最高。
PDF2 years ago
ACLTSTR: 太短难以代表，通过详细汇总进行简介导向的扩展摘要生成
本文提出了一种能够利用文献中引言信息作为指针提取关键信息的提取式文本摘要方法，该方法在两个大规模的科学文献长篇摘要数据集上获得了显著的 Rouge 分数和人类评估的整体完整性和连贯性相较于传统 baseline 和现有先进技术的提升。
PDF2 years ago
人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理
本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的
PDF3 years ago
EMNLP一种插拔式控制文本生成方法
通过向语料库单词的概率分布添加位移来控制语言生成，能保证给定的关键词出现，相比类似方法具有更高的效果。
PDF3 years ago
情感解析用于共情回应生成
本文针对共情对话系统中，理解说话者的情感，并能产生合适的回复的技能进行了研究。我们提出了一种简单的技术，称为 “情感解码”，用于产生共情回应，该方法可以在每个解码步骤中有效地融合情感信号，并可以辅以辅助双重情感编码器进行增强。广泛的实证研究
PDF3 years ago
开放式聊天机器人的安全配方
探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。
PDF4 years ago
EMNLP基于自适应算术编码的几乎不可察觉的神经语言隐写术
本研究提出了一种新的语言隐写方法，利用基于神经语言模型的自适应算术编码对秘密消息进行编码，并在四个数据集上验证了该方法的统计隐蔽性及其比之前的最先进方法在位数 / 单词和 KL 指标方面分别提高了 15.3% 和 38.9%，人类评估表明
PDF4 years ago
EMNLP朝向可控和个性化评论生成
本文提出了一种名为 RevGAN 的新模型，可根据任意给定的情感和文体信息生成可控和个性化的用户评论，使用自注意递归自动编码器、条件鉴别器和个性化解码器等三个组件，该模型在多个真实世界数据集上的表现明显优于现有的生成模型，在句子质量、连贯性
PDF5 years ago
EMNLPMoEL: 共情听众混合物
本研究提出一种新的端到端的对话系统建模方法 --MoEL，能够捕捉用户情感并回复相应的情感，经人类评估显示 MoEL 在共情、相关性和流畅性方面优于多任务训练基线，并且不同监听器生成的响应的案例研究显示我们的模型具有很高的解释性。
PDF5 years ago