BriefGPT.xyz
Ask
alpha
关键词
quality scores
搜索结果 - 5
以 GPT 为基准的推荐解释文本
我们研究了现代模型生成的电影推荐的文本解释如何帮助用户,以及探讨用户对这些文本解释的不同组成部分的喜好和厌恶,特别是与现有的人类电影评论相比。我们发现,参与者对电影之间的排名以及对从未看过的电影评论的个人质量评分没有显著差异。然而,当评论是
→
PDF
10 months ago
不同语言配对机器翻译的一致人工评估
提出一种新的指标 XSTS,用于语义等效性评估,以及一种跨语言校准方法,旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证,证明了其有效性。
PDF
2 years ago
会议同行评审中的不一致性:重访 2014 年 NeurIPS 实验
通过重新分析 2014 年 NeurIPS 的实验数据,我们确定评审人员的质量评分中 50% 的变化存在主观因素。我们发现评分与论文影响力之间存在相关性,但会议接受的论文中二者之间不存在关联。此外,我们得出结论,2014 年会议的评审过程能
→
PDF
3 years ago
EMNLP
SMRT Chatbots:利用模拟多重参考训练改进非任务导向式对话
应用模拟多参考训练方法(SMRT),使用改写工具模拟多个响应以提高对话模型的质量和语言多样性。结果表明,SMRT 对人类和自动质量评分以及语言多样性均有所改善,相较于预训练,在人工评估质量方面相当,但在自动质量和语言多样性方面领先,并且无需
→
PDF
4 years ago
实值数据集的项集
本文提出了一种基于实值项集的质量评分方法,并通过将数据集转换为二进制数据并计算其支持度的方法来解决阈值问题,从而有效地发现出具有统计显著性的模式。
PDF
5 years ago
Prev
Next