重新思考和完善区别度量
通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量,我们发现多种测量指标的组合(如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore)足以报告多样性得分,并可应用于生成模型、调试指导型数据集和人工生产文本的分析。
Mar, 2024
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019
本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成(NLG)系统多样性的方法,并通过对人类和自动度量,解码参数调整等方面的实验展示了这个框架的实用性。
Apr, 2020
当训练数据集由 1:1 的狗和猫比例组成时,生成模型会更好地符合训练种群分布,而不是由 3:1 的狗和猫比例组成的其他模型。我们提出了一个新的评估协议来衡量生成的图像集与训练集在属性强度分布方面的差异。我们的指标为生成模型的评估奠定了基础。
Oct, 2023
本研究旨在选择数据子集用于大型语言模型的微调,以更有效地按照指令执行。我们使用决定性点过程来捕捉指令微调数据集的多样性和质量,提出使用以对数行列式距离衡量数据集的多样性。实验证明,在归一化权重梯度空间中所提出的多样性度量与下游指令跟随性能有关,可用于确定数据选择何时最有帮助,并分析数据集的策略。我们在各种指令微调数据集上展示了我们方法的实用性。
Feb, 2024
我们的研究将焦点从以模型为中心的评估方法转变为以人为中心的评估方法,提出了一种名为 “修订距离” 的度量方法,通过计算大型语言模型生成的修订编辑数来评估文本,并在易写作任务和具有挑战性的学术写作任务中提供更准确、详细的反馈,同时在缺乏参考文本的情况下也具有潜力。
Apr, 2024
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
Mar, 2024
研究发现使用 Task2Vec diversity coefficient 可以衡量预训练数据集的多样性,该多样性与潜在概念的数量成正比,且可用于构建有用的多样化预训练数据集。
Jun, 2023