基于数值文本的 OCR 后去噪复杂度估计
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化,我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下,改进我们的基准模型,这为自动筛选高质量数据集提供了新的方法论,并表明大部分的预训练数据可被删除而保持性能。
Sep, 2023
本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这种方法,在多个模型和数据集上可以获得显著的训练效果提升,并展示了资源高效的 LM 训练的潜力。例如,在使用 OpenWebText 数据集进行训练时,相对于较少的数据量和较快的训练速度,多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%,在使用 Wikipedia 数据集时,平均绝对准确性提高了 0.8%。
Apr, 2024
研究采用新颖的数据生成文本的方式,对当前的文本生成方法进行了探究,并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明,这些模型产生流畅的文本,但未能令人信服地近似人类生成的文档,甚至模板化的基线方法在某些指标上超过了这些神经模型,尽管复制和重构扩展会导致明显的改进。
Jul, 2017
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型,然而所有模型都过于频繁地关注无关的统计特征,如句子长度。我们通过在评估中发布我们的语料库,希望推动西班牙语自然语言处理的最新技术发展。
Aug, 2023
该研究介绍了一项机器翻译任务,其输出面向不同水平的目标语言熟练度的受众。他们收集了高质量的新闻文章数据集,提出了一种跨语言文章段落对齐方法,训练出多任务序列到序列模型,实现将西班牙语翻译成英语并针对英语简化阅读难度,结果显示这些多任务模型优于传统的翻译和简化文本管线式方法。
Nov, 2019
本文分析了三种采样解码策略,揭示了在提高欺骗人类的能力时,会引入使自动检测系统易于检测的统计异常,同时也表明即使是多句子摘录也有超过 30%的概率欺骗专家人类评分员,强调了使用人类和自动检测器来评估文本生成系统的重要性。
Nov, 2019
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022