使用 Transformer 集合自动评估德语句子的可读性
本研究基于迁移学习提出了一种新的德文文本复杂度评估模型,结果表明该模型优于传统的基于文本语言特征提取的解决方案,最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。
Jul, 2022
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
Apr, 2024
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
近期大型语言模型(LLMs)在各种风格和体裁的文本生成方面展示了惊人的能力。然而,这种能力容易被滥用,如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此,建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案,通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法,我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明,与以往的最先进方法相比,性能提升范围在 0.5%到 100%之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明,将商业限制的生成预训练变压器(GPT)数据替换为其他开放语言模型生成的数据,如 Falcon、Large Language Model Meta AI(LLaMA2)和 Mosaic Pretrained Transformers(MPT),是开发生成文本检测器的可行替代方法。此外,为了展示零 - shot 推广能力,我们在一个英语散文数据集上进行了实验,结果表明我们的集成方法可以有效处理新数据。
Nov, 2023
本文提出了一种自动生成德语戏剧文本的方法,包括应用 GPT-2 模型生成情节场景大纲,以及从大纲中生成场景,该方法在自动量化评估上表现良好,但手动定性分析揭示出生成文本的质量较差,可能由于数据集或训练输入的质量。
Jan, 2023
本文介绍了两个优化可读性评估的方法:1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型(如随机森林)可以与 transformers(如 RoBERTa)结合来提高模型性能,通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型,在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是,我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99%分类精度,比之前最先进的模型提高了 20.3%。
Sep, 2021
本文介绍了我们使用 BERT 和 ELECTRA 基于德语的语言模型 GBERT 和 GELECTRA 的实验,通过改变输入训练数据、模型大小和整个单词掩蔽(WWM)的存在,我们成功实现了在基础和大型模型的文件分类和命名实体识别(NER)任务中取得 SoTA 性能。我们的训练数据采用了 “评估驱动方法”,表明加入更多的数据和使用 WWM 都能提高模型性能。通过对现有德语模型进行基准测试,我们证明这些模型是迄今为止最好的德语模型。我们的训练模型将公开提供给研究社区。
Oct, 2020
我们的研究通过将 Sci-BERT、DeBERTa 和 XLNet 等变形器模型与卷积神经网络 (CNNs) 进行集成,构建了一些分类模型,实验证明考虑的集成架构在分类方面的性能超过了单个变形器模型。此外,所提出的 SciBERT-CNN 集成模型在 ALTA 共享任务 2023 数据上产生了 98.36% 的 F1-score。
Oct, 2023
本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研,评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性,尽管自动化文献调研在声学领域具有巨大潜力,但仍需要改进以更清晰准确地回答技术问题。
Oct, 2023
描述了基于 GPT 的翻译质量评估指标 GEMBA,可以用于有参照的和无参照的情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中,GEMBA 在三种语言对中具有先进的性能表现。
Feb, 2023