评估历史文本标准化系统的泛化能力

ACLApr, 2018

评估历史文本标准化系统的泛化能力

Evaluating historical text normalization systems: How well do they generalize?

Alexander Robertson, Sharon Goldwater

TL;DR本文简要讨论了历史文本规范化系统的评估问题，通过比较两个神经模型和一个基准系统，阐释了我们的评估方法，并得出结论，未来的工作应包括更严格的评估，包括可能的内在和外在度量。

Abstract

We highlight several issues in the evaluation of historical text normalization systems that make it hard to tell how well these systems would actually work in practice---i.e., for new datasets or languages; in comparison to more na\"ive systems; or as a preprocessing step for downstream nlp t

historical text normalization systems neural models evaluation practices generalization downstream nlp tools

发现论文，激发创造

历史文本规范化系统的大规模比较

本文介绍迄今最大的历史文本规范化研究，涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器 - 解码器模型等所有提出的规范化技术类别，并使用不同的数据集和评估方法进行比较，分析了训练数据数量的影响，并提供了公开的数据集和脚本。

Apr, 2019

预训练语言模型在有毒文本分类中的公平性可能存在差异

本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性，发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现，尽管文献中有所声称，但公平变化很少与模型大小有关。为了提高模型的公平性，该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。

Aug, 2021

波兰文本历时规范化的两种方法

该论文讨论了波兰文本的两种历时归一化方法：基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据，以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析，结果显示，在当前阶段的问题研究中，基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好，尽管在实践中，这两种方法都有各自的优势和劣势。

Feb, 2024

神经机器翻译模型在历史拼写规范化上的评估

本文应用不同的 NMT 模型来解决五种语言的历史拼写规范化问题，结果显示 NMT 模型比 SMT 模型在字符错误率方面表现更好，其中 RNN 模型的性能与 GRU/LSTM 类似，Transformer 模型只有在提供更多的训练数据后才有更好的效果，而子词级别的模型在低资源语言中比字符级别的模型表现更好，并提出了一种混合方法进一步提高历史拼写规范化的性能。

Jun, 2018

测试神经网络模型在自然语言推理基准数据集中的泛化能力

研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化，即使假设相同或相似，基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外，使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。

Oct, 2018

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018

改进文本到 SQL 评估方法

为了评估系统在现实世界中未见数据上的泛化能力，本文首先比较了人工生成和自动生成的问题，提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次，我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力，因此提出了评估未来工作的补充数据集划分。最后，我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难，并启发未来研究的有效衡量方法。

Jun, 2018

文本预处理在神经网络架构中的作用：文本分类和情感分析的评估研究

本文研究了文本预处理决策（特别是分词、词形还原、小写和多词组合）对标准神经文本分类器性能的影响，并在文本分类和情感分析这两个方面进行了广泛的评估。我们发现，虽然简单的分词通常足够，但预处理技术之间仍存在显着差异，因此这个通常被忽视的步骤很重要，特别是在比较不同模型时，最终评估提供了有关训练词嵌入的最佳预处理实践的见解。

Jul, 2017

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020