READIN：一个包含真实和多样化输入噪音的中文多任务基准

Feb, 2023

READIN：一个包含真实和多样化输入噪音的中文多任务基准

READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises

Chenglei Si, Zhengyan Zhang, Yingfa Chen, Xiaozhi Wang, Zhiyuan Liu...

TL;DR为了确保模型的鲁棒性和公正性，构建一个具有真实输入噪声的中文多任务基准测试 READIN，包含四个不同的任务，使用拼音输入和语音输入，实验表明现有的强大的预训练语言模型即使使用了鲁棒性方法，如数据增强，也会在 READIN 上显著降低性能。

Abstract

For many real-world applications, the user-generated inputs usually contain various noises due to speech recognition errors caused by linguistic variations1 or typographical errors (typos). Thus, it is crucial to test model performance on data with realistic input noises to ensure robu

chinese multi-task benchmark input noises language models data augmentation

发现论文，激发创造

DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力，我们引入了一个真实的中文数据集 —— DuReader_robust，并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明，现有的 MRC 模型在挑战测试集上表现不佳。

Apr, 2020

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

ICDAR2017 野外中文文本阅读比赛（RCTW-17）

RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.

Aug, 2017

通过检测和消除输入噪音来提高摘要模型的鲁棒性

本文介绍了一个大型实证研究，量化了不同类型噪声的严重性损失，以及提出的一种轻量级方法，用于检测和消除模型推理中的输入噪声，有效地缓解了性能降低。

Dec, 2022

面向大规模多领域多语言可读性评估

本文介绍了 ReadMe++，这是一种用于自动可读性评估的大规模多领域多语言数据集，提供了手动标注的 6,330 个句子，涵盖了阿拉伯语、英语和印地语等几种语言，采用了句子级别的注释方法，并使用了 CEFR 和 Rank-and-Rate 注释框架来减少注释主观性。试验结果显示，使用 ReadMe++ 微调的模型具有强大的跨语言传递能力和对未知领域的泛化能力。

May, 2023

多源噪声模拟与难例挖掘用于文本分类的鲁棒性学习

本研究提出了一种新的训练框架，通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能，实验表明该框架大大提高了预训练模型的鲁棒性，可以在实际场景下极大地促进 NLP 模型的应用。

Jul, 2021

LRW-1000：野外唇语识别自然分布大规模基准测试

本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000，该数据库包含来自 2000 多个个体说话者的 718,098 个样本，其中每个类都对应一个普通话单词的音节，同时评估了一些利用该数据集的典型口型识别方法和结果分析。

Oct, 2018

基准测试中文文本识别：数据集，基线和实证研究

本文填补了中文文本识别领域的数据集缺失和统一的评测标准，提出了搜集四大类中文文本数据集的方法，为各类应用场景提供基准，并探究了基于偏旁部首的辅助方法对中文识别性能的提升。

Dec, 2021

基于部首先验的自然场景中的汉字识别

本文介绍了一种基于偏旁部首的汉字表示方法，并使用多任务学习和监督训练来提高该方法在中文场景文本识别上的性能，实现了在六个中文数据集上的优异表现。

Oct, 2022

中文阅读理解的自然回答生成

该研究构建了一个名为 Penguin 的新数据集，用于促进自然反应生成的 MRC 研究，并提供训练和测试场地。研究人员通过对机器阅读理解模型的测试，采用基于前缀提示的模型，证明了该模型的有效性。

Feb, 2023