CTC 2021 概述：面向母语者的汉语文本纠错

Aug, 2022

CTC 2021 概述：面向母语者的汉语文本纠错

Overview of CTC 2021: Chinese Text Correction for Native Speakers

Honghong Zhao, Baoxin Wang, Dayong Wu, Wanxiang Che, Zhigang Chen...

TL;DR本文介绍了 CTC 2021，一项针对母语为中文的文本校正任务，并讨论了任务的定义、训练数据、评价以及参与者尝试的方法，提供了公共数据集以推进该研究领域的未来发展。

Abstract

In this paper, we present an overview of the ctc 2021, a Chinese text correction task for native speakers. We give detailed descriptions of the task definition and the data for training as well as evaluation. We

ctc 2021 chinese text correction task training data evaluation approaches

发现论文，激发创造

MCTS：一份多参考的中文文本简化数据集

该论文介绍了一种多参考中文文本简化数据集 (MCTS)，并对一些无监督方法和先进的大型语言模型的性能进行了评估，以期通过基础工作建立对中文文本简化的基本理解，并为未来的研究提供参考。

Jun, 2023

面向中文文本纠错的渐进式多任务学习框架

本文提出一种基于多任务学习的 CTEC 框架 ProTEC 来解决预训练语言模型在 CTEC 中产生的过度或欠度修改问题。该框架将 CTEC 任务分为三个子任务：错误检测、错误类型识别和更正结果生成，并通过多任务学习逐步引导模型从易到难地学习，有效地提高了 CTEC 任务的效果和效率。

Jun, 2023

ICDAR2017 野外中文文本阅读比赛（RCTW-17）

RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.

Aug, 2017

基准测试中文文本识别：数据集，基线和实证研究

本文填补了中文文本识别领域的数据集缺失和统一的评测标准，提出了搜集四大类中文文本数据集的方法，为各类应用场景提供基准，并探究了基于偏旁部首的辅助方法对中文识别性能的提升。

Dec, 2021

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

CLTS+: 一个新的中文长文本摘要数据集，具有生成式摘要

为提高模型的创造能力，该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集（CLTS+），并提出了一种基于共现词的评估该数据集的内在度量方法。

Jun, 2022

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

LCSTS: 一个大型的中文短文本摘要数据集

本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集，包含超过 200 万条中文短文本和对应的短摘要，并通过该数据集引入了基于递归神经网络的摘要生成方法，取得了良好的效果，该方法不仅显示了所提出数据集在短文本摘要研究中的有用性，也为后续研究提供了基线。

Jun, 2015

跨语言图像标签、字幕和检索的 COCO-CN

本文提出了 COCO-CN 数据集和推荐辅助集体注释系统，通过学习跨语言资源，完成了跨语言的图片标记、字幕和检索任务，为跨语言图像注释和检索领域做出了重要贡献。

May, 2018