CTC 2021 概述:面向母语者的汉语文本纠错
该论文介绍了一种多参考中文文本简化数据集 (MCTS),并对一些无监督方法和先进的大型语言模型的性能进行了评估,以期通过基础工作建立对中文文本简化的基本理解,并为未来的研究提供参考。
Jun, 2023
本文提出一种基于多任务学习的 CTEC 框架 ProTEC 来解决预训练语言模型在 CTEC 中产生的过度或欠度修改问题。该框架将 CTEC 任务分为三个子任务:错误检测、错误类型识别和更正结果生成,并通过多任务学习逐步引导模型从易到难地学习,有效地提高了 CTEC 任务的效果和效率。
Jun, 2023
RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.
Aug, 2017
本文填补了中文文本识别领域的数据集缺失和统一的评测标准,提出了搜集四大类中文文本数据集的方法,为各类应用场景提供基准,并探究了基于偏旁部首的辅助方法对中文识别性能的提升。
Dec, 2021
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
为提高模型的创造能力,该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集(CLTS+),并提出了一种基于共现词的评估该数据集的内在度量方法。
Jun, 2022
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
通过构建一个中文文本到表格的数据集 CT-Eval,并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能,研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距,但经过微调后,开源的大型语言模型的文本到表格能力可以显著提高,超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力,还可作为极大提升大型语言模型文本到表格性能的宝贵资源。
May, 2024
本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集,包含超过 200 万条中文短文本和对应的短摘要,并通过该数据集引入了基于递归神经网络的摘要生成方法,取得了良好的效果,该方法不仅显示了所提出数据集在短文本摘要研究中的有用性,也为后续研究提供了基线。
Jun, 2015
本文提出了 COCO-CN 数据集和推荐辅助集体注释系统,通过学习跨语言资源,完成了跨语言的图片标记、字幕和检索任务,为跨语言图像注释和检索领域做出了重要贡献。
May, 2018