吹哨人：一个包含常识和世界知识的汉语数据集用于方言理解

ACLApr, 2021

吹哨人：一个包含常识和世界知识的汉语数据集用于方言理解

Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with Common Sense and World Knowledge

Canwen Xu, Wangchunshu Zhou, Tao Ge, Ke Xu, Julian McAuley...

TL;DR本文提出大规模、多样化的中文数据集，用于从计算的语言学角度创建和理解非正式语言。同时，我们确立了一个任务以及提供了相应数据、数量和质量分析。实验表明，这一任务需要深度语言理解、常识和世界知识，并可以成为预训练语言模型的良好测试基准，从而帮助模型在其他任务上表现更好。

Abstract

Cant is important for understanding advertising, comedies and dog-whistle politics. However, computational research on cant is hindered by a lack of available datasets. In this paper, we propose a large and diverse Chinese dataset for creating and understanding cant from a computational lingu

cant understanding computational linguistics chinese dataset pretrained language models task formulation

发现论文，激发创造

无声信号，巨大影响：用 LLMs 进行编码式狗哨词的词义消歧

使用大型语言模型进行词义消歧，从标准说话中提取狗哨并创建出 16550 个高可信度狗哨使用示例的数据集，用于仇恨言论检测、新词研究和政治科学。

Jun, 2024

从口哨到喇叭：通过语言模型揭示编码修辞

本研究对狗哨进行了大规模的计算研究，开发了一种类型学并分析了其在历史美国政治家演讲中的使用。研究发现，带有狗哨的有害内容可以逃避毒性检测，从而突显了这种编码语言带来的在线风险。

May, 2023

CORECODE: 一个带有基准任务的常识注释对话数据集，用于中文大型语言模型

CORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集，用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释，并通过对话级推理和检测任务验证模型在该数据集上的能力，结果表明现有的开源中文大型语言模型在预测丰富的推理内容方面表现不佳。

Dec, 2023

通识知识是否有助于检测讽刺？

本研究探讨将常识知识融入到基于图卷积网络和预训练语言模型嵌入的模型中，用于识别口气讽刺的有效性，并在三个数据集上进行了实验，表明该方法不如基线模型表现优秀。

Sep, 2021

雪人：从基础模型中提炼出的百万级中文常识知识图谱

利用 ChatGPT 与基础模型构造一个名为 Snowman 的中文常识知识图谱，其中大约包括了一千万个中国常识三元组，是目前最大的中文常识知识图谱之一，并具有较高的人类认可度。

Jun, 2023

SWAG：一个大规模的针对基于常识的推理的对抗性数据集

本文提出了基于语言理解和常识推理任务的通用语境推断任务。为解决当前数据集进行注释所遇到的人为误差和注释偏见问题，使用对抗训练技术提出了 Adversarial Filtering 方法，并针对过度过滤的问题使用最先进的语言模型来大规模扩增不同的对抗情境。实验结果表明人可以高效地解决我们的任务，而其它竞争模型则表现不佳，未来仍存在大量的研究机会。

Aug, 2018

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

WanJuan-CC：安全且高质量的开源英语网络文本数据集

该研究介绍了万卷 - CC（WanJuan-CC），一个安全且高质量的开源英文网络文本数据集，用于语言模型的大规模预训练数据集构建。

Feb, 2024

CATS：一个实用的中文问答序列数据集，具有大规模且高质量

本研究提出了 CATS 数据集，它是一个实用的基于表格问答系统的大规模高质量的答案到描述的中文数据集，并通过提出统一图转换方法，将这一任务转化为图到文本问题，以建立输入 SQL 和表之间的语义对齐。实验结果表明了我们提出的方法的有效性，并进一步分析了 CATS 数据集的质量和挑战。

Jun, 2023

C3KG: 一个中文常识对话知识图谱

本研究针对现有常识知识库的不足，提出了一种基于多轮对话语料库构建的中文常识对话知识图谱，该图谱包含社交常识知识和对话流信息，并开发了图谱 - 对话匹配方法，以此来评估信心图所具有的潜在能力。

Apr, 2022