CORECODE: 一个带有基准任务的常识注释对话数据集，用于中文大型语言模型

AAAIDec, 2023

CORECODE: 一个带有基准任务的常识注释对话数据集，用于中文大型语言模型

CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models

Dan Shi, Chaobin You, Jiantao Huang, Taihao Li, Deyi Xiong

TL;DRCORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集，用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释，并通过对话级推理和检测任务验证模型在该数据集上的能力，结果表明现有的开源中文大型语言模型在预测丰富的推理内容方面表现不佳。

Abstract

As an indispensable ingredient of intelligence, commonsense reasoning is crucial for large language models (LLMs) in real-world scenarios. In this paper, we propose corecode, a →

commonsense reasoning corecode dataset chinese llms commonsense knowledge

发现论文，激发创造

基于常识的对话生成：一个实证研究

本研究针对 commonsense 在对话回应生成中的作用进行了实证研究，提出了一种新的对话数据集，并利用 ConceptNet 这个 commonsense 知识库，找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型，该研究提出的自动评估方法显示出一定合理的评价效果。

Sep, 2021

编程语言模型是少样本通识学习者

本文展示了通过将结构化常识推推理任务框架化为代码生成任务，使用代码生成语言模型（CODEX）可以在自然语言任务上优于 T5 和 GPT-3 等先进语言模型，即使任务并不涉及源代码。

Oct, 2022

COM2SENSE：具备互补句子的常识推理基准

本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Jun, 2021

常识和命名实体感知的知识驱动对话生成

本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型，该模型还利用了与每个话语相关的非结构化主题特定知识，并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分，还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。

May, 2022

超越英语的常识：评估和改进多语言常识推理语言模型

为了促进通识推理（CSR）的进一步发展，作者提出了用于评估和改进流行的多语言语言模型（ML-LMs）的方法，其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练（MCP）的有效性。作者还创建了两个新数据集，X-CSQA 和 X-CODAH，以评估流行的 ML-LMs 用于跨语言通识推理的能力。

Jun, 2021

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018

CIDER: 对话解释和推理的常识推断

本文介绍了 CIDER，一种人工筛选的数据集，旨在通过上下文常识推理提取对话中的富含隐含和显式知识三元组的解释，且通过多项基准测试表明此任务的困难性和它为未来有前途的研究提供了重要的基础。

Jun, 2021

一个大规模的中文短文本对话数据集

本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Aug, 2020

C3KG: 一个中文常识对话知识图谱

本研究针对现有常识知识库的不足，提出了一种基于多轮对话语料库构建的中文常识对话知识图谱，该图谱包含社交常识知识和对话流信息，并开发了图谱 - 对话匹配方法，以此来评估信心图所具有的潜在能力。

Apr, 2022

常识知识图谱上的逻辑查询复杂推理

通过从现有的常识知识图谱（CSKG）中采样多跳逻辑查询，并使用手工规则和大语言模型进行言语化，我们提出了 COM2（复杂常识）数据集，训练于此的语言模型在复杂推理能力方面取得了显著提升，从而在问题回答和生成常识推理的任务中表现出了增强的零样本性能，而无需昂贵的人工注释。

Mar, 2024