大规模提取文化常识知识

Oct, 2022

Extracting Cultural Commonsense Knowledge at Scale

Tuan-Phong Nguyen, Simon Razniewski, Aparna Varde, Gerhard Weikum

TL;DR本文提出了一个用于在大规模上提取高质量文化常识知识 (CCsk) 的端到端方法，名为 CANDLE，该方法从 Web 语料库中提取 CCsk 断言并将它们组织成相符的类群，包括地理、宗教、职业等 3 个领域，多个文化方面。通过分类过滤和趣味分数评估方法，CANDLE 优于先前的作品，并且实验评估演示了 CCsk 对 GPT-3 语言模型带来的好处。

Abstract

Structured knowledge is important for many AI applications. Commonsense knowledge, which is crucial for robust human-centric AI, is covered by a small number of structured knowledge projects. However, they lack knowledge about human traits and behaviors conditioned on socio-cultural contexts, which is crucial for situative AI. This paper presents

commonsense knowledge candle end-to-end methodology cultural commonsense knowledge gpt-3

发现论文，激发创造

CANDLE: 大型语言模型中的常识推理的迭代概念化与实例提炼

通过引入 CANDLE，一个渗透式谐谑缠绕呼出器，研究人员在常识知识库上进行了环境相关的概念化和实例化，并通过评估验证提出的这些知识类型的杰出质量和多样性，进而得出结论，在学生模型上提取 CANDLE 可以对四个下游任务带来好处。

Jan, 2024

基于视觉的常识知识获取

CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识，在不需要人类对图像实例进行注释的情况下，通过远程监督的多实例学习问题，从图像中提取 commonsense 知识的方法。实验结果表明，CLEVER 可以提取有质量的 commonsense 知识。

Nov, 2022

常识知识的整合

通过对常识知识源进行调查，本文提出了构建通识知识图谱的原则、表示模型，将七个独立的常识知识源整合到了第一版集成的通识知识图谱中，并分析了它在四个问答数据集上的应用统计结果和所得到的经验教训。

Jun, 2020

大规模 Web 内容的常识知识精炼

ASCENT++ 是一个自动构建常识知识库的方法，可以捕捉到复合概念并通过 OpenIE、Typicality 和 Saliency 评分进行清洗和排序，以表达常识的时间和空间有效性，并且使用广泛的网页内容提高覆盖率，评估结果表明其在常识推理和问题回答中的优势。

Nov, 2021

多元文化常识知识蒸馏

通过 MANGO 方法，从概念和文化两个入口点逐步指导大型语言模型，提取文化知识，通过聚类和生成式摘要方法合并，最终获得了 167K 个高准确性的关于 30K 个概念和 11K 个文化的表述，达到了非常显著的提升。将 MANGO 的知识应用于对话系统中，增强了对话系统的整体质量、特异性和文化敏感性，经过人工标注员评价证实。提供数据和代码下载。

Feb, 2024

多方面常识知识的联合推理

本文提出了一种多维模型的常识知识语句，以及一种关于相关语句集合的联合推理方法。通过将推理转化为整数线性规划，采用软约束和松弛 LP 的降维成本理论来计算信息化排序，本方法可以应用于多个大型 CSK 收集，最终可以将这些内容转化为更干净和更具表现力的知识。

Jan, 2020

机器推理的文化常识图谱

本文介绍了一种新的方法，通过在众包 commonsense 知识的基础上引入有文化或国家差异的知识，并将其应用于常见事件的 commonsense 推理中，从而区分不同国家 / 文化知识组的身份，有望提高人类化 NLP 任务性能。

Sep, 2020

通感知识获取的高级语义学

本文介绍了一种称为 Ascent 的方法，用于自动构建具有先进表达能力、高精度和高召回率的常识知识库，并且超越了之前的三元组限制，同时捕获了具有子组和方面的复合概念，并通过语义方面完善了断言。

Nov, 2020

DISCOS: 架桥于话语知识与常识知识之间

本文提出了一种基于 DISCOS 算法的常识知识获取框架，能够将更昂贵的复杂常识知识自动转化为更可承担的语言知识资源，以此来获取大规模常识推理知识。此方法在 novelty 和 diversity 方面表现优越，拥有着与监督学习方法相当的质量。

Jan, 2021

大规模多元文化知识获取与语言模型基准测试

通过从维基百科文献到链接页面的导航，建立文化知识的多元多样化采集方法与 CultureAtlas 数据集，该数据集涵盖了各种亚国家地理区域和族群，用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型，以促进数字领域中全球文化的更具包容性和平衡的表达。

Feb, 2024