- ACL每个答案都重要:用概率测度评估常识
大型语言模型在常识任务上展现了令人印象深刻的性能;然而,这些任务通常作为多项选择题提出,使模型能够利用系统偏差。常识也具有概率性,存在多个正确答案。为此,我们提出了一种新的生成任务 - 常识框架补全(CFC),通过多个开放式生成来评估常识。 - DiffuCOMET:上下文常识知识扩散
利用扩散学习重建叙事背景和相关常识之间的内在语义联系,我们开发了一系列以 DiffuCOMET 为基础的知识模型,为推断上下文相关和多样性常识提供了一种解决方案。我们的方法逐步优化了与叙事相关的常识事实表示,产生了与输入上下文相关且多样化的 - 规则还是故事,对于与大型语言模型对话,哪个更好的常识表达方式?
通过故事讲述方式,该研究论文系统调查和比较故事和规则在 LLMs 中获取和利用常识的表达方式,并且结果显示故事胜于规则,对于回答与日常事件有关的问题更有效,而规则更适用于科学问题,这强调了适当语言表达与利用 LLMs 中的常识能力的重要性, - EMNLPBOOST:利用黑盒控制提升 LM 生成中的常识
我们提出了一种计算高效的框架,通过引导一个固定的预训练语言模型向更具常识的生成方式迈进,以产生一个合理的输出,该输出以一系列概念有意义的方式融合。测试结果表明,我们的方法在两个有限概念生成句子的基准上始终能够产生最具常识性的输出。
- 基于大语言模型的具身化任务规划
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
- ChatGPT 是否能捍卫真相?自动辩证评估揭示了大语言模型推理中的不足
我们探讨了如何通过进行辩论式的对话来测试大型语言模型(LLM)的推理能力,以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明,尽管 ChatGPT 等模型一开始可以生成正确的解决方案,但在面对荒谬的无效论据时,它们无法 - 通过知识图谜题提升视觉 - 语言模型的常识能力
本文提出了一种名为 DANCE 的数据增强策略,使用知识图谱线性化技术向现有 VL 数据集中注入常识知识,从而提高 VL 模型的常识能力,并首次提出了基于检索的常识诊断基准进行细致实验验证。
- EMNLPTSGP: 两阶段生成式提示在无监督通识问题回答中的应用
该论文提出了一种基于提示的无监督常识问答框架,并利用预训练语言模型中的隐式知识来生成具有不同类型的问题和可能的答案候选项,实验结果表明 TSGP 显著提高了语言模型在无监督常识推理任务中的推理能力。
- ACLCOFAR: 图像搜索中的常识和事实推理
通过 KRAMT 框架结合图像与查询语言以期在图像搜索中启用常识和事实推理,其检索性能在新数据集 COFAR 上得到评估与相关方法进行比较。
- CASE: 对粗粒度到细粒度认知和情感的协调,以生成共情回应
使用常识认知图和情感概念图构建一个两级策略 (CASE),以对齐粗粒度 (上下文认知和情感状态之间) 和细粒度 (每个特定认知和相应情感反应之间) 的认知和情感,从而实现共情回应,实验证明 CASE 在自动和人工评估中优于现有基线。
- KDD基于语境信息和常识的对话情感识别
提出了一种新的基于提示和语言模型调整的情感识别模型 CISPER,通过融入上下文信息、交往者情感以及常识知识等要素,可以更加准确地识别对话中的情感表达,明显超过当前最优解。
- ACLCAKE: 一种可扩展的常识感知框架,用于多视角知识图完备化
提出了一种基于常识感知的知识图谱嵌入框架,能够从实体概念中自动提取常识,利用其拓展有效自我监督,同时通过常识和事实视角的链接预测实现高质量负采样,提高了知识图谱嵌入模型的性能。
- EMNLP拓宽视野:Geo-Diverse 视觉常识推理
本文构建了 Geo-Diverse Visual Commonsense Reasoning(GD-VCR)数据集,以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型,我们发现它们对于非西方地区 - 基于常识的对话生成:一个实证研究
本研究针对 commonsense 在对话回应生成中的作用进行了实证研究,提出了一种新的对话数据集,并利用 ConceptNet 这个 commonsense 知识库,找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型,该 - EMNLPHypoGen:利用常识与反事实知识进行夸张生成
本文旨在研究句子级夸张生成的计算探索,通过系统研究程度强化的代表性句法模式以及其中每个成分间的语义关系,借助 COMeT 和 reverse COMeT 模型进行共识和反事实推理并生成多个夸张候选,通过训练神经分类器来排名和选择高质量的夸张 - ACL基于语义的无监督常识问答方法
本文提出了一种新颖的基于语义的问题回答方法 (SEQA),该方法使用生成模型先产生一组可能的答案,然后基于这些可能的答案和问题在语义上的相似性来选择正确的答案。该方法在无监督的情况下,通过对四个基准数据集的实验验证了其有效性和健壮性,并取得 - ACLQA-GNN: 用语言模型和知识图谱进行问答推理
该研究提出了一种新模型 QA-GNN,通过关联系统知识图和语言模型,实现对问题与答案之间的共同推理,并取得了在常识和生物医学领域 QA 测试中优于现有模型的表现。
- 律师不诚实?量化常识知识资源中的代表性伤害
本研究使用 ConceptNet 知识库,定量地定义并量化了其偏见,研究了其在四个不同人群的表现差异,并提出了一种基于过滤的偏见缓解方法,最终发现该方法能在减轻资源和模型中的问题方面发挥作用,但会导致性能下降,还需要进一步的研究以建立更公平 - AAAI关键词引导的神经对话模型
本文提出了一种基于常识的关键词导向神经对话模型,通过外部常识知识图谱实现关键词的转移和响应检索,实现对话更快地到达目标关键词,自我对话和人类评估表明我们的模型产生的响应关键词转移更平稳,比竞争基线更快地到达目标关键词。
- AAAICARE:基于潜在概念的常识感性响应生成
本篇论文探讨将理性和情感融合到人工智能对话代理中的可行性,并提出了 CARE 模型,一种基于常识感知的情感响应生成模型,实验证明该模型比仅关注单一方面的现有模型在生成情感响应方面更加准确。