用人类判断调整嵌入空间中可解释维度

ACLApr, 2024

用人类判断调整嵌入空间中可解释维度

Adjusting Interpretable Dimensions in Embedding Space with Human Judgments

Katrin Erk, Marianna Apidianaki

TL;DR使用种子词义空间和人类评价指导相结合的方法，在预测物体属性和风格属性方面，表现出了明显更好的性能，尤其是在种子词义空间不能很好工作的情况下。

Abstract

embedding spaces contain interpretable dimensions indicating gender, formality in style, or even object properties. This has been observed

embedding spaces interpretable dimensions object properties stylistic properties seed-based dimensions

发现论文，激发创造

通过概念化解释嵌入空间

本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法，并展示了该方法在语义表示方面的实用价值，如发现潜藏的偏见和比较不同模型间语义的差异。

Aug, 2022

从人类行为中揭示可解释的对象表示

通过人类行为判断对 1854 个物体类别的图像进行稀疏、非负表示，找出表达分类、功能和感知属性程度的低维嵌入的尽可能解释人类行为判断可变性的潜在相似性结构，从而展示了这些嵌入形态在阐释人类概念物体表示方面的预测能力。

Jan, 2019

利用人类相似度评判修剪词向量以提高可解释性

通过一种有监督学习方法，针对特定领域（例如运动、职业），识别出一组强烈改善人类相似度判断预测的模型特征子集，并通过两种方法解释所保留特征的语义，从而揭示了人类如何根据性别包容性和国际性来区分运动类别，以及不同领域中特征对不同语义维度的预测能力。对于职业特征而言，最能预测认知、情感和社会维度，而对于水果或蔬菜特征而言，则最能预测味觉维度。讨论了对于人工智能系统与人类知识之间的对齐的意义。

Oct, 2023

可解释性超密集词向量的分析方法

研究 word embeddings 的可解释性，通过旋转 word spaces 进行 interpretable dimensions 的识别并保留原有信息，提出了 DensRay 方法进行 closed form 计算，相比于 Densifier 更加鲁棒，对 lexicon induction 和 word analogy 进行了实验，并展示了可解释性 word spaces 如何应用于去除嵌入中的性别偏见。

Apr, 2019

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

DINE: 节点嵌入的维度可解释性

通过开发解释节点嵌入维度的人类可理解的解释，我们提出了一种新方法，用于改进现有的节点嵌入模型的解释性，同时保持其在链接预测方面的有效性。

Oct, 2023

关于句子嵌入的维度

通过维度分析，我们提出了一种双步训练方法，优化编码器和池化器以减轻低维场景中的整体性能损失，从而显著提高低维句子嵌入的性能。

Oct, 2023

学习和评估稀疏可解释的句子嵌入

本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中，基于主题连贯性方法引入了一种新的、定量的自动化评估指标，并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。

Sep, 2018

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

可解释的非度量盒嵌入预测图像之间的视觉重叠

本文介绍了一种可解释的图像嵌入方法，通过对已知具有 3D 可视表面重叠的训练示例进行测量，从而学习场景特定的相似度，并通过简单且快速的方式减少了在不同比例下的查询图像匹配和几何验证中的搜索成本。

Aug, 2020