本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中,基于主题连贯性方法引入了一种新的、定量的自动化评估指标,并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。
Sep, 2018
通过新颖的去噪 k 稀疏自编码器的变种,我们生成了高效且可解释的词向量,并在大规模人类评估中表现出比 GloVe 和 word2vec 更好的可解释性和性能。
Nov, 2017
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
本文研究了词向量的解释问题,提出了一种算法可通过上下文信息和目标词语推断其意义,进而利用循环神经网络生成该词汇的定义,实现对词向量的直接解释。同时,作者提出了一个高质量的词汇上下文 - 定义数据集,用于词义消歧与定义建模。经实验测试,该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。
本文提出使用稀疏单词表示来压缩神经语言模型的参数量,以减少计算资源需求并提高性能表现。
Oct, 2016
通过人类行为判断对 1854 个物体类别的图像进行稀疏、非负表示,找出表达分类、功能和感知属性程度的低维嵌入的尽可能解释人类行为判断可变性的潜在相似性结构,从而展示了这些嵌入形态在阐释人类概念物体表示方面的预测能力。
Jan, 2019
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015
该研究提出了一种理论方法,将词嵌入和知识图谱中的实体及其关系的几何形状联系起来,以便更好地理解它们的语义结构和性能。
Feb, 2022
利用大型语言模型将嵌入向量转化为可理解的叙述,解决了嵌入向量难于解释和使用的问题,增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。
Oct, 2023
本文提出了一种超高维度的表示方案,结合了符号和潜在形式的稀疏表示和神经模型的密集表示,具有直接可控的稀疏度,可以用于高效存储和搜索,并且在 MS MARCO 和 TREC CAR 数据集上得到了比其他稀疏模型更好的性能。
Apr, 2021