- ChatGPT 引导的零样本学习中的语义
我们研究了如何利用 ChatGPT 对零样本学习任务中的类语义进行增强,通过使用 ChatGPT 获得每个类的文本描述,结合类名和 ChatGPT 生成的描述生成的词嵌入来丰富词向量,并在各种 2D 图像和 3D 点云数据集上评估我们的方法 - 花生是否能与分布语义相恋?
通过计算语言模型和词向量,我们模拟了句子上下文对语义预期的影响,结果表明情境模型可能并不是解释上下文影响的唯一方式。
- 研究人类大脑句子理解的深度学习模型
回顾了和人脑活动相关的人工语言模型研究,发现人工神经网络中单词意义的神经表征与其使用的密集词向量高度吻合,并且人工神经网络内部的处理层次与人脑有相似之处,但是依据研究的不同而有所不同。因此,建立人工神经网络作为自然语言理解过程模型的当前挑战 - EigenNoise: 一种对启动表示进行对比学习的先验
本研究提出了一种基于稠密、独立共现模型的简单初始化方案,具有与经验训练的 GloVe 相当的性能,并探索了基于谐波语言结构理论的更智能初始化方案的可能性。
- AAAI自我监督的语义转移:单语词嵌入任务的模拟学习方法
本文提出了一种自监督的方法,通过在输入语料库中引入单词向量的扰动来生成训练样本,用于模拟词汇语义变化,以及通过任何对齐方法检测语义变化并选择基准词,具有很大的改进潜力,并在三种不同数据集上进行实验结果展示。
- EMNLP词语旋转距离
本研究旨在解决文本相似性度量中的挑战,提出了一种基于词向量旋转的新方法,利用词向量的模长和角度区分词的重要性和相似性,并通过此方法,以优化输送成本方式计算对齐相似度,相较于其他传统对齐方法和基线模型更为优越。
- AAAI解析作为预训练
本文讨论了使用预训练架构(而非解码)进行单语种全刻度句法分析(成分和依赖)的问题,并使用序列标注作为模型,探讨了不同词向量的句法敏感性。实验分析显示,使用预训练编码器的结果优于现有序列标记解析器,F1 评分为 93.5%(PTB)和 78. - AAAI利用半同胞回归对词嵌入进行因果去噪
本文提出了一种基于因果推断框架下的新型词向量后处理方案,并应用 Half-Sibling Regression 算法,以识别和消除噪音,实现对预训练词向量的增强,相较于之前的方法具有可解释性和透明度,评估结果表明在标准水平评估任务和情感分析 - ACL医疗信息学分类问题中基于单词和上下文表示的比较
本文研究了分布式文本表示的应用,比较了基于单词向量和基于上下文的句子向量两种表示方式在不同分类问题下的效果,结果显示,基于 ELMo,Universal Sentence Encoder,Neural-Net Language Model - ACL使用相似度度量选择 NER 的预训练数据
本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性,并在超过 30 个数据对上展示这些方法是好的预测器。结果表明,预训练的语言模型比预训练的词向量更有效,更可预测,但是预训练的词向量在预训练数据不相似时表现更好。
- 上下文词表示:一个上下文介绍
这篇论文介绍了自然语言处理领域的一个分支 —— 词向量,它们的产生、作用、历史发展以及现今面对的挑战,同时讨论了最新的研究成果 —— 上下文词向量。
- AAAI通过概念否定实现单词向量的无监督后处理
本文介绍了一种基于矩阵嵌入器的新型词向量后处理技术,能够抑制词向量中高方差的潜在特征,该方法是纯无监督学习的,不依赖于任何语料库或外部语言数据库,研究结果表明,这种词向量后处理方法在内在词汇评估任务中表现比现有的前沿方法更好,并且后处理后的 - ICLR多语言词嵌入的无监督超级对齐
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
- ACL探究线性词语类比
研究发现,使用向量算术操作可以解决单词类比问题,本文提供了 skip-gram 模型中算术运算符对应的非线性嵌入模型的正式解释,证明了线性子结构存在于向量空间中,通过从技术上的角度证明了降低高频词权重的有效性以及欧氏距离在捕捉单词不相似性问 - ACL无监督学习风格敏感词向量
本文初次提出一种以非监督方式捕捉词汇风格相似性的研究方法,通过扩展 CBOW 模型,使用更宽的上下文窗口来学习风格敏感的词向量,并引入预测词汇风格相似性的新任务和基准数据集,实验证明了这种方法的有效性.
- ACLExtrofitting: 用语义词典丰富词汇表示及其向量空间
本文提出了一种名为 extrofitting 的后处理方法,使用语义词典丰富单词表示和其向量空间,包括向所有单词向量上扩展 1 个或多个维度,填充代表值并将语义知识传输到这些扩展的维度。此外,采用线性判别分析进行向量空间映射,得到最终的词向 - Word2Bits - 量化词向量
使用 1-2 位每个参数的量化函数学习高质量的量化词向量,该函数还可作为正则化器,从而在 word similarity 和 question answering 任务中取得更好的效果,并且占用的内存和存储空间显著减小。
- ACL使用单语和跨语言约束语义专业化分布式词向量空间
Attract-Repel 算法通过注入从词汇资源中提取的约束来改善词向量的语义质量,进而产生语义专业的跨语言向量空间,这有助于从高资源语言到低资源语言的语义转移,并取得了在多语种对话状态跟踪等任务中的最优结果。
- CVPR快速零样本图像标记
本篇论文研究了图像与单词之间的关系,发现相关的单词向量在特定方向上超过无关的单词向量,依此提出了一种基于线性映射和深层神经网络的快速图像标注模型,其具有良好的性能和鲁棒性,并能够处理此前未见过的标签。
- 使用词相似性任务评估词嵌入存在的问题
使用词相似度任务作为词向量内在评估的代理,但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题,并总结已有的解决方案,最后指出这种方法不具可持续性,需要进一步研究词向量的评估方法。