快速零样本图像标记
本文提出了一种基于向量投影网络的少样本检测方法,利用上下文词嵌入在每个目标标签向量上的投影作为单词 - 标签相似性,实现了一种等效的标准化线性模型方法。实验证明,该方法可以明显超越其他变量,在 SNIPS 和 NER 测试集的 5 个样本设置中,我们的方法分别在 F1 得分上比最强的少样本学习基线高出 6.30 和 13.79 分。
Sep, 2020
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型,并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别,动作定位和文本 - 视频检索的 10 个公共基准测试,尽管优化参数显著减少,但在封闭集,少量样本和零样本情况下,我们实现了与现有方法相当或最新的性能,实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。
Dec, 2021
本文通过分解和实证分析经典算数词类比测试,提出了两种新的指标,用于解决标准测试存在的问题,并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性;结果表明,尽管标准的词类比测试存在缺陷,但一些受欢迎的词嵌入方法仍然编码语言规律。
Oct, 2020
研究发现,使用向量算术操作可以解决单词类比问题,本文提供了 skip-gram 模型中算术运算符对应的非线性嵌入模型的正式解释,证明了线性子结构存在于向量空间中,通过从技术上的角度证明了降低高频词权重的有效性以及欧氏距离在捕捉单词不相似性问题上的信息论解释。
Oct, 2018
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
本文提出了一个视觉和语音相融合的模型,用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中,使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对,并使用单词到图像的关注机制来确定词 - 图像相似性。新模型的性能比现有方法更好,且需要更少的样本数。
May, 2023
该研究提出了一种简单的方法来解决 zero-shot 任务中邻居向量被强权向心性卡住的问题,即通过考虑多个向量中潜在邻居的相似度分布来校正错误结果。结果表明,这种校正方法在跨语言、图像标记和图像检索等领域的 zero-shot 任务中均获得了稳定的改善。
Dec, 2014
本文提出一种使用卷积神经网络和加权排名损失函数的方法,从单词图像中直接预测语义概念,实现文本识别和检索中的语义关联,实验证明该方法的正确性和高度准确性。
Sep, 2015
本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。
Sep, 2017