- 跨模型理解视觉概念
大型多模态模型通过仅微调单个词嵌入就能生成、检测和分类新的视觉概念,但我们发现模型学习相似的词语表示同一概念的能力是模型特定且不可转移的。我们对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析,发现新的词嵌入是模 - 对比通信分析与基于 PMI 的词嵌入方法的比较
本文将对应分析(CA)与点间互信息矩阵(PMI 矩阵)的分解联系起来,并提出了 CA 的变体 ——ROOT-CA 和 ROOTROOT-CA,这些方法在词 - 上下文矩阵的分解中比基于 PMI 的方法稍微好一些。
- 优化距离加权和窗口大小调度的词向量学习
提出了 Learnable Formulated Weights (LFW) 和 Epoch-based Dynamic Window Size (EDWS) 两种新的方法,用于改进 Word2Vec 的性能,加强了 Word2Vec 在 - 童话中明确引用社会价值观:三个欧洲文化的比较
通过词嵌入和量化词汇差异的罗盘技术,我们研究了葡萄牙、意大利和德国童话中价值观的传播,发现这三个国家的童话中明确的价值观存在差异,但初步研究结果表明仁慈、顺从和普遍主义等价值观在欧洲社会中具有共享的文化理解和表达,暗示了泛欧洲的文化记忆的存 - 轴游览:字游览决定 ICA 转换嵌入中的轴顺序
通过最大化语义连续性,我们的研究提出了一种新颖的方法,即 Axis Tour,用于优化词嵌入空间中轴的排序,并通过实验验证了其构建更好的低维嵌入。
- 高效融合词嵌入和深度学习技术用于抗癌肽分类:FastText+BiLSTM
使用字嵌入和深度学习模型的组合,提出了一种高效的抗癌肽分类模型,实验证明该模型能够提高分类准确性,其中 FastText+BiLSTM 组合在 ACPs250 数据集上达到 92.50% 的准确率,在 Independent 数据集上达到 - KDD工业记忆:利用神经词嵌入和机器学习探索政府调查结果
我们提出了一个文本挖掘系统,支持对大量政府调查结果的探索。通过使用词嵌入、文本分类和可视化,我们转化了爱尔兰政府对工业学校的调查结果,提供了一个互动的基于 Web 的平台,以解开文本中的新历史洞见。
- WASSA 2023 共享任务中的 VISU:利用 BERT 和堆叠嵌入检测新闻反应中的情感
我们的系统 VISU 参与了 WASSA 2023 共享任务(3),对以新闻文章为反应的论文进行情感分类。通过深度学习模型使用单词嵌入表示与定制的预处理策略相结合,我们专注于捕捉情感表达的细微差异。我们的实验使用静态和上下文嵌入(个体和堆叠 - 深度学习自动简历筛选中的国籍歧视
本研究对深度学习方法在自动化简历筛选中的运用进行了探讨,发现由于深度学习模型基于历史数据学习概率分布,因此其所学的词向量存在刻板印象,可能会导致偏向或偏见,需要采取偏差缓解方法。
- Vacaspati: 孟加拉文学的多样语料库
建立了包含超过 11 百万句子和 1.15 亿个词语的 Bangla 语料库 Vacaspati,并使用该语料库训练了 FastText 和 Electra 模型,这些模型在各种下游任务中表现良好,其中 Vac-BERT 的性能优于其他最先 - 通用语言建模代理
本文提出了一种基于古兰经语言结构的新方法,利用词嵌入技术分析动物的语音数据中的频率组件,以解锁动物交流中潜在的相关性和有意义的见解,并利用生物声学模型生成音频以培训自然语言处理技术,旨在找到动物语言背后的意图而不是每个单词的翻译。
- 将上下文引入到文本对文本的隐私化
该论文基于度量差分隐私技术,通过加入标定的噪声到单词的向量,并将这个嘈杂的向量通过最近邻搜索算法之后重新映射回离散词汇表,以实现文本到文本的保护。考虑到例如 ' 银行 ' 这样的歧义词,论文通过利用同义词的向量并结合歧义消解步骤来改进该机制 - 关于仅解码变压器语言模型计算能力的研究
本文从理论上评估解码器型 Transformer 模型的计算普适性,证明单层单注意头的解码器型 Transformer 架构在合理假定下是图灵完备的,同时揭示词嵌入的稀疏性 / 可压缩性是图灵完备性持有的必要条件。
- 检测和减轻词嵌入中的间接刻板印象
本文提出了一种名为 BIRM (Biased Indirect Relationship Modification) 的新方法,该方法考虑到偏见因子对词对出现概率的影响,并在学习嵌入之前修改词之间的偏见关系,以缓解分布式词嵌入中的间接偏见现 - 混合产品距离下的静态词向量频率感知维度选择
本篇论文研究了词频对于维度选择的影响,提出了使用 Mixed Product Distance(MPD)作为指标,选择适当的维度,以优化词嵌入算法的效率 - 性能权衡,并通过实验验证该方法的优势。
- ACLANALOGICAL - 大语言模型长文本类比的新基准
提出了一个新的基准测试,名为 ANALOGICAL,在长文本的类比上对大型语言模型(LLMs)进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中,发现当上升类比分类学时,LLMs 越来越难以识别类比。
- 探索词嵌入偏移聚类在关系分类中的应用
本研究探讨了一种使用不同的聚合策略将单词向量之间的关系表示为向量的方法,并使用聚类模型来分析它们的正确匹配性。实验结果表明,减法聚合策略配合基于中心点的聚类机制在性能上表现更好,该研究旨在为基于词嵌入的无监督方法提供一个识别成对词汇之间关系 - 基于社交媒体分析的新产品开发 (NPD):基于 Word2Vec 和 BERT 词嵌入的比较
该研究介绍了新的方法来支持新产品开发 (NPD) 过程中的情感和意见分类。此研究评估了两种流行的词嵌入技术 Word2Vec 和 BERT,并使用经典机器学习和深度学习算法将它们作为输入来识别情感分析和意见检测的最佳表现方式,并发现 BER - Word-Graph2vec: 基于随机游走采样的单词共现图的高效单词嵌入方法
提出了一种基于图形的单词嵌入算法 Word-Graph2vec,通过将大语料库转换为单词共现图然后从该图中随机抽取单词序列样本并在此抽样语料库上训练单词嵌入,在实验中表现出较高的效率并且随着训练语料的增加,其性能优势变得越来越明显。
- Tsetlin 机嵌入:用逻辑表达式代表单词
本文提出一种利用命题逻辑表示单词语义的词嵌入方法,使用 Tsetlin 机器自编码器进行学习,探讨了其在自然语言处理领域中的重要性,对比了其他模型,研究表明在多项分类任务中表现良好,且具有一定的可解释性。