- 评估企业特定 RAG 系统中开源 LLM 的功效:性能和可扩展性的比较研究
本研究分析了开源大型语言模型(LLMs)及其在来自企业网站的特定数据集上的检索增强生成(RAG)任务中的应用。研究发现,结合有效的嵌入技术,开源 LLMs 可以显著提高 RAG 系统的准确性和效率,为企业提供了与专有解决方案相比的可行选择。
- 利用嵌入向量提升细粒度格式分类的语义分割遮罩
为了解决大规模历史文档分类的困难,我们提出了一种融合语义分割和深度学习模型的表征学习策略,通过 ResNets、CLIP、文档图像变换器(DiT)和掩码自编码器(MAE)来生成能够捕捉文档特征的嵌入,而无需预定义标签。我们还贡献了两个新颖的 - AAAI重要信息检索以分类偏好贸易协定的非结构化数据内容
通过嵌入技术减少冗余信息并使用 BERT 进行文本分类,有效提高了长文本的分类性能,同时大大降低了计算复杂度。这一研究为自然语言处理领域的研究人员和工程师提供了有价值的参考。
- eCIL-MU:基于嵌入的增量类学习和机器遗忘
本研究提出了一种基于嵌入技术的非破坏性 eCIL-MU 框架,用于在动态环境中实现类别增量学习和类别级机器遗忘。实验证明该框架能够实现遗忘效果,并具有加速效果(最高达到 278 倍)。
- 推荐系统中的嵌入:一项调查
推荐系统中的嵌入技术是关键,它将高维离散特征转化为低维连续向量以提升推荐性能,并涵盖协同过滤、自监督学习和基于图的技术,同时介绍了自动机器学习、哈希技术和量化技术,旨在改善推荐系统的性能和降低计算复杂性。
- 拓展转导式知识图嵌入模型用于归纳逻辑关系推理
该研究介绍了一种广义的谐波扩展技术,通过利用传统的跨领域知识图嵌入方法学习的表示,推断引入的新实体在推理时的表示,并扩展了跨领域知识图嵌入方法的功能,可以用于知识图的补全和逻辑查询。
- 静态模糊词袋:一种轻量级的句子嵌入算法
该研究提出了一种名为 Static Fuzzy Bag-of-Word 模型的方法,可以在对计算资源的要求较低的情况下,为句子提供预定义维度的嵌入向量,并在语义文本相似性基准中表现出竞争性能。
- 通过弱监督重新利用知识图谱嵌入进行三元组表示
本文提出了一种基于预训练知识图谱嵌入的三元组表示微调方法,利用 Siamese 网络训练,从而在三元组分类和聚类任务中实现了与其他最新技术相比的一致性改进。
- 使用基于 NLP 的文本表示技术支持需求工程任务:一项系统性映射综述
本篇论文探讨了近年来自然语言处理在需求工程领域中的应用,通过系统文献综述的方法,发现除了传统的基于词法和句法特征,利用高级嵌入式表示的需求表征在大部分需求工程任务中均表现出很好的效果;但在其他任务中,基于词法和句法特征的表征仍然更为适用。同 - SIGIR使用元尺度偏移网络学习为冷启动推荐热身物品嵌入
采用 Meta Scaling and Shifting 网络生成各个 item 的缩放和移位函数,提出了 Meta Warm Up Framework (MWUF) 作为一个通用框架来加速冷启动项目的模型拟合和降低数据噪音的影响,并在三个 - EMNLP话语关系嵌入:在社交媒体中表示话语片段之间的关系
本论文提出了一种用于学习社交媒体语篇间关系的新型方法 ——DiscRE,通过弱监督的多任务学习方法,实现了自动创建语篇关系嵌入,取得了在 Twitter 语篇关系分类任务上最佳性能,同时改善了社交媒体因果关系预测的现状。
- SIGIR通过学习如何学习 ID 嵌入,改善 CTR 预测来热身冷启动广告
本文提出了一种名为 Meta-Embedding 的元学习方法,通过先前学习的广告嵌入来生成新的广告 ID 的初始化嵌入,进而提高了 Click-through rate (CTR) 预测的性能,并通过实验结果证明了 Meta-Embedd - 源代码中嵌入式的文献研究
本文综述了单词嵌入技术(如 word2vec)在源代码上的应用,包括将标记、函数 / 方法、方法调用序列、二进制代码等进行嵌入,并提供实验数据和编码嵌入的可视化,我们认为这种数据驱动的自然语言处理技术有很大的潜力应用于未来的源代码分析中。
- 通过在常曲率流形上学习图嵌入实现图流变更检测
提出一种基于常曲率黎曼流形的神经网络和改变检测框架的方法来检测归属图流中的变化,这种方法使用了嵌入技术来代表图,表明使用常曲率黎曼流形更加适合,能够比使用欧几里得流形的方法更好地检测小量的改变。
- EMNLP关系抽取的异构监督:一种表示学习方法
使用来自异构信息源的注释对关系抽取学习进行建模的新型框架 REHession,利用嵌入技术学习上下文信息的分布表示,从而实现了标签真值的推断和精确的关系抽取。
- 量子辅助下学习嵌入式概率图模型
通过嵌入技术添加冗余数据集,可以提高量子模拟器的模型容量,因此,我们的方法可以避免其每次迭代基于推断有效温度的需求,从而加快了学习速度,减轻了参数控制噪声的影响,使其能够验证使用量子计算实现生成模型的可行性,并为这些量子技术在与机器学习相关