- 文本嵌入模型中的偏差
这篇论文研究了文本嵌入模型的偏见程度,特别是在性别维度上。分析表明,文本嵌入模型容易出现性别偏见,但表现方式各异。虽然有一些模型之间的共性,例如把护士、家庭主妇和社交女士等职业更多地与女性身份相关联,而把 CEO、经理和老板等职业更多地与男 - 结合嵌入和领域知识进行职位发布的重复检测
我们提出了一种用于检测职位描述中的重复内容的方法,结合基于字符相似度的重叠度、文本嵌入和关键词匹配的方法,取得了令人信服的结果。使用我们的方法开发的工具已经在生产中使用,并且来自实际使用的反馈证实了我们的评价。
- 揭示文本 - 图像扩散模型中的文本嵌入
本文研究了文本嵌入空间,发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义,并揭示文本嵌入本身具有多样的语义潜力,通过奇异值分解来进一步揭示这一特性,这些发现对图像编辑和语义发现具有实际应用价值。
- 实现统一的多模态推理框架
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
- AAAI通过自己鉴别的编码器加速对比性语言 - 图像预训练
利用 ECLIPSE 框架,在统一的文本嵌入空间内解决图像与文本不匹配问题,并在加速推理速度的同时,优于其他方法的性能表现。
- 表格数据处理中的字符串向量化:较大的语言模型何时更好?
通过对 14 个分析任务和模糊连接基准测试进行研究,我们介绍了一种简单的列特征化方法,揭示了脏类别和多样条目两种设置,并表明大型语言模型提高了数据处理的效果,但在嵌入目的中调整它们是有用的。
- 优化角度的文本嵌入
提出一种新的角优化文本嵌入模型 AnglE,有效缓解余弦函数饱和区域的负面影响,改进语义文本相似性任务性能,通过实验证明 AnglE 在多个任务中优于其他模型。
- Forgedit:通过学习和遗忘进行文本指导的图像编辑
通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型,我们设计了一种新的文本引导图像编辑方法 Forgedit,具有强大的编辑能力,并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic,实现了最新 - 朝向具有多阶段对比学习的通用文本嵌入
我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我 - 嵌入式科学领域聊天机器人
本文研究了如何将已有方法与软件工具组合使用以制作出针对某一特定领域的聊天机器人,采用文本嵌入查找来为大型语言模型提供该领域的上下文信息,同样证实了现有的图像嵌入方法可以用于跨出版物进行搜索和检索。
- Cones 2: 多主体定制图像合成
研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题,并提出了一种方案,该方案利用文本嵌入和布局来生成图像,并通过实验证明了其在多个主题的自定义方面具有优越性。
- 元学习对抗域适应网络用于小样本文本分类
本文提出了一种新的元学习框架,集成对抗域适应网络,旨在提高模型的适应能力并为新类别生成高质量的文本嵌入。在四个基准数据集上进行了大量实验,结果表明我们的方法在所有数据集上都明显优于现有技术,特别是在 20 个新闻组数据集上,1-shot 和 - SIGIR机器为什么无法学习数学
本文探讨了在 STEM 类学术文献检索中,应用机器学习的一些挑战,以及目前普遍使用的文本 embedding 技术对于数学文档的不足,同时研究出一些让计算机更好地理解和学习数学的方面。
- ICLRCBOW 不是万能的:将 CBOW 与组合矩阵空间模型相结合
通过提出核心技术 —— 连续矩阵空间模型的学习算法 ——CMOW,结合 CBOW(连续词袋模型)和 CMOW 的优点,实现更好地标注文本信息,具有广泛的应用前景。