- TIFG:大型语言模型中的基于文本的特征生成
通过利用文本信息进行特征生成,本论文介绍了一种基于语言模型的新型文本信息特征生成框架,通过使用检索增强生成(RAG)技术检索可能相关的特征并生成新的可解释特征,丰富特征空间并进一步挖掘特征关系。实验证明,该方法能够生成高质量且有意义的特征, - 语言模型可进行知识追踪:将语言模型与知识追踪任务简单而有效地整合的方法
利用语言模型集成的知识追踪方法在在线学习中提高了模型性能,并解决了冷启动问题。
- 从文本到像素:MLLMs 中的长篇背景理解的进展
通过将文本序列压缩到视觉像素空间中的图像,SEEKER 旨在优化长文本的紧凑编码,以便于在固定的令牌长度预算内高效处理长文本,并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。
- 文本信息如何影响多模态上下文学习的检索?
通过使用多模态数据,我们的研究深入评估了文本信息对无监督选择多模态上下文示例的影响,揭示了检索器性能对所使用模态的显著敏感性,我们还介绍了一种新颖的有监督多模态大语言模型检索器(MSIER),通过使用神经网络选择样例以提高多模态上下文学习效 - KDD金融年报特征提取的多任务学习
通过使用多任务学习方法,结合不同任务上的信息,我们提出了多种金融文本分类方法,重点关注金融情绪、客观性、前瞻性句子预测和 ESG 内容检测。然后,我们使用这些分类器从 FTSE350 公司的年度报告中提取文本特征,并研究 ESG 定量分数与 - 语言导向的医学图像分割的跨模态条件重构
提出一种新的跨模态条件重构来从事以语言指导的医学图像分割,并通过实验证明了其在不同数据集上的优越性能
- 基于优化的提示注入攻击 LLM-as-a-Judge
LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-J - COLING释放不平衡模态信息的力量:多模态知识图谱补全
多模态知识图谱补全的方法 AdaMF-MAT 结合结构信息、视觉信息和文本信息,通过自适应模态融合和模态对抗训练实现对不平衡模态信息的充分利用,在三个公开数据集上超过 19 个最新方法并实现了新的最佳结果。
- 基于视觉 - 语言模型的图像融合
通过利用不同源图像中的显式文本信息来指导图像融合,我们提出了一种名为 FILM 的新型图像融合范式,首次利用 ChatGPT 中的文本信息,通过交叉注意力从源图像中提取关键视觉特征,实现了更深层次的上下文理解,最终生成了融合图像。在红外 - - 多语言语言模型上的文本嵌入逆向攻击
通过研究多语言逆向嵌入攻击,发现多语言模型比单语言模型更容易受到逆向攻击,这突出了需要进一步研究和增强 NLP 安全领域的防御措施。
- 少即是多:多模态少样本学习的深入研究
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集 - AAAI知识图谱错误检测与对比置信度调整
我们提出了一种知识图谱错误检测模型 CCA,通过整合三元组重构中的文本信息和图结构信息,以更好地区分语义,设计交互式对比学习来捕捉文本和结构模式之间的差异,并通过构建包含语义相似噪声和对抗噪声的现实数据集来验证实验结果,表明 CCA 在检测 - 基于深度学习的孟加拉标牌地址信息的检测、识别和解析
通过深度学习模型,我们提出了一个端到端系统来高效地检测、识别、校正和解析孟加拉语标牌上的地址信息,并设计了一种新颖的地址文本校正模型和孟加拉语地址文本解析器。
- 选择与增强:增强型密集检索知识图增强
使用多任务框架,将文本描述与知识图谱实体相关联,以改进知识图谱的性能,并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示,与传统的卷积神经网络相比,使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal - 利用自然语言处理增强大学招生中的整体评估:基于论文和推荐信的分析
本研究采用机器学习模型对一个高选择性的美国大学的本科入学申请数据进行实证评估,发现排除保护属性会严重降低预测入学决策的性能,而通过文本信息的加入能够部分恢复模型性能,但未能完全取代通过保护属性构建的多样性类。
- 使用从端到端自动语音识别获取的声学 - 文本子词表示进行音频到意图的转换
提出了一种从音频和文本信息中使用子词标记进行用户意图识别的方法,使用了端对端 ASR 模型提取音频信息与 CBOW 模型分析文本信息构建表示,通过结合位置编码的方式处理多个 ASR 假设同时存在的问题,实现了对于语音助手的用户意图高精准度的 - 推文的多模态实体链接
本文探讨多模态实体链接的任务,提出了一种方法来构建一个完全注释的 Twitter 数据集,同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征,并在 Twitter 数据集上验证了该方法的有效性,并强调在可用时,利用视觉信息 - COLINGDocBank: 一个文档布局分析基准数据集
本文介绍了 DocBank,一个包含 500K 篇文档页面的基准数据集,其中包含细粒度的令牌级别的注释,用于文档布局分析的多模态方法的性能提高研究。实验结果表明,使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。
- ACLKEPLER: 知识嵌入和预训练语言表示的统一模型
本文提出了一种名为 KEPLER 的模型,将知识嵌入和预训练自然语言表示模型有效地结合起来,能够在多种自然语言处理任务上取得最先进的表现,并且能够作为一种归纳式知识嵌入模型在 KG 链接预测中取得显著的效果,同时构建了大规模的带有实体描述的 - 文本风格转换中的信息分解
本文探讨使用文本风格转换框架来有效分解不同方面的文本信息的潜在表示,并提出了几种经验方法来评估信息分解的质量,通过与几种最先进的文本风格转换方法验证了这些方法。 信息分解质量的提高与输出和人类编写的改写之间的双语评估的 BLEU 分数表现出