- MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试
通过构建一个多模式长上下文的基准数据集,本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战,并验证了未来研究更强大的长上下文 LVLMs 的必要性。
- ColPali:视觉语言模型高效文档检索
通过引入 Visual Document Retrieval Benchmark ViDoRe,本研究介绍了一种基于图像的检索模型 ColPali,该模型利用近期的视觉语言模型理解文档并生成高质量的语境化嵌入,通过后期交互匹配机制,ColP - SparseCL:稀疏对比学习用于矛盾检索
SparseCL 是一种使用特殊训练的句子嵌入来有效地识别和检索与给定查询矛盾的文档的新方法。通过结合余弦相似度和稀疏函数的组合度量,此方法显着提高了矛盾检测的速度,并且在大规模文本语料库中表现出较高的准确性和效率。
- 轻量级空间建模以从文件中提取组合信息
我们提出了一种新的基于 K 最近邻图的空间偏差的注意力计算方法 KNN-former,该方法限制实体的注意力仅在 K 最近邻图定义的局部半径内;我们还使用组合匹配来解决多对一映射的问题,此外,与现有方法相比,我们的方法在可训练参数的数量方面 - 通过链接预测的定向标准引用推荐与排名
我们探讨了链接预测作为自动获取与新文档的主题或背景相关的现有文献的代理方法。我们的模型使用基于变压器的图嵌入来编码每个文档的含义,这些文档作为引文网络中的节点呈现。我们展示了我们的模型生成的语义表示在推荐和排名任务中可以胜过其他基于内容的方 - 基于 LLM 的公共行政领域语义模板的多智能体生成半结构化文档
在数字化过程中,特别是在公共管理领域,文件的创建和管理变得越来越复杂和多样化。本文提出了一种结合大型语言模型(LLMs)、提示工程和多智能体系统的新方法,用于生成符合所需结构的新文档。该方法通过从 LLM 进行语义检索生成任务描述,取代了常 - 跨语言文档表征的映射转换器增强嵌入
使用 Transformer Leveraged Document Representations(TLDRs)在不同语言之间实现文档表示,并通过评估多个预训练的多语言 Transformer 模型确定最佳映射方法,结果显示跨语言表示通过预 - 文档图像中水印文字模式检测
我们提出了一个新的基准(K-Watermark),其中包含由水印文本模式渲染程序 Wrender 生成的 65,447 个数据样本,通过人工评定得出的真实性得分为 0.51。为了证明数据集和渲染技术的有用性,我们开发了一个端到端的解决方案( - 原子化搜索长度:超越用户模型
本文研究基于用户体验的现有 IR 度量过于狭窄,如何使用新的系统度量方法来均匀而准确地测量 IR 系统中的所有相关文档,并在超过 70 个 TREC 轨迹以及 2020 年深度学习轨迹中展示了结果。
- KDD使用多模态特征进行设备端文档分类
本文介绍了一种将光学字符识别(OCR)与模型架构集成的新型分类文档的方法,用于在设备上进行分类,防止私人用户数据传输到服务器,并展示在 FOOD-101 多模态数据集上,将模型压缩 30%后展示了竞争性的结果。
- ACL句子排序的拓扑排序
本文介绍了把文章句子排序问题转化为约束求解问题,提出了一种新技术,并提出了人类评估方法,结果表明该新技术在捕捉文档连贯性方面更好。
- AAAI用于文档理解的消息传递注意力网络
该文介绍了一种基于消息传递框架的应用,即面向自然语言处理的消息传递注意力网络(MPAD),并在 10 个标准文本分类数据集上进行了实验,结果表明其性能与现有最先进模型相当,代码公开可用。
- 分层最优输运用于文档表示
该论文介绍了基于分布和话题建模的层次最优输运方法作为文档之间的元距离,以量化文档之间的相似性。这种方法具有解释性和可扩展性,并在 k-NN 分类方面表现良好。
- EMNLP特定主题情感分析有助于识别政治意识形态
利用一种简单的框架将政治意识形态表示为对一组主题的情感极性分布并利用此表示法分析文档中的意识形态倾向,实验证明该方法可实现与其他方法相当的性能,且更简单易解释。
- 简单而有效的多段阅读理解
该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况,通过使用共享标准化训练目标,从多个段落中选择样本并鼓励模型产生全局正确的输出,该方法结合最先进的文档 QA 数据模型进行训练,实验证明了其在多个文档 QA 数据集上具有强大的