- 开发医疗语言模型嵌入空间
我们探索专门为不同医疗数据集调整较小的大型语言模型(LLMs)的专业预训练方法。我们通过传统的掩码语言建模、无监督文本表示的深度对比学习(DeCLUTR)以及利用医疗设置中的元数据类别的新型预训练目标进行了评估。对每个数据集进行了对下游文档 - 文档部分聚类:从文档中检测和描述影响运动
我们提出了一种新颖的聚类流程来检测和表征文档中的影响力运动。该方法通过聚类文档的部分,检测反映影响力运动的聚类,并通过它们与高影响力聚类的关联识别与影响力运动相关的文档。我们的方法在预测文档是否属于影响力运动方面优于直接的基于文档级别的分类 - ANLS*- 生成式大语言模型通用文档处理度量
该论文介绍了一种用于评估生成模型的新度量指标 ANLS*,扩展了现有的 ANLS 度量,适用于信息提取和分类等各种任务,并通过评估 7 个不同数据集和 3 个不同的生成模型,证明了该度量指标的重要性。此外,还对一种新型的文档提示生成技术 S - 基于分类模型的面向学习的 DLP 系统
该研究论文提出了一种统计数据泄漏预防模型,利用统计分析、文档分类以及机器学习等方法,采用 TF-IDF(词频 - 逆文档频率)等流行的术语计数 / 权重函数,引入了 IGBCA(改进的梯度提升分类算法)作为一种高效精确的文档分类方法,可防止 - MM基于摘要生成的数据增强方法用于文档分类
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
- 建模法律推理:人类共识边缘的语言模型注释
使用生成式语言模型对复杂任务进行分类的能力有限,需要进行精细调优,而对法律推理的分类则表明人工注释密集的分类方法仍然具有重要意义。
- 通过多任务预训练提升文档信息分析:一种在视觉丰富的文档中提取信息的鲁棒方法
该研究介绍了一种深度学习模型,针对文档信息分析进行了定制,强调文档分类、实体关系提取和文档视觉问答。该模型利用基于变换器的模型来编码文档图像中的所有信息,包括文本、视觉和布局信息。该模型在预训练阶段加入了三个附加任务,并通过集体预训练方案考 - BibRank:利用元数据的自动关键词提取平台
该论文介绍了一种平台,集成了关键短语数据集,促进了关键短语提取算法的评估,对于希望改进他们的关键短语提取算法并推进自然语言处理领域的研究人员和开发人员非常有价值。
- 可增量计算的神经网络:动态输入的高效推理
深度学习和增量计算方法,采用向量量化处理输入数据,通过离散化中间值以便复用信息,应用于 Transformer 架构,实现了复杂度与输入变动比例成正比的高效增量推理算法,并通过实验证明在文档分类中达到了和传统方法几乎相等的准确性,但处理微小 - MDACE:用代码证据注释的 MIMIC 文档
我们介绍了一个用于长篇医学文档上的证据 / 理由提取的数据集。该数据集可用于评估计算机辅助编码系统(CAC)中代码证据提取方法的性能,以及深度学习模型在多标签分类中的准确性和可解释性。
- ACL使用 RVL-CDIP 评估文档分类
揭示了 RVL-CDIP 标准存在标签误差、多标签问题、测试和训练数据重复、存在敏感信息等问题,并建议建立一个新的文件分类基准。
- ACLChatGPT 在生物医学任务中的评估:与微调生成变换器的零样本比较
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 Bio - 使用任务优化实现端到端文档分类和关键信息提取
本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法,其中采用了文本和布局编码技术,利用余弦相似度度量来对视觉上相似的文档进行分类,进而使用混合整数规划来提取文档中的关键信息,实验表明本方法对于文档预处理等优化技术具有重要作用, - GVdoc:基于图形的视觉文档分类
GVdoc 是一种基于图的文件分类模型,通过生成文档图并使用图神经网络学习节点和图嵌入,在保持良好性能的同时,比同类模型更好地解决了处理识别图形文档的挑战,能够在识别数据稀疏的情况下表现出色。
- 长文本神经自然语言处理技术现状综述
本文综述了深度神经网络在自然语言处理中的应用,重点关注长文本处理的挑战和解决方案,包括文档分类、摘要生成和情感分析等任务,同时列举了当前用于研究的公开数据集。
- BERTTM:利用预训练语言模型的上下文化单词嵌入来进行神经主题建模
本研究开发了一种新型的神经主题模型,结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入,无需使用任何词袋信息即可推断文档的主题分布,实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型,并可处理来自新到达文档的未见单词。
- HiPool:基于图神经网络对长文档建模
本文提出基于图网络的方法来处理长序列的自然语言处理问题,在新的基准测试中,该方法在长序列数据集中表现出比序列模型更好的性能和可扩展性。
- 利用 BERT 语言模型进行阿拉伯语长文档分类
本文针对大量阿拉伯文文档分类问题,提出了两种简单而有效的机器学习模型,并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果,结果显示我们的模型表现更优秀。
- 机器学习的确定性新信息理论
提出了新概念 troenpy,用于量化概率分布的确定性,以替代熵的应用,泛用于机器学习中,尤其在文本分类和序列数据处理方面表现突出。同时定义了量子 troenpy 以量化量子系统的确定性。
- HeRo: RoBERTa 和 Longformer 希伯来语语言模型
本文提供了 HeDC4 数据集、HeRo 和 LongHeRo 两种语言模型和用于情感分析、实体识别、问答和文档分类等任务的表现,它们在希伯来语 NLP 领域填补了现有资源之间的不足,并在所涉领域中取得了最先进的性能表现。