- 可扩展的领域通用抽象命题分段
将文本分成细粒度的含义单元对于广泛的自然语言处理应用非常重要,本文重点讨论了抽象命题分割的任务,并提出了评估指标和可扩展准确的命题分割模型,同时介绍了领域泛化方法,并分享了一个简单易用的 API。
- TocBERT: 使用双向转换器进行医疗文档结构提取
TocBERT 是一个使用双向转换器进行文本分割的新解决方案,它通过从语义表示中检测标题和子标题来训练一个监督式的解决方案,该任务被制定为命名实体识别(NER)问题。它在医学文本分割应用中表现出色,用于细调 Bio-ClinicalBERT - ACL从文本分割到智能分章:一个用于视频转录结构化的新型基准测试
本文介绍了一个新的评测基准 YTSeg,着重于非结构化的语音内容,提出了一种高效的层次分割模型 MiniSeg,并对比了现有的基准方法。此外,还将文本分割的概念扩展到实际的 “智能章节切割” 任务中,包括非结构化内容的分割、生成有意义的片段 - Hi-SAM:基于层次化文本分割的 Segment Anything 模型融合
使用 Segment Anything Model(SAM)为基础,本论文介绍了 Hi-SAM,一个利用 SAM 进行分层文本分割的统一模型,能够在四个层次(笔画、词、文本行和段落)上实现文本分割并进行布局分析。
- 分割混乱文本:检测从历史报纸影像中提取的文本边界
利用深度学习模型,我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上,表现显著优于现有技术。
- EMNLP滤波半马尔可夫 CRF
这篇论文介绍了一种新的半马尔可夫条件随机场(Semi-Markov CRF)的变种 —— 过滤式半马尔可夫条件随机场(Filtered Semi-Markov CRF),该方法通过引入过滤步骤来消除无关的片段,降低了复杂性和搜索空间,并在多 - 利用文本区域增强的面向对象分层表示的自我监督场景文本分割
通过自我监督场景文本分割算法,基于对象为中心的分割方式将图像分割为文本和背景层,改进网络对文本的敏感性,以解决像素级标签和合成数据集的问题,取得了比现有算法更好的效果。
- 评估语义变化的句子嵌入模型的比较研究
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句 - PSSTRNet:渐进式分割引导的场景文本去除网络
我们提出了一种简单的 PSSTRNet,用于通过场景文本分割逐步删除图像中的文本,实现了最先进的性能表现。
- EMNLP走向统一的文本分割和长文摘要
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
- 结构化摘要:统一的文本分段和段落标注作为生成任务
提出一种单一的编码器 - 解码器神经网络方法,通过结构化总结的形式同时训练文档和对话数据的文本切片和标签任务,并成功展示了该方法在所属领域的顶尖性能以及其重要性。
- 字符串的模糊分割
本文讨论了数据聚类问题中的一种情况,提出了使用前缀结构跟踪文本片段到模糊属性的映射过程来解决模糊模式匹配问题的启发式算法。另外,还考虑了模糊模式下最佳分割整个文本的问题,并使用动态规划方法得到解决。
- ACL神经序列分割作为确定最左段的方法
提出一种新颖的基于片段级别的文本分割框架,通过 LSTM 技术构建短语表示,并利用循环神经网络模型迭代确定段落最左侧的片段。实验证明,在 3 个数据集上,该方法在句法分块和中文词性标注方面取得了显著优于先前最佳模型的表现,并在建模长期依赖方 - 重构文本分割:一个新的数据集和文本特定的优化方法
本文提出了一个新的文本分割方法 TexRNet 和一个大规模的细致注释的文本数据集 TextSeg,通过引入文本特定的网络设计,例如关键特征池化和基于注意力的相似性检查,以及 trimap 和判别器损失来解决传统分割模型上存在的问题,包括非 - ACL技术支持问题分割改进
本文介绍了一种利用多种语言模型来实现针对技术支持问题的分割,以提高解决问题的效率,并通过案例分析证明了这种分割可以提高问题回答的准确性。
- AAAI双层 Transformer 和辅助一致性建模,提升文本分段
提出了一种新的监督式文本分段模型,它基于简单而明确的连贯性建模,并包括两个层次相连的 Transformer 网络的神经架构,它是一种多任务学习模型,并且通过将句子级分段目标与区分正确顺序的连贯性目标耦合来实现。该模型称为具有连贯性感知的文 - EMNLP毒理学研究中的非监督式研究描述符鉴定:一项实验研究
提供一组标准描述研究参数的标准,本文研究了一种无监督学习方法,通过利用二进制分类器来识别具有重要研究参数的文本段(句子),相比随机选择的句子,通过候选句子进行训练得到的分类器表现更好,支持我们的方法能够准确地识别研究描述符。
- 基于注意力机制的神经文本分割
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
- ACL文本分割作为监督学习任务
本研究利用维基百科文章,将文本分割任务作为有监督学习问题进行探究,提出了一个基于这个数据集的文本分割模型,并展示了其在未见过的自然文本上的泛化能力。
- MM拉丁文字排版的自下而上文本行分割程序
本文介绍了一种自下而上的方法,用于对拉丁文字体写或印刷的文本行进行分割,该方法采用图像形态学,特征提取和高斯混合模型的组合来执行此任务,并实验证明了该程序的有效性。