字符串的模糊分割

Jan, 2022

Fuzzy Segmentations of a String

Armen Kostanyan, Arevik Harmandayan

TL;DR本文讨论了数据聚类问题中的一种情况，提出了使用前缀结构跟踪文本片段到模糊属性的映射过程来解决模糊模式匹配问题的启发式算法。另外，还考虑了模糊模式下最佳分割整个文本的问题，并使用动态规划方法得到解决。

Abstract

This article discusses a particular case of the data clustering problem, where it is necessary to find groups of adjacent text segments of the appropriate length that match a fuzzy pattern represented as a sequen

data clustering fuzzy pattern heuristic algorithm text segmentation dynamic programming

发现论文，激发创造

基于分割的序列建模

本研究提出了一种基于分割的概率模型来计算序列的概率，并开发了高效的动态规划算法，能够在文本分割和语音识别任务中发现相关分割，并取得了良好的结果。

Feb, 2017

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

使用分层凝聚聚类分割说明性文本

本文提出了一种基于分层凝聚聚类的说明性文本分段方法，该方法使用段落作为基本段落，通过它们之间的词汇相似度进行文本的分层话结构识别。该算法已经证明与现有的线性分割方法具有可比较的结果。

Sep, 1997

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023

分割混乱文本：检测从历史报纸影像中提取的文本边界

利用深度学习模型，我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上，表现显著优于现有技术。

Dec, 2023

基于片段类型特征化的时间序列聚类

该研究提出一种基于两阶段聚类的时间序列聚类新技术，其中使用最小二乘多项式分段过程对每个时间序列进行分段，并将它们映射到相同维度的空间中进行一系列的聚类过程，最终结果很有前途，并在与两种最新方法相比较时显示出性能表现优异。

Oct, 2018

序列切分词汇的对齐分析以提高自动同源词检测

本篇论文利用信息检索中的排名函数，应用于同源检测，针对同源检测的难点，使用语言模型平滑方法和位置分割与错误建模技术，相比其他基线方法在分类和预测中表现更佳。

Nov, 2018

说明性文本的多段落分割

本论文介绍了 TextTiling 算法，该算法可以将说明性文本划分为连贯的多段篇章单元，从而反映文本的子主题结构。

Jun, 1994

模糊聚类中的词向量和有效性指标

本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍，通过应用基于计数的单词嵌入在 covid 数据集上，研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能，我们通过比较不同算法变体的不同嵌入精度来评估实验结果。

Apr, 2022

增量层次文本聚类方法：综述

这篇论文旨在分析 2010 年至 2018 年期间发表的各种层次和增量聚类技术，以进一步组织和比较文本聚类的相关研究，从而提供对该领域研究的更好理解。

Dec, 2023