本研究提出了一种基于分割的概率模型来计算序列的概率,并开发了高效的动态规划算法,能够在文本分割和语音识别任务中发现相关分割,并取得了良好的结果。
Feb, 2017
本研究利用维基百科文章,将文本分割任务作为有监督学习问题进行探究,提出了一个基于这个数据集的文本分割模型,并展示了其在未见过的自然文本上的泛化能力。
Mar, 2018
本文提出了一种基于分层凝聚聚类的说明性文本分段方法,该方法使用段落作为基本段落,通过它们之间的词汇相似度进行文本的分层话结构识别。该算法已经证明与现有的线性分割方法具有可比较的结果。
Sep, 1997
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
利用深度学习模型,我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上,表现显著优于现有技术。
Dec, 2023
该研究提出一种基于两阶段聚类的时间序列聚类新技术,其中使用最小二乘多项式分段过程对每个时间序列进行分段,并将它们映射到相同维度的空间中进行一系列的聚类过程,最终结果很有前途,并在与两种最新方法相比较时显示出性能表现优异。
Oct, 2018
本篇论文利用信息检索中的排名函数,应用于同源检测,针对同源检测的难点,使用语言模型平滑方法和位置分割与错误建模技术,相比其他基线方法在分类和预测中表现更佳。
Nov, 2018
本论文介绍了 TextTiling 算法,该算法可以将说明性文本划分为连贯的多段篇章单元,从而反映文本的子主题结构。
Jun, 1994
本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍,通过应用基于计数的单词嵌入在 covid 数据集上,研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能,我们通过比较不同算法变体的不同嵌入精度来评估实验结果。
Apr, 2022
这篇论文旨在分析 2010 年至 2018 年期间发表的各种层次和增量聚类技术,以进一步组织和比较文本聚类的相关研究,从而提供对该领域研究的更好理解。