自动化易读文本分割

Jun, 2024

Automating Easy Read Text Segmentation

Jesús Calleja, Thierry Etchegoyhen, David Ponce

TL;DR通过使用遮蔽和生成式语言模型以及组成句法分析，我们研究了自动 Easy Read 文本分割的新方法，并进行了自动化和人工评估，结果表明自动化 ER 分割的可行性以及与专家驱动的人工分割之间的差距。

Abstract

easy read text is one of the main forms of access to information for people with reading difficulties. One of the key characteristics of this type of text is the requirement to split sentences into smaller grammatical segments, to facilitate reading. →

easy read text automated segmentation methods masked and generative language models constituent parsing automated er segmentation

发现论文，激发创造

用于阅读辅助的文本自动分割成有意义的单元

本文介绍数字图书为阅读提供便利，特别是对于对于阅读有困难的人，EPub 3 的辅助功能格式（如 FROG）以及采用人工智能中的 Transfer Learning 技术和 Google BERT 等技术，能够自动划分意义单元，从而降低数字图书的制作成本和提升辅助功能。

Oct, 2019

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023

历史文献的文本行分割：一份调查报告

本文调研了历史文献数字化领域的文献分割、文本行分割、文字检索、鉴定和提取等方面所采用的各种方法，讨论了低质量和复杂性文献自动文本行分割的挑战。

Apr, 2007

从文本分割到智能分章：一个用于视频转录结构化的新型基准测试

本文介绍了一个新的评测基准 YTSeg，着重于非结构化的语音内容，提出了一种高效的层次分割模型 MiniSeg，并对比了现有的基准方法。此外，还将文本分割的概念扩展到实际的 “智能章节切割” 任务中，包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。

Feb, 2024

当人类被欺骗时，自动检测生成文本最容易

本文分析了三种采样解码策略，揭示了在提高欺骗人类的能力时，会引入使自动检测系统易于检测的统计异常，同时也表明即使是多句子摘录也有超过 30％的概率欺骗专家人类评分员，强调了使用人类和自动检测器来评估文本生成系统的重要性。

Nov, 2019

任何文本的分段：一种用于鲁棒、高效和适应性句子分割的通用方法

利用新模型解决分隔文本中缺失标点符号的问题，并实现在不同领域的高效表现，以及在实际情况中文字格式不良的具有普适性的分词方法。

Jun, 2024

基于注意力机制的神经文本分割

本文提出了一种基于注意力机制的双向 LSTM 模型，使用卷积神经网络学习句子嵌入，利用上下文信息预测文本分段，相比现有的竞争基准方法，在三个基准数据集上的 WinDiff 分数提高了约 7%。

Aug, 2018