自动化易读文本分割
本文介绍数字图书为阅读提供便利,特别是对于对于阅读有困难的人,EPub 3 的辅助功能格式(如 FROG)以及采用人工智能中的 Transfer Learning 技术和 Google BERT 等技术,能够自动划分意义单元,从而降低数字图书的制作成本和提升辅助功能。
Oct, 2019
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
本文介绍了一个新的评测基准 YTSeg,着重于非结构化的语音内容,提出了一种高效的层次分割模型 MiniSeg,并对比了现有的基准方法。此外,还将文本分割的概念扩展到实际的 “智能章节切割” 任务中,包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。
Feb, 2024
本文分析了三种采样解码策略,揭示了在提高欺骗人类的能力时,会引入使自动检测系统易于检测的统计异常,同时也表明即使是多句子摘录也有超过 30%的概率欺骗专家人类评分员,强调了使用人类和自动检测器来评估文本生成系统的重要性。
Nov, 2019
利用新模型解决分隔文本中缺失标点符号的问题,并实现在不同领域的高效表现,以及在实际情况中文字格式不良的具有普适性的分词方法。
Jun, 2024
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
Aug, 2018