Sep, 2023

长文件的内容减少、惊讶度和信息密度估计

TL;DR我们提出了四项用于估计长文档信息密度的标准,包括惊讶度、熵、均匀信息密度和词汇密度,并提出了一种基于注意力的临床笔记词语选择方法和多领域文档的机器摘要方法。实证结果表明不同领域的长文本信息密度存在系统差异,基于注意力的词语选择方法对于长临床笔记的自动医学编码具有有效性。