- JADS: 自主超越联合方面发现和摘要的框架
通过将主题发现和总结集成到单一步骤中,我们提出的 JADS 算法从文本数据中发现方面,并生成主题的总结,其在优化总结和聚类算法中表现出更好的性能和稳定性,此外,从 JADS 中获得的嵌入展现出更优越的聚类能力,我们所提出的方法在语义对齐和准 - 自动 FAQ 生成
从 Stanford 哲学百科网站获取的大量文本文档中提取突出的问题和相应的答案,使用现有的文本摘要、文本排序和问题生成工具创建初始的问题和答案集合,通过人工评估得出平均参与者认为 71% 的问题具有意义。
- 语法与拼写错误校正:基于 BART 和 MarianMT 的 Transformer 语言模型响应性调查
这项研究旨在分析在文本文件中出现的各种错误,并利用两种先进的深度神经网络语言模型 (BART 和 MarianMT) 纠正文本中存在的异常。通过可用的数据集进行这些模型的迁移学习,以调整其错误纠正能力。通过比较研究发现,虽然这两种模型都可以 - MM魔幻标记:利用 LLM 维护文档外部标记
这篇论文研究了使用语言模型在文档中绑定元数据的方法,以实现自动标记和丰富注释的功能,并通过实验验证了系统的准确性和性能。
- 利用上下文信息进行高效的实体显著性检测
在文本文档中,通过对中的有限实体进行鲜明实体识别可以在多个下游应用领域中实现重要性提取,本研究通过细调中型语言模型以交叉编码器结构取得重大性能提升,同时展示了零 - shot 指令调整语言模型在此任务上表现不佳,凸显其独特且复杂性质。
- 可解释的图谱谱聚类文本文档
通过提出基于组合 Laplacian 的图谱聚类结果的解释方法,实现了将聚类结果与文本内容之间的桥梁构建, 找到了与文档内容相关的谱聚类的解释方法。
- CultureBERT:为企业文化微调基于 Transformer 的语言模型
本研究将监督式机器学习应用于从文本文档中度量企业文化的文献中,通过对员工评论数据集的人工标注,细调基于转换器的语言模型进行分类预测,相比传统的文本分类方法,我们的语言模型可以将员工评论的 16 至 28 个百分点与人类评估者产生一致性,并将 - 考虑同义词的哈萨克语文本文档相似度测量方法:扩展到 TF-IDF
本文提出了一种 TF-IDF 方法的扩展,其中考虑了同义词,实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。
- 使用远程监督对文本匿名化模型进行引导
本文提出一种基于远程监督的方法,利用知识图谱自动标注出表示个人信息的文档,以训练文本匿名化模型,进而实现 k - 匿名。通过在 Wikipedia 等网站上提取的知识图谱,并利用 RoBERTa 模型进行评估,本方法显示出潜力,但也揭示了可 - 文本描述的地理移动划分
研究文本中描述的运动是有挑战性的,由于空间 term,语言构造以及时间参照等多因素影响。研究通过实验,发现人们用来区分不同运动描述的特征,为基于文本的运动计算分析提出了建议。
- 主题建模的少样本学习
本文提出了一种基于神经网络的少样本学习方法,该方法可以从少量文档中学习主题模型,并通过 EM 算法的先验概率对主题模型参数进行估计,通过随机梯度下降方法使测试似然性达到最大值,在实验中,我们证明了该方法在三个真实文档集上表现出比现有方法更好 - EMNLPOpenFraming: 我们提供 ML; 你提供数据。与数据互动,发现其框架
介绍了一种基于主题建模和深度学习的系统,用于分析和分类文本文档中的框架,该系统提供了预训练的框架分类模型以及适用于用户提供的语料库的新型分类模型的易于使用的流水线,旨在使研究人员能够获得文档的框架
- ACL局部聚合词向量的向量化 (VLAWE): 一种新的文档级表示方法
本文提出了一种基于聚合单词嵌入向量来表示文本的新方法,并将其用于文本分类任务,其中利用词向量的聚类来获得文档嵌入向量,并且 VLAWE 表示法能够达到很好的效果。
- 子线性时间学习行列式点过程
该论文提出了一种新的行列式点过程的类别,可用于推理和参数学习,特别适用于在指数级别上定义的文本文档的概率建模。应用该技术进行文档摘要,并对可能达到 2^500 个项目的情况进行了演示。