- 远程文本对哪些标记有益处?长上下文语言建模分析
研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文,通过分析文本的概率变化,发现内容词汇和词汇的起始部分受益最大,上下文中的频繁模式也对预测产生显著影响,同时,模型的先验知识对预测尤为重要,尤其是对于罕见的词汇,语言模型在长上 - IJCAI马尔可夫约束作为大型语言模型代理
NgramMarkov 是一种基于约束编程的文本生成方法,通过使用大型语言模型中的 n-gram 序列和概率限制文本生成,实验结果表明该方法能够显著减少产生的候选句子数量、改善计算时间,并能使用更大的文本语料库和更小的 n-gram。
- 使用混合标记 / 嵌入推测器加速生产 LLM
设计和训练新型的推测解码草稿模型,通过在上下文向量和样本标记上条件化草稿预测,可以高效预测高质量的 n-gram,以提高大型语言模型在生产环境中的推理速度。
- 语言模型中上下文 N-Gram 的训练动态
语境性神经元与 n-gram 电路构成的二阶电路在语言模型中展现渐进形成的过程,其中的德文检测电路通过对德文单一字统计建模的方式形成,而 n-grams 电路则通过推动合适的完整性来形成。
- TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析
文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
- 使用 N 个字母来建模梵语及其相关文本
使用 n-aksaras 将梵文文本进行分词,使得在文本分析中无需解决 sandhi 等问题,测试结果显示可以跨越十个世纪和九种语言进行文本重用模式的分析,并对佛教评论实践的一些初步观察进行了讨论。
- FreCDo:用于法语跨领域方言识别的大型语料库
本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词,消除了主题、写作风格和发布来源等潜在偏见,从而建立了一个法语跨领域方言识别任务;作者 - 面向规模化的抗噪去重
使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder - N-Grammer: 使用潜在 n-gram 扩充 Transformer
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源 - ACL通过循环引发的隐式 N 元语法
本研究发现,循环神经网络(RNNs)内置一些可以解释的组件,这些组件类似于经典的 n-gram 特征。从训练的 RNNs 中提取这些可解释的特征,用于下游情感分析任务,发现它们可以用于建模否定和强调等有趣的语言现象,并且可以充当 RNNs - SemEval-2022 任务 4 中的 SATLab:仅使用字符和词 N-grams 尝试检测居高临下和轻蔑的语言
该研究针对 SemEval-2022 PCL 任务提出了一种只使用字符和单词 n-gram 的逻辑回归模型,该模型得到了平均水平的表现,远高于不使用任何任务知识的猜测系统,但低于最优团队。在表明提出的模型与在识别仇恨言论和冒犯内容方面表现良 - EMNLP自动摘要是否需要知识迁移的预训练?
本文研究文本摘要中的预训练技术,表明使用随机字符 n-gram 构成的文档进行预训练可以达到与使用真实语料库进行预训练相当的性能,这种方法可以避免一些有关不当言论、偏见和版权问题的担忧。
- MM利用费舍尔精确检验对 n-grams 关联度量进行评估
使用 Fisher 精确检验的扩展来分析四百万词汇的语料库,发现 MI3 是最有效的测量方法之一,能够实现与 simple-ll 更接近的性能水平,尤其是对于三个单词的短语。此外,还观察到对于三元组,某些测量方法比二元组更有效,而其他测量方 - EMNLP利用跨度注意力机制改进组成结构分析
本文提出了一种利用跨度注意力和分类跨度注意力的神经图表句法分析方法,通过加入 n-gram 信息,得以更好的建模上下文信息,并在阿拉伯语、中文和英语解析中都取得了最先进的性能。
- EMNLPTeaForN:基于 N-gram 模型的教师强制算法
通过使用一种名为 TeaForN 的方法,我们可以在不改变现有标准老师强制模型框架的情况下,通过使用 N 个解码器在一个辅助时间轴上进行编码,从而降低暴露偏差和差分难度,从而提高序列生成模型的生成质量。
- KDDKiloGrams:用于恶意软件分类的大型 N-Grams
本篇论文提出了一种快速找出 top-k 频繁 n-gram 的方法,并演示了即便在 n 的规模极大时,n-gram 仍然具有分类预测的能力,同时可用于创建工业标准工具如 Yara 兼容的通用签名特征,且公共 ngram 文件的数量可用于训练 - 面向目标导向对话系统的量化对话语言模型
使用基于簇的语言模型方法解决面向目标对话系统中的对话学习问题,在 DSTC6 挑战赛中应用于餐厅预订系统;结果表明,该技术在选择正确候选话语方面达到了高准确性,并且优于基于神经网络的其他现有方法。
- 将子词信息融入矩阵分解词向量
本文探讨了将子词信息加入到计数模型中是否能像预测模型一样带来正面效果。我们评估了不同类型的子词 (n-gram 和无监督词素),结果证实了子词信息对于学习罕见和超出词汇表词汇的表示的重要性。
- 轻量级自适应神经网络与 N-gram 语言模型混合
本文介绍了一种通过小型神经网络来预测混合模型权重的方法,以提高神经语言模型和 n 元语法模型的性能。实验结果表明,该方法能显著提高 One Billion Word benchmark 上的性能。
- 区分粗言秽语和仇恨言论中的挑战
本研究通过使用新的数据集及一系列特征,包括 n-grams、skip-grams 和基于聚类的单词表示等,运用监督式分类方法,分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论,获得了 80% 的准确率。然而