该研究介绍了一种新的研究对象 - 语言分形结构,假设一个自然语言的所有 n-gram 嵌入构成了该分形集合的代表样本,通过使用基于拓扑数据分析和数据图的最小生成树方法估计俄语和英语语言分形结构的固有维度,结果发现对于俄语和英语语言,所有的 n 值的固有维度都是接近 9 的非整数值(典型的分形集合)。
Nov, 2023
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020
本文研究自然语言争辩的质量维度及其依赖的语言特征、上下文和主题知识等方面,并通过实验验证了计算机自主评估质量维度的有效性和局限性。
本文通过分析基于内在维度的微调现象,提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象,然后通过实验证明了常规预训练模型具有极低的内在维度。最后,作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。
Dec, 2020
本文提出了确定内在维度函数的计算方法,通过将数学测量集中现象公理地与内在维度联系起来,我们证明了其计算的可行性,并在模型中体现了复杂数据的几何特性,特别地,我们提出了一种将邻域信息纳入内在维度的主要方式,使得对常见图学习过程的新洞察成为可能。
Oct, 2022
本研究旨在将语言学的特性纳入到自然语言处理(NLP)中,通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。
May, 2023
研究了人类文字的固有维度不变性问题,通过计算给定文本样本嵌入集合的固有维度,可以稳健地区分自然语言流畅文本和 AI 生成文本。而且该特性可以用来构建一个得分为基础的人工文本检测器。
Jun, 2023
使用 Grassberger-Procaccia 算法和 Fisher-Rao 距离,测量了自然语言的相关维数,并证明了语言具有多分形性质,具有全局自相似性和普遍维数约为 6.5,大于简单离散随机序列的维数但小于 Barabasi-Albert 进程的维数,同时长时记忆是产生自相似性的关键。这种方法适用于任何真实世界离散序列的概率模型,并展示了音乐数据的应用。
May, 2024
本文研究词嵌入技术中的理想表示问题,发现各种模型包含的信息互相矛盾,通过线性变换来调整相似度排序以提高其结果,同时探讨了内在和外在评估之间的关系。
Sep, 2018
该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集,该数据集对于基准测试和指导未来研究至关重要。
Apr, 2023