研究文本中描述的运动是有挑战性的,由于空间 term,语言构造以及时间参照等多因素影响。研究通过实验,发现人们用来区分不同运动描述的特征,为基于文本的运动计算分析提出了建议。
Jan, 2022
信息几何是从几何的角度研究统计流形,即概率分布空间的研究。本文概述了信息几何的基本概念,并介绍了在统计流形上的距离、散度以及最近的信息几何发展方向。
Oct, 2023
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
Sep, 2015
本文通过统计文本中单词的空间使用情况,利用信息熵作为工具实现自动关键词提取,并以达尔文的《物种起源》为代表性文本样本进行性能测试和比较。
Jan, 2007
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015
提出了一种相对于符号丰度和相似度的熵的概念,引申到信息论中的几个概念和定理的几何意义,提出了一种与 Wasserstein 距离方法相当的理论,但具有可以高效计算的闭式表达式,通过实验表明了所提出方法的广泛应用性。
Jun, 2019
提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map),用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能,探讨了端到端模型的优势,包括原则性不确定性估计和利用上下文信息的能力。
Jun, 2021
通过手动标注、众包及机器学习相结合的方式,本文创新性地建立了基于地理运动描述文本的语料库,以推动地理数据的计算处理和空间认知能力的探索。
本文介绍了概率分布之间的距离及信息几何的基本思想,探索了概率分布可区分性的定量度量方法。
Dec, 2014
本文通过随机动力学模型研究了文字 Zipf 定律的起源,并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明,我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。
Dec, 2002