中文名词短语中的复数与确定性的计算建模
通过对具有数量表达的简短文本的语料库进行研究,我们验证了黄氏 “coolness” 假说,即东亚语言说者说话时,他们倾向于讲得更简洁含义却不够丰富。通过与英语语料库进行比较,研究表明了量词使用的某些方面支持上述假说,文中探讨了这些发现对量化名词短语生成的影响。
Sep, 2022
研究了英语名词复数和单数的语义,比较了基于 FRACSS 和 CCA 这两种概念化复数的模型,并在大语料上验证了语音信息和语意向量的预测关系,结果表明基于语用的语意表示方法的效果更好。
Jul, 2022
使用分布语义学,本文研究了英语名词复数形式的意义聚类,介绍了一种计算方法叫做 CosClassAvg,通过实验比较它与另一种方法 FRACSS 的差异,并验证了 CosClassAvg 方法在语义向量映射中的优越性
Mar, 2022
在中心嵌入结构中,省略动词短语(VP)会产生一种语法上的错觉,而在中文的缺失 NP 中心嵌入结构中也表现出类似的错觉。然而,对其本质并没有共识。我们认为,将动词的不确定解释视为最好解释这种现象的方式,而非将其视为语法上的错觉。为了进一步支持这一假设,我们在准中心嵌入结构上进行了两个脑电图(EEG)实验,通过将自我嵌入的关系从句放置在句子的主语位置来减少复杂性。实验 1 表明,即使在这种结构中也存在类似的现象,证据是缺乏 P600 效应和存在 N400 效应。在实验 2 中,通过提供语义线索来减少歧义性,消除了这种错觉,证据是存在 P600 效应。我们根据园路理论解释了这些结果,并提出了词序差异可能解释这种跨语言变异。
Feb, 2024
使用 p-adic 度量作为线性回归问题的简单机器学习模型,在印欧语系、南岛语系、新几内亚翻译语、汉藏语系、尼洛撒哈拉语系、奥托梅安格语系和大西洋刚果语系等语系上取得比欧几里得空间回归模型更好的性能,但目前尚无足够证据支持模拟不同名词词形变化为 P-adic 邻域,即使在印欧语言中也是如此。
Oct, 2022
通过机器学习,利用支持向量机对汉语翻译文本和原生文本进行基于句法特征的区分。通过使用对称的语料库,以短语分析树和依存三元组不带词汇信息特征进行分类,结果表明仅仅用句法特征即可区分出原生汉语和翻译汉语。
Apr, 2018
本文研究了语言模型在理解文本中的不定式短语和否定语气等句法结构时的实际能力,发现目前即使是规模达到 GPT-3 的模型,也并未完全掌握基本的实体追踪能力。
May, 2022
研究了神经语言模型代表短语级别特征的能力,使用协调名词短语作为研究案例,发现模型使用 NP 成分数量的线性组合来驱动 CoordNP/verb 数量协议。模型在性别协议方面成功较少。使用大型语料库训练的模型表现最佳,并且使用显式句法监督训练的模型没有明显的优势。
Sep, 2019
研究语言环境对于预测量词 (`few',`all') 的作用。从人类参与者中收集众包数据,在单句和多句的情况下测试不同模型,发现模型在前者方面的表现显著优于人类,而在后者方面则仅略胜一筹。模型非常有效地利用了词汇和形态句法模式,而人类则更擅长真正理解(全局)语境的含义。
Jun, 2018
本研究使用中文颜色参考游戏数据,证实了中英语境下同样表现出对语境难度的敏感性;并展示了采用多任务学习方法训练的神经说话人模型,相比其单语中文模型更贴近人类对语境的依赖,并且不会以达到语言特定的语义理解为代价。
Mar, 2018