- 生成文本中句法模板的检测与测量
我们提供了在模型中表征模板化文本的句法特征分析,并发现模型生成的文本中大多数(76%)模板可以在预训练数据中找到(相比之下,人工编写的文本中仅有 35%),并且在 RLHF 等微调过程中不会被覆盖,这使得我们能够在没有预训练数据的情况下分析 - 代码语言模型中强化的类型预测激活控制
通过激活控制技术,我们可以提高编程预训练模型的鲁棒性,使其在语法上更加灵活,进而提高类型预测的准确性,并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。
- TPDR: 一种新的两步变换器(Transformer)产品和类别描述匹配和检索方法
本研究提出了 TPDR,一种基于 Transformer 的产品描述标准化和类别检索方法,能够利用注意机制和对比学习来探索 IS 和 SD 之间的语义对应关系,并结合句法特征进行重新排序,实验证明该方法在真实公司环境中取得了显著的效果提升。
- 土耳其母语识别
本文首次将母语辨识(NLI)应用于土耳其语。我们使用土耳其学习者语料库,结合三种句法特征(CFG 生成规则、词性 n-gram 和功能词)来证明它们在该任务中的有效性。
- ACL基于语言封装和语义融合的在线内容广义索赔检测
LESA framework proposes a generalized model for argument mining using syntactic and contextual features to segregate cla - COLING基于依存句法和神经模型的多语言讽刺检测
本研究旨在探讨句法依赖特征在多语言讽刺检测任务中的有效性,并发现句法特征在讽刺检测中是具有信息量的。
- EMNLP学术文献中的篇章层面定义检测:现有模型、误差分析和未来方向
本篇论文提出了一个新的定义检测系统 HEDDEx,它基于语法特征和转换编码器设计,能够在标准和文档级别测试中,分别比现有系统提高了 12.7 和 14.4 F1 值并讨论了在文档级别定义检测方面的挑战和改进的建议以及阅读辅助应用的潜在问题。
- EMNLP利用离散余弦变换进行高效句子嵌入
本论文提出了使用离散余弦变换 (DCT) 压缩以保持顺序的单词序列来代替向量平均法进行句子嵌入。与向量平均法相比,这种方法更好地保留了句法信息,从而在与句法相关的分类任务中表现更好。
- 隐式条件随机场的电影评论文本分类的观点动态建模
本研究旨在利用隐含条件随机场检测影评人员的意见,此模型可在分析长篇未分段音频评论的同时,捕捉评论者意见的动态。研究中使用高级语言特征,涵盖句子级的语法特征、统计词嵌入模型和主观性词库。通过在 ICT-MMMO 语料库上进行评估,我们获得了 - ACL检测翻译汉语的句法特征
通过机器学习,利用支持向量机对汉语翻译文本和原生文本进行基于句法特征的区分。通过使用对称的语料库,以短语分析树和依存三元组不带词汇信息特征进行分类,结果表明仅仅用句法特征即可区分出原生汉语和翻译汉语。
- EMNLP为类型预测学习语言表示
利用 1017 种语言构建一个神经机器翻译系统,预测存在于语分类数据库中缺失的语言特征,实验表明该方法不仅能推测句法特征,还能推测音位、音库特征。
- ACL自动句法特征在越南命名实体识别中的重要性
本论文利用双向长短时记忆(Bi-LSTM)神经网络结合自动语法特征和词嵌入,提出了一种越南命名实体识别系统,其在 2016 年由越南语言与语音处理社区(VLSP)组织的评估中实现了 92.05%的综合 F1 分数,远超过先前的命名实体识别系 - ACL文学语言的数据导向模型
利用句法和词汇特征,以及人类评级来预测文学性,本模型是第一个通过多种特征区分高低文学小说,并可解释 76.0%文学评级的变异性。
- 通过卷积神经网络及简单负采样进行语义关系分类
本文介绍了一种基于卷积神经网络学习最短依赖路径的有关句子中主语和宾语关系的语法特征,结合简单的负采样策略,在 SemEval-2010 Task 8 数据集上具有比现有方法更好的表现。
- 复杂问答:无监督学习方法和实验
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。