- 家庭的意义:通过词嵌入进行家长词汇分析
通过对法语词汇中人际关系家族词汇的语料库分析,研究了 25 个主要关系的名词(儿子、堂兄弟、母亲、祖父、嫂子等)在词汇网络中的相互位置,发现通过分布分析可以捕捉到这些词汇的组织结构(血统关系、联姻关系、兄弟姐妹关系、性别),并且这些特征因不 - Turkronicles:快速演变的土耳其语的历时资源
自 1923 年土耳其建国以来,土耳其语发生了大量变化。本研究旨在调查土耳其语的演变,首先介绍由土耳其官方公报构建的土耳其历时语料库 Turkronicles,然后扩展现有的土耳其历时语料库,最后通过分析这两个历时语料库回答两个主要研究问题 - 利用 HuBERT 发现一种犬类语言的语音和词汇
研究了犬叫声中的潜在交流模式,采用了自监督方法 HuBERT,能够准确分类音素标签,并识别表明犬叫声中存在基本词汇的声音模式。发现这些识别出的犬词汇在观察到的犬叫声序列中具有显著的声学一致性,并开发了一个基于网络的犬叫声标注系统。
- 归属于谁的 LLM?GPT-3.5、GPT-4 和 Bard 的语言比较与 LLM 归属
通过语言分析,对比了目前三种最流行的大型语言模型(GPT-3.5、GPT-4 和 Bard)生成的文本与不同输入的词汇、词性分布、依存分布和情感,结果显示存在显著的语言变化,通过简单的模型分类可以以 88% 的准确率将文本归属于相应的大型语 - 信息过载:为 BabyLMs 保持简单的训练
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平 - ACL无回归估计数字
改变语言模型的词汇表,而不是架构,可以更好地处理数字;在预测掩码数字和数值事实估计方面具有相似的性能,这要归功于仔细设计的标记化方案。
- 解读人工智能的责任
为了在涉及 AI-enabled 系统的复杂情况中理解责任应当在何处,首先我们需要有一个足够清晰和详细的跨学科的责任词汇;本文通过以 'Actor A 对 Occurrence O 负责 ' 的三部分表述,识别了 A、负责和 O 的有效组合 - 增强自然语言处理的语义分词器
本研究提出了一种基于语义的新型分词器,使用词干来增强子词的形成,最小化未编码的单词数量,对接 Trainer,实现了比 SentencePiece 分词器更高效的分词,并在 BERT 模型上实验,表明此方法可以将单词数量提高一倍以上,并显着 - ACL高效升级多语言机器翻译模型以支持更多语言
本论文提出了三种技术,可以加速新语言的学习并减轻灾难性遗忘,来提高多语言机器翻译模型的效率并最大化旧模型的重用,具体来说,这些技术包括仔细初始化网络、应用学习速率缩放、进行数据上采样。
- XLM-V: 克服多语言掩码语言模型中的词汇瓶颈
本文介绍了一种新方法,通过降低语言之间的词汇共享并分配单独语言的词汇容量,实现非常大的多语言词汇量的扩展,用于构建 XLM-V 多语言模型,其表现优于 XLM-R 模型。
- 通过缓解增强学习的瓶颈,实现切换到判别式图像字幕生成
本文探讨了针对图像的生成式字幕生成模型具有过高泛化性质的问题,分析了词汇量限制造成的字幕不够详细的原因,并提出了一种鼓励低频词汇生成的简单方法,使得模型能够生成更具独创性的字幕。实验表明,这种方法有效提高了模型的字幕生成质量。
- 具有超大词汇量的大型预训练模型:希伯来 BERT 模型的对比分析和一个新模型的超越
本篇论文提出了一种新的针对现代希伯来语的预训练语言模型 AlephBERTGimmel,其使用比以前的标准希伯来语 PLMs 更大的词汇表(128K 项)。通过与所有先前的希伯来语 PLMs(mBERT、heBERT、AlephBERT)进 - LitMind 词典:一个开源在线词典
本研究介绍了 LitMind Dictionary,一种基于最新定义生成模型的开源在线生成式字典,它支持中英文及中英文跨语言查询,并具有用户友好的前端设计。
- 不使用 Wordpieces 的预训练:在数百万词汇中学习
本研究探讨了使用单词词汇而非子单词构成的词汇表来预训练模型 WordBERT 的可能性,结果表明该模型在填空测试和机器阅读理解方面较标准的 BERT 表现更好,在 POS 标注、分块和 NER 等自然语言理解任务中也始终表现出更好的性能。 - OntoSeer -- 提高本体质量的推荐系统
提出 OntoSeer 工具来改善本体论建设过程的质量,包括名称约定,词汇复用,ODP 实现和公理的添加,并作为 Protégé 插件进行实现。
- EMNLP从视觉文本表示实现鲁棒性开放词汇翻译
本文提出了使用视觉文本表示(visual text representations)替代有限的文本嵌入向量(finite set of text embeddings),以建立起使用连续词汇(continuous vocabularies) - ACL静态嵌入作为高效知识库?
研究表明,与结构化知识库不同,掩码句子被用作探针(如 “巴黎是 [MASK] 的首都”),以调查大型预训练语言模型中存储的事实知识。 在跨十种不同语言的实验中,我们发现,相对于预训练语言模型,使用静态嵌入简单的最近邻匹配效果更好。其中一个重 - CVPR读和参与:手语视频中的时间定位
利用 Transformer 模型,对连续的手语视频进行训练并输出 Written Tokens,从而实现手语序列中一大量手语的定位,生成大量手语词汇的注释,训练后实现 BSL-1K 标志语言识别基准测试中先前的最佳性能。
- ACL通过最优传输进行的词汇学习,用于神经机器翻译
本研究旨在找出好的词汇,并确定在不需要试验训练的情况下,是否可以找到最优词汇。我们提出了一种新的信息理论视角解释词汇的作用,并将词汇化的目标 —— 找到大小适当的最佳词汇字典 —— 表述为一种最优搬运(OT)问题。我们提出了一个名为 VOL - SIGIR约束翻译候选项:神经查询翻译与跨语言信息检索之间的桥梁
本文通过将查询翻译的目标词汇空间限制在来自搜索索引数据库的重要单词集合中,旨在解决神经机器翻译在领域内查询翻译中的应用问题,并在实际的阿里巴巴电商搜索引擎 CLIR 系统中得到了实验验证。