- 惩罚式逆概率度量在符合性分类中的应用
通过引入 Penalized Inverse Probability (PIP) 和其正则化版本 RePIP 的非共形评分方式,该研究提出了一种可以同时优化效率和信息性的算法,通过农业机器人中作物和杂草图像分类任务的玩具示例和实证结果,展示 - 保持团结:通过模拟人类记忆在摘要中强化连贯性
通过使用词汇链来保持主题的连贯性,同时控制信息性和冗余,我们能够提取高连贯性的摘要,这些摘要对人类读者来说既具有信息性,又不冗长。
- EMNLP通过校准蒸馏增强摘要模型的抽象性
提出了一种名为 DisCal 的新方法,通过引入两种监督方式,提高生成摘要的抽象性(通过 n-gram 重叠度量),同时不牺牲信息量(通过 ROUGE 度量),并在摘要提取中优于之前的方法。
- 文本解释中的信息测量
通过将解释信息放在信息论框架中,我们提出并量化了两种文本解释方法的信息流,并提供了对它们进行评估的工具和标准,从而为可解释的 AI 领域建立了严格和标准化的评估标准。
- 从稀疏到稠密:GPT-4 基于密度链的摘要生成
通过密度链(CoD)提示,GPT-4 生成更多抽象、融合度更高、少有引导偏见的摘要,人类更喜欢这些摘要,表明了信息量和可读性之间的权衡。
- 信息量的重要性:教育对话主动学习中的行动分类
本文研究了对话行为 (DAs) 分类器的训练方法,发现使用 Active Learning 方法可以减少人力标注成本以及提高标注样本信息性,从而更好地支持对 DA 的分类器。
- 词嵌入的范数编码信息获取
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词 - 在饮食信息领域比较自然语言生成聊天机器人与图形应用程序的信息性
本文研究了一种自然语言生成的聊天机器人结合图表和文本来提供洞察力,用户与其交互得出的营养数据更有助于人们深入理解和快速使用。通过与传统应用程序的比较,表明在不同的任务中,与用户交谈可以显著提高用户对营养数据的理解,并认为聊天机器人比传统应用 - AAAI基于常识知识的概念选择,实现多样化、信息丰富的视觉叙事
本文提出了一种基于概念选择模块和常识知识图谱的图像序列可视化叙事模型,以提高生成的故事的多样性和信息量,实现了很好的效果。
- ACL词首位置的消歧信号更强
该论文通过心理语言学的研究发现单词在前缀和后缀阶段的处理方式是不同的,并说明在多种语言中,单词更倾向于在前缀时提供更多的信息。
- 基于本地知识的对话式代理
本文介绍了一个基于 Reddit 对话数据集的对话框架,并探讨如何整合局部知识以改善对话质量,研究结果表明,局部知识的整合显著提高了信息性、连贯性和逼真度,且所提出的方法在 Reddit 数据集上表现优于现有方法。同时发现,将模型的参数规模 - 学习分离表征的理论和评价度量
该研究提出了一种理论上的度量方法来评估机器学习中所谓的 disentangled representations 的质量,这些方法可以让不同的机器学习模型公平地进行比较。
- MM神经网络简化标题提高科学文章可见性
本文讨论用于帮助科学内容提供商提供推荐工具的方法,该方法通过利用 ResearchGate 的统计数据来偏置训练数据集,并应用专门设计的后处理步骤到神经序列到序列模型中,以产生具有不同信息水平的标题的解决方案,以达到吸引人的同时也具有透明性 - NIPS通过对抗信息最大化生成富有信息量和多样化的对话回应
采用对抗信息最大化方法优化神经会话模型,通过对抗训练和变分下限优化可提高模型回复的信息量和多样性。
- 上下文感知原型编辑的响应生成
本文提出了一种响应生成的新范 Paradigm,通过编辑现有的原型响应,显著增加了生成结果的多样性和信息量,提出了一种响应编辑模型,实验结果表明,该模型在各个方面都优于传统的生成和检索模型。
- ACL一种简单的重要性自动摘要理论模型
本文提出了纪录片概述任务的理论模型,并根据其提出了实用的概念框架,包括关键词的重复性,相关性和信息量,这些概念统一为 ' 重要性 '。实验证明这个框架有潜力提高纪录片概述系统的性能。
- 具有侧面信息的神经抽取式摘要生成
本文提出了利用辅助信息进行抽取式文本摘要的框架,该框架包括分层文档编码器和基于注意力机制的摘要提取器,利用大规模新闻数据集证明了与不使用辅助信息相比,利用辅助信息进行抽取式文本摘要可以更加有效地提高信息量和流畅度。
- 正类和未标注数据中的主动学习
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
- ICCV个人相片集中的人物识别
提出一种基于卷积神经网络的人物识别系统,针对不同的身体线索和训练数据量的信息量,系统的常见故障模式进行了深入分析,并讨论了现有基准的局限性并提出更具挑战性的基准,其简单易用且在社交媒体照片数据集(PIPA)上达到了更好的成果。
- SQUINKY! 句子级正式性、信息量和含意的语料库
本文介绍了一个由人工注释者对 7,032 个句子进行形式、信息性和暗示性评分的语料库,讨论了百度 Bert 的在多粒度下的历史记录。该语料库是使用 Amazon Mechanical Turk 进行注释的,是迄今为止发布的最大的形式、信息性