- 一句好的俏皮话的妙趣自成良词:大型语言模型是否能理解俏皮话?
本论文通过采用三个主要任务,即识别、解释和生成双关语,系统评估了大型语言模型在双关语理解方面的能力,新的评估方法和指标更加贴近人类认知,发现了 “懒散双关语生成” 模式以及大型语言模型在双关语理解中遇到的主要挑战。
- 锚定函数:一类用于研究语言模型的基准函数
了解基于 Transformer 的语言模型对于推进人工智能通用性至关重要,而学术研究团队面临着复杂的数据结构、未知的目标函数、高计算成本和内存需求以及推理过程缺乏可解释性等重大挑战。本文引入锚函数的概念,为研究遵循 “锚 - 键” 模式的 - 学术界和工业界在人工智能研究中的互补贡献
人工智能(AI)在工业和学术界取得了巨大的发展。然而,工业界最近取得的令人瞩目的进展震撼了世界,这使得我们对学术研究在这一领域中的作用有了新的认识。我们通过对过去 25 年间工业界和学术界在 AI 领域产生的影响和类型进行了界定,并建立了一 - SRNI-CAR:一个用于分析中国汽车市场的综合数据集
该研究论文介绍了一份涵盖从 2016 年到 2022 年的全面数据集,包括销售数据、在线评论和与中国汽车工业相关的大量信息,该数据集对于改善预测准确性、扩大商业应用范围、制定政策和推进该行业的学术研究等方面具有重要作用。
- AcademicGPT:学术研究的赋能
AcademicGPT 是一个专为学术研究而设计的模型,通过从学术论文、论文、某些学术领域内容、高质量的中文数据等中进行持续训练,展示了其从广泛知识能力、中文能力到学术能力的各项实用能力和多个领域特定的应用。
- 机器学习生命周期中可解释人工智能的千变万化:工业现实与研究现状
该研究考察了可解释人工智能(XAI)在实际中的相关性,特别关注生产行业,并将其与当前学术 XAI 研究进行了比较。通过对多个行业中的各种职位和关键利益相关者进行广泛访谈,我们发现了 XAI 在当前工业实践中沿着机器学习(ML)生命周期的应用 - 文件自动化架构:大型语言模型的最新调查
本文调查了文件自动化技术的现状,定义和描述了其特点,辨识了学术研究中的最新 DA 架构和技术,以及基于生成式 AI 和大型语言模型的最新进展,为 DA 领域的新研究机会提供了思路。
- PD-SEG:利用深度分割网络实现人口分解以改善建筑定居区掩模
通过使用深度分割网络和卫星图像,利用准确的建筑定居面具,我们以 30 米乘 30 米的分辨率准确估计人口数量,并利用兴趣点(POI)数据排除非居民区。
- RobôCIn 小型联赛 RoboCup 2023 的扩展团队描述论文
Rob^oCIn 参加 RoboCup Small Size League 自 2019 年以来,于 2022 年(B 组)获得了首个世界冠军,并且是目前的三次拉美冠军。本文介绍了我们在 2023 年 RoboCup 在法国波尔多举办的 S - 无需重新搜索的研究:最大更新参数化在各个尺度上实现准确的损失预测
本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式,通过发现 Maximal Update parametrization(muP)可以使超参数的缩放定律精确拟合,并允许在训练开始之前使用损失预测直接比较不同模型。
- ACLCORWA: 一个基于引用关系的相关工作注释数据集
本文介绍了一个基于语言学的相关工作自动生成框架,包括引入一个标注数据集 CORWA 和训练一个基于此标注数据集的强基线模型,并建议了一种新颖的循环抽象与人工参与的相关工作生成框架。
- 风格、内容与想法的成功
研究发现在学术研究中,文体对影响力的影响很大,研究使用自然语言处理分析了近 30000 篇学术文章,发现文体词汇可以解释语言对引用的影响率达到 13-27%,而且确认了书写简单性、个人感受和时态视角在其中起到的作用。
- 自动生成相关工作:一项元研究
此篇综述介绍了如何通过自然语言处理实现学术研究中 “Related Work” 部分的自动生成和如何将相关研究进行比较和未来展望。
- ICLR论纸质文献的重要性
机器学习的出版流程存在缺陷,新的出版方式虽有助于提高包容性和教育性,但仅仅更换格式不能解决现有问题。该论文认为,影响机器学习研究可达性的根本原因不在于论文流程,而是出版和研究过程中的问题。本论文探讨了这些问题,并提出了一些潜在的解决方案。
- 灰色卫衣项目:大烟草公司、大科技公司对学术诚信的威胁
本文探讨了大型科技公司利用资助学术研究的方式来影响传播和公共话语,并比较了 Big Tobacco 和 Big Tech 在此方面的类似策略和作用。因此,我们认为有必要讨论是否应该接受 Big Tech 的资助,以及应该制定什么样的限制或条