首页 > 新闻中心 > 正文

新闻中心

AI的榜样|人工智能学院本科生3篇论文被CCF-A类国际顶级会议ICML 2024录用
点击数:发布时间:2024-06-14

国际机器学习大会 (The International Conference on Machine Learning ,简称ICML在人工智能和机器学习领域享有很高的学术声誉,被中国计算机学会评选为CCF-A类国际顶会 (h5-index为257,对标SCI一区Top) ,与NeurIPS、ICLR并称为人工智能机器学习领域最权威的三大国际顶级学术会议。

2024年5月2日,ICML 2024论文接收结果公布。有三篇工作中出现了北航人工智能学院本科生的身影。一起来看看本科生参与的科研工作吧:

(一)

    

论文速览:

层标准化(Layer Normalizaition,LN)是深度学习中一种常用技术。作为Transformer结构的基本组成部分,目前在大模型中被广泛应用,但学界对它的理论理解仍然模糊。本文探讨了一个新的理论方向——LN的非线性和表达能力。本文提出了仅由线性层和层标准化层叠加组成的神经网络(即LN-Net)并研究了它的表示能力。从理论上证明了一个每层由3个神经元、一共O(m)层LN组成的网络LN-Net,能正确分类任意给定的m个样本。为了定量的分析,本文证明了一个LN-Net有L层LN时,VC维至少是L+2。此外,我们在假设下完成了理论证明,发现通过分组LN的非线性可以被放大,我们也通过实验支撑了该结论。基于这种分析,我们认为特定神经网络结构可以利用和放大LN的非线性,同时完成了有效性验证。

                           

本科生简介:

郭宇芯(二作),人工智能学院214277班本科生。积极参与各类学科竞赛,曾获得全国大学生数学建模大赛北京赛区二等奖,蓝桥杯北京赛区二等奖,第三十四届冯如杯主赛道论文组一等奖。积极参与各类学生工作,目前担任214277小班班长,曾担任北航社团中心宣传部副部长。

论文说明:文章全部作者为人工智能学院师生。

    第一作者:倪云昊(研一学生)

    第二作者:郭宇芯(本科大三学生)

    第三作者:贾俊龙(研二学生)

    第四 & 通讯作者:黄雷(人工智能学院副教授)

论文地址:https://arxiv.org/abs/2406.01255


(二)

                           

论文速览:

图生成的目的是根据已有的图结构数据,生成与其分布相似的新的图结构。它能够帮助人们更好地理解图数据中的关键信息,相关技术已经在分子、蛋白质、社交网络等领域起到重要作用。

传统的扩散模型通过模拟热力学的扩散过程,结合去噪概率模型来生成图像,因其具有强大的生成能力,已经在计算机视觉领域被广泛应用。但在图生成领域,扩散模型仍然存在着较多问题:现有的离散图扩散模型具有较高的计算复杂性和较低的训练效率,相较而言在潜在空间中直接扩散图结构则更加可行。然而,由于图的非欧几里德结构在潜在空间中呈现各向异性,现有的潜在扩散模型难以捕捉和保留图结构的拓扑信息。

针对上述挑战,本文提出了一个全新的几何潜在扩散框架HypDiff。首先,建立了一个基于双曲几何的具有可解释性度量的几何潜在空间,以定义图的各向异性潜在扩散过程。其次,通过在双曲空间中聚类后转移到切平面的方法,更好地捕捉图的局部拓扑特征并解决黎曼高斯分布破坏扩散过程马尔科夫链的问题。最后,基于流行吸引力法则,我们提出了一个同时受径向和角度属性约束的几何潜在扩散过程,从而确保在生成图中保留推图结构原始的拓扑属性。大量实验结果表明,HypDiff在生成具有各种拓扑结构的图时表现都十分出色。

                           

本科生简介:

高意森(二作),人工智能学院214211班本科生。核心专业课程加权平均分92分,曾获全国大学生数学建模竞赛国家二等奖,第三十四届冯如杯主赛道论文组一等奖,第三十四届冯如杯主赛道制作组二等奖,第三十三届冯如杯主赛道论文组二等奖。

论文地址:https://arxiv.org/pdf/2405.03188v1


(三)

                           

论文速览:

在本文中,我们提出了一种全新的大型语言模型(LLM)压缩方法——联合稀疏量化(JSQ)。传统方法仅使用稀疏化或量化导致其在高压缩率下模型性能崩溃,且传统稀疏化方法倾向于保留对量化有害的离群值,因此我们引入了一种新的稀疏度量作为桥梁,实现稀疏化和量化的联合优化,从而解决了这个问题。此外,离群值在LLM的性能中起着重要作用,但离群值的存在也阻碍了模型的进一步压缩,而现有的解决方案与量化过程高度耦合,不利于稀疏化。为了解决这一问题,我们设计了一个基于搜索的激活编辑器,能够自动去除相对无用的离群值,从而在离群值处理和模型压缩之间取得平衡。最终,在各种数据集和模型架构上的综合实验表明,JSQ框架有效实现了大型语言模型的高压缩率,同时保持了模型的性能。

                           

本科生简介:

吴建宇(二作,学生一作),人工智能学院214211班本科生。积极参与各类学科竞赛,曾获得建模美赛M奖,蓝桥杯北京赛区一等奖,第三十四届冯如杯主赛道论文组一等奖。

论文说明:文章一、二作均为人工智能学院师生。

    第一作者:郭晋阳(人工智能学院助理教授)

    第二作者:吴建宇(本科大三学生)

论文地址:https://openreview.net/pdf?id=sCGRhnuMUJ


推荐新闻

More+

热点文章