报告题目:大模型微调方法研究
报告人:刘鑫
报告时间:2024年1月25日(周四)15:00-17:00
报告地点:线上腾讯会议(928-812-090)
报告介绍:近年来,大语言模型成为人工智能领域最受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。报告简要介绍了2019年-2023年以来40余种主要的大语言模型微调方法,对每种方法的原理、微调位置及方法特点作了归纳介绍及比较,并从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量,对大语言模型微调策略给出建议。
嘉宾介绍:刘鑫,国家并行计算机工程技术研究中心研究员,主要研究方向为并行算法和并行应用软件设计。担任神威系列智能计算机系统常务副总设计师。曾获2014 年度“清华大学-浪潮集团计算地球青年人才”,2017年度“CCF-IEEE CS青年科学家奖”2021年度ACM Gordon Bell Prize2022年国防创新卓越青年项目资助,2023年“万人计划”科技领军人才等获省部级及其以上科技奖励12项,获批咨询报告12项,发表论著400余篇(部),总引用次数1.3万余次。