复旦大学邱清扬简介(复旦邱锡鹏新作:单机微调650亿参数大模型,业内人士:对大模型普及意义重大)

 

DF93电脑,就能松动全模块北极熊大数学模型!

这一令开放源码党感伤的新一代丰硕成果,源自武大邱锡鹏项目组。

关上金沙新闻报道,查阅更多高画质相片

学术论文由此正式发布,就引起了许多探讨——

在GPT-4刮起热潮后,现代人在赞叹于大词汇数学模型潜能的与此同时,已经开始愈来愈数处思索数学模型掌控权的难题。

对大数学模型普及化而言,FPS松动LLaMA 65B具备十分关键的象征意义!

FPS松动650亿模块大数学模型

学术论文的主要就关键性贡献LOMO(Low-Memory Optimization)强化器,想化解的是十分有限天然资源前提下,大数学模型全模块松动的痛点。

因而,武大项目组的强化路子是这种的:

为的是平衡LOMO的混和精确度体能训练,科学研究相关人员还采行了下列关键步骤。

势能常量:将势能应用于数学模型模块以后,对势能展开常量。

在体能训练期间将某些计算转换为全精确度

科学研究相关人员分析了使用不同强化器的体能训练过程中,数学模型状态和激活的内存使用情况。

吞吐量测试的结果则显示,在配备8块RTX 3090显卡的服务器上,LOMO可以hold得住LLaMA 65B的体能训练。

科学研究相关人员还在SuperGLUE基准测试上,比较了LOMO与Zero-shot、LoRA的下游任务性能。

当然啦,尽管在大数学模型体能训练中,8块3090并不是高配,但对普通人而言,还是有点不亲民。

不过,也有人认为,这仍然是个好消息。

虽然不太可能拥有这种的服务器配置,但租这个配置的电脑也不算贵。

目前,使用LOMO体能训练时,大部分内存被模块占用。因而,一个有前景的方向是探索模块量化技术,这可能会大大减少内存使用。

此前,武大开放源码的MOSS大数学模型,正是源自邱锡鹏项目组。

复旦大学邱清扬简介(复旦邱锡鹏新作:单机微调650亿参数大模型,业内人士:对大模型普及意义重大)

本文地址:http://www.xcqxcq.com/hot/139232.html

相关推荐

联系电话
微信咨询
手机版
返回顶部