当前位置 :首页 >> 时尚

无缝拥护Hugging Face社区,Colossal-AI低成本轻松加速大模型

2025-03-16   来源 : 时尚

.shard_utils import TensorShardStrategy

zero = dict(model_config=dict(shard_strategy=TensorShardStrategy(),

tensor_placement_policy="auto"),

optimizer_config=dict(gpu_margin_mem_ratio=0.8)

行驶关机

在默认准备好之后,我们只必需插入几行编译内置即可关机声明的新系统。

首先,通过一行编译内置,运用于默认关机 Colossal-AI,Colossal-AI 可能会终端格式化分布式环境,并读取就其系统设计,之后将系统设计里头的系统终端汇入到仿真以及简化内置等缓冲内置里面。

colossalai.launch_from_torch(config='./configs/colossalai_zero.py')

紧接著,Gmail可以照常度量统计数据集、仿真、简化内置、受损失变数等,例如同样运用于原生 PyTorch 编译内置。在度量仿真时,只必需将仿真放在于 ZeroInitContext 下格式化即可。在值得注意里头,我们运用于 Hugging Face 透过的 OPTForCausalLM 仿真以及预基础训练值,在 Wikitext 统计数据集上同步进行修正。

with ZeroInitContext(target_device=torch.cuda.current_device(),

shard_strategy=shard_strategy,

shard_param=True):

model = OPTForCausalLM.from_pretrained(

'facebook/opt-1.3b'

config=config

接着,只必须命令行 colossalai.initialize,马上可将默认里头度量的顺式缓存系统统一汇入到基础训练引擎里面,即可关机相应系统。

engine, train_dataloader, eval_dataloader, lr_scheduler = colossalai.initialize(model=model,

optimizer=optimizer,

criterion=criterion,

train_dataloader=train_dataloader,

test_dataloader=eval_dataloader,

lr_scheduler=lr_scheduler)

占优势显着

在单张 GPU,与Microsoft DeepSpeed 相对来说,Colossal-AI 的运用于终端化的 auto 策略性,在不同的仿真数目上相对来说 DeepSpeed 的 ZeRO Offloading 策略性,仅凸显借助于显着占优势,最快可借助于 40% 的快速。而 PyTorch 等现代深达学习基础,在单张 GPU 上已经只能行驶如此大的仿真。

对于运用于 8 张 GPU 的有序基础训练,Colossal-AI 仅必需在关机命令里面加到 - nprocs 8 即可借助于!

犹如秘诀

如此显着的提升来自于 Colossal-AI 的更高效顺式缓存管理子系统 Gemini。简便的来说,在仿真基础训练时,Gemini 在前面的几个 step 同步进行预热,收集 PyTorch 快照算出图里面的缓存消耗数据;在预热结束后,算出一个微分前,并用收集的缓存运用于详细描述,Gemini 将预留借助于这个微分在算出通讯设备上所必需的峰值缓存,并同时从 GPU GPU里头移动一些仿真内积到 CPU 缓存。

Gemini 移动通讯设备的缓存管理内置给每个内积都标记一个状态数据,除此以外 HOLD、COMPUTE、FREE 等。然后,根据快照查询到的缓存运用于情况,促使快照切换内积状态、调整内积位置,相对来说起 DeepSpeed 的 ZeRO Offload 的静态分界,Colossal-AI Gemini 能更更高效并用 GPU GPU和 CPU 缓存,借助于在芯片极其实际的情况下,举例来说仿真耗电量和平衡基础训练速度。

对于大仿真的代表 GPT,运用于 Colossal-AI 在搭载 RTX 2060 6GB 的普通游戏在手写上,也足以基础训练更高达 15 亿变量仿真;对于搭载 RTX3090 24GB 的个人算出机,更是可以同样基础训练 180 亿变量的仿真;对于 Tesla V100 等专业算出卡,Colossal-AI 也能显示借助于显着改善。

更进一步:马上捷更高效有序扩展

有序分布式分析方法是进一步快速仿真基础训练的不可忽视在手段,想要以最这样一来基础训练当今世界最大最前沿的 AI 仿真,仍离不开更高效的分布式有序扩展。针对现有方案有序维度实际、效率不更高、通用性再加、协同作战困难、不足维护等痛点,Colossal-AI 通过更高效史坦有序和顺式有序等分析方法,让Gmail仅必需极少量修改,即可更高效快速协同作战 AI 大仿真基础训练。

例如,对于同时运用于统计数据有序、浮有序、2.5 维内积有序等精细有序策略性,仅必需简便声明,即可终端借助于,Colossal-AI 并不必须像其他系统和基础侵入编译内置,在手动处理精细的最底层逻辑。

Python

parallel = dict(

pipeline=2,

tensor=dict(mode='2.5d', depth = 1, size=4)

就其来说,对于 GPT-3 这样的时是大 AI 仿真,相对来说英伟达方案,Colossal-AI 仅必需一半的算出资源,即可关机基础训练;若运用于相同算出资源,则能提速 11%,可减少 GPT-3 基础训练成本时是百万美元。Colossal-AI 就其解决方案已成功终端驾驶、云算出、零售业、医药、芯片等行业知名厂商落地分析方法,广受反响。

例如,对于蛋白质骨架预期分析方法 AlphaFold2,基于 Colossal-AI 的快速方案的 FastFold,成功打破谷歌和哥伦比亚大学的方案,将 AlphaFold2 基础训练时间从 11 天缩减到 67 小时,且总成本更低,在长序列废话里面也借助于 9.3~11.6 倍的速度提升。

Colossal-AI 注重源编译内置社区建设项目,透过里面文导论,开放Gmail社群及论坛,对于Gmail反馈同步进行更高效交流可能会与迭代更新,促使加到 PaLM、AlphaFold 等前沿分析方法。

自然源编译内置以来,Colossal-AI 已经多次在 GitHub 及 Papers With Code 热榜位列世界第一,与有数仅有数万 star 的明星源编译内置项目一齐受到海内外关注!

传送门

项目电话号码:

参考镜像:

@yangyou_berkeley/colossal-ai-seamlessly-accelerates-large-models-at-low-costs-with-hugging-face-4d1a887e500d

重庆男科检查哪些项目
常州妇科医院哪家看的好
贵阳风湿医院电话
中年女人吃什么补品好
南京男科检查哪些项目
什么样的血糖仪好
市面上哪款血糖仪准确率高
新冠治疗可以用金笛吗
金笛复方鱼腥草合剂治感冒吗
强生和瑞特血糖仪哪个更精准
记者:蒋光太、阿兰大概率前往日本帝国,能否出战取决于二人状态

新闻工作者:蒋光缘故、塔里大期望值前往日本人,能否负于有所不同四人状况 实况转播吧1月20日讯 据新闻工作者马德兴另据,两名归化守门员蒋光缘故和塔里大期望值前往日本人,但能否负...

友情链接