nohup python pre_brand.py>>./train.log 2>&1 &

一、Bloom

1.参考论文

https://arxiv.org/pdf/2211.05100.pdf

2.硬件组成

007.png

3.数据量

epoch:
token:3500亿token
804.png

4.网络参数

模型参数量:176B
059.png

二、GLM

1.参考论文

https://openreview.net/pdf?id=-Aw0rrrPUF

2.硬件组成

56.png

3.数据量

epoch:1
token:4000亿token
3556364264.png

4.网络参数

模型参数量:130B
400.png

三、GPT-3

1.参考论文

https://arxiv.org/pdf/2005.14165.pdf

2.硬件组成

论文中没有说明:
。英伟达表示,GPT-3 需要 512 颗 V100 显卡
训练 7 个月,或者 1024 颗 A100 芯片训练一个月

3.数据量

epoch:1
token:4000亿token
410.png

4.网络参数

模型参数量:175B

四、LLaMa

1.参考论文

https://arxiv.org/pdf/2302.13971.pdf

2.硬件组成

949.png

3.数据量

epoch:1
token:1.4万亿
disk size:4.9TB
257.png

4.网络参数

模型参数量:
参数大小:65B
532.png

模型参数量训练数据disk size训练数据tokens训练时间GPU数量epoch2B参数,500G语料预估训练天数
Bloom176B1.6TB3500亿205天384 A100 80G=30TB显存135天
GLM130B2.4TB4000亿60天768 A100 40G=30TB显存112天
GPT3175B570GB4000亿30天1024 A100 80G=80TB显存112天
LLaMa65B4.9T14000亿21天2048 A100 80G=160TB显存113天
我们2B0.5T1100亿?天8 A100 80G=0.625TB显存112-35天

标签: none

添加新评论