登录

一键登陆

【分享】最新 NN 训练加速器论文分享 - ISSCC2021: A 7nm 4-Core AI Chip

发表于全国大学生集成电路创新创业大赛 2021-08-23 21:33:52

0

4010

2

功耗数据使用精度反向 PE

这次要分享的是 IBM 推出的高能效AI训练加速器，特点如下：

1. 支持数据精度：DL Float16，hybrid-fp8，int4，int2

2. 两个双向环形总线 ring bus，片内成环，或者片间成环（众核结构），接口使用 SERDES

3. core, ring bus，异步双PLL，平衡计算和数据搬运的性能 & 功耗

4. 每个core有两个corelet，共享 2MB L1，8*8 PE 阵列，SFU 特殊功能单元，4个数据格式对应2个单元，FPU训练，INT推理

这部分是FPU结构与原理，特点如下：

1. 128bit 总线，通过 MUX 实现前向和反向灵活的数据流

2. hybrid-fp8，正向精度高动态低，反向精度低动态高

3. 独立的 Int infer PE，256bit 总线，booth乘法器

4. PE 使用 Latch

这部分是整数单元

论文使用了混合精度进行正向推理和反向计算，具体原理如下：

特点：

1. 正向和反向使用不同的 FP8，着实有才！

最后一个创新点：预知负载的电压频率调节！

通过软件得到每一层的功耗，确定功耗预算，进行VF调节

最后是加速器性能数据：

- 0 稀疏度进行测试

- 3种格式，两个电压，给出算力、能效、计算密度

- 低数据精度，SRAM 功耗增加

- 给出了 8 个芯片并行的 PE 利用率，负载 ResNet50, VGG16, GNMT

- 稀疏度和功耗曲线，对比有无 0 跳过逻辑

- 原文多次强调精度较高，可比拟 Float32

【声明】

由 CICC2840 队伍提供的分享，内容和图片来自ISSCC会议。

喜欢2次

用户评论

登录 | 注册

懒的都不写签名

积分

问答

粉丝

关注

RV-STAR 开发板

最新专栏

最新帖子

最新资讯