发布时间:2022-12-12 阅读量:931 来源: 我爱方案网整理 发布人: Aurora
32位与16位格式的混合精度训练,正是当前深度学习的主流。最新的英伟达核弹GPU H100,刚刚添加上对8位浮点数格式FP8的支持。英伟达首席科学家Bill Dally现在又表示,他们还有一个“秘密武器”: 在IEEE计算机运算研讨会上,他介绍了一种实验性5nm芯片,可以混合使用8位与4位格式,并且在4位上得到近似8位的精度。
目前这种芯片还在开发中,主要用于深度学习推理所用的INT4和INT8格式,对于如何应用在训练中也在研究了。相关论文已发表在2022 IEEE Symposium on VLSI Technology上。
新的量化技术
降低数字格式而不造成重大精度损失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技术。
具体来说,一个INT4数字只能精确表示从-8到7的16个整数。
其他数字都会四舍五入到这16个值上,中间产生的精度损失被称为量化噪声。
传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ则在这基础之上给每个向量都添加缩放因子,进一步减少噪声。
关键之处在于,缩放因子的值要匹配在神经网络中实际需要表示的数字范围。
英伟达研究人员发现,每64个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。
计算缩放因子的开销可以忽略不计,从INT8降为INT4则让能量效率增加了一倍。
Bill Dally认为,结合上INT4计算、VSQ技术和其他优化方法后,新型芯片可以达到Hopper架构每瓦运算速度的10倍。
还有哪些降低计算量的努力
除了英伟达之外,业界还有更多降低计算量的工作也在这次IEEE研讨会上亮相。
马德里康普顿斯大学的一组研究人员设计出基于Posits格式的处理器核心,与Float浮点数相比准确性提高了多达4个数量级。
Posits与Float相比,增加了一个可变长度的Regime区域,用来表示指数的指数。
对于0附近的较小数字只需要占用两个位,而这类数字正是在神经网络中大量使用的。
适用Posits格式的新硬件基于FPGA开发,研究人员发现可以用芯片的面积和功耗来提高精度,而不用增加计算时间。
ETH Zurich一个团队的研究基于RISC-V,他们把两次混合精度的积和熔加计算(fused multiply-add,FMA)放在一起平行计算。
这样可以防止两次计算之间的精度损失,还可以提高内存利用率。
FMA指的是d = a * b + c这样的操作,一般情况下输入中的a和b会使用较低精度,而c和输出的d使用较高精度。
研究人员模拟了新方法可以使计算时间减少几乎一半,同时输出精度有所提高,特别是对于大矢量的计算。
相应的硬件实现正在开发中。
巴塞罗那超算中心和英特尔团队的研究也和FMA相关,致力于神经网络训练可以完全使用BF16格式完成。
BF16格式已在DALL·E 2等大型网络训练中得到应用,不过还需要与更高精度的FP32结合,并且在两者之间来回转换。
这是因为神经网络训练中只有一部分计算不会因BF16而降低精度。
最新解决办法开发了一个扩展的格式BF16-N,将几个BF16数字组合起来表示一个数,可以在不显著牺牲精度的情况下更有效进行FMA计算
关键之处在于,FMA计算单元的面积只受尾数位影响。
比如FP32有23个尾数位,需要576个单位的面积,而BF16-2只需要192个,减少了2/3。
另外这项工作的论文题目也很有意思,BF16 is All You Need。
关于我爱方案网
我爱方案网是一个电子方案开发供应链平台,提供从找方案到研发采购的全链条服务。找方案,上我爱方案网!在方案超市找到合适的方案就可以直接买,没有找到就到快包定制开发。我爱方案网积累了一大批方案商和企业开发资源,能提供标准的模块和核心板以及定制开发服务,按要求交付PCBA、整机产品、软件或IoT系统。更多信息,敬请访问http://www.52solution.com
英伟达否认H100和H200售罄传闻
红外传感器是一种利用红外线进行检测的电子设备,广泛应用于工业自动化,安防监控,智能家居,医疗设备等领域
随着全球制造业迈向集成化与数字化,独立机器人单元正逐渐融入更广泛的自动化系统。DigiKey 本季发布的《机器人技术探秘》的第 5 季《未来工厂》视频系列,联合行业领先企业 Eaton 和 SICK,系统解析了从电气控制、传感技术到数据互联等多个层面的前沿解决方案。新一季邀请了多名专家,一起探讨支撑现代机器人制造与自动化的基础设施与创新技术。
SEMI-e深圳国际半导体展暨2025集成电路产业创新展将于2025年9月10日至12日在深圳国际会展中心(宝安新馆)隆重开幕。本届展会由CIOE中国光博会与集成电路创新联盟联合主办,中新材会展与爱集微共同承办,以“IC设计与应用”、“IC制造与供应链”及“化合物半导体”为核心主题,系统覆盖集成电路全产业链环节。
在AIoT技术加速赋能全球数字化转型、中国持续引领物联网产业创新的大背景下,IOTE 2025第24届国际物联网展·深圳站于8月29日在深圳会展中心(宝安新馆)圆满落幕。本届展会以“生态智能·物联全球”为主题,联合AGIC人工智能展与ISVE智慧商显展,汇聚1001家产业链企业,覆盖8万平方米展区,三日内吸引观众超11万人次,其中海外专业买家达5723人,来自30多个国家和地区,充分彰显了展会的国际影响力与行业凝聚力。