Nvidia训练出83亿参数世界最大语言模型,53分钟成功训练Bert

发布时间:2019-08-16 阅读量:626 来源: 智东西 发布人: Jane

据外媒报道,Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。

 

Nvidia还宣布其打破了BERT模型的最快训练时间记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。

 

除此之外,Nvidia还通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,成功将BERT推理时间降至了2.2毫秒。

 

一、世界最大语言模型MegatronLM比Bert大24倍

 

Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,这是这家GPU制造商旨在推进会话式AI的一系列更新中的最新版本。

 

为了实现这一壮举,Nvidia利用模型并行性,用一种技术将神经网络分割成多个部分,创建出了MegatronLM模型,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。

 

Nvidia同时还宣布打破了BERT的最快训练记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。

 

Nvidia深度学习应用(applied deep learning)副总裁Bryan Catarazano在与记者和分析师的一次谈话中说:“如果没有这种技术,训练这些大型语言模型可能需要数周时间。”

 

Nvidia还表示它已经实现了最快的BERT推理时间,通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,BERT推理时间能够降至2.2毫秒。

 

Bryan Catarazano表示,当用CPU进行推理时,BERT推理最多需要40毫秒,而许多会话式AI系统今天会在10毫秒内完成。


_zdx.png

 

▲MegatronLM代码已经在在GitHub上开源

 

Nvidia已经将MegatronLM代码在GitHub上开源,以帮助人工智能从业者和研究人员探索大型语言模型的创建,或使用GPU进行速度训练或推理。

 

二、53分钟训练BERT

 

2018年10月,谷歌正式推出了基于双向 Transformer 的大规模预训练语言模型“BERT”,并在短期内刷新了当时11 项 NLP 任务的最优性能记录。

 

BERT能高效抽取文本信息并应用于各种 NLP 任务,所以非常适合语言理解任务,如翻译,问答,情感分析和句子分类等。

 

Nvidia本次用带有92个DGX-2H节点的NVIDIA DGX SuperPOD在短短53分钟内就成功训练BERT-Large,这创造了新的记录。

 

为了实现这个新纪录,Nvidia用了1,472 个V100 SXM3-32GB 450W GPU和每个节点8个Mellanox Infiniband计算适配器以自动混合精度( Automatic Mixed Precision)运行PyTorch以加快处理数量和速度。

 

_zdx2.png


▲不同数量的GPU训练BERT-Large的时间

 

相比之下,对于只能访问单个节点的研究人员来说,使用16个V100的DGX-2服务器训练BERT-Large需要3天。

 

结语:MegatronLM模型促进NLP发展

 

让计算机理解人类语言及其所有细微差别并做出适当反应一直是AI研究人员追求的方向,但在现代AI技术的到来之前,建立具有真正NLP功能的系统是不可能的。

 

随着BERT和具有10亿多参数的GPT-2模型等大型语言模型的出现,我们看到了高难度语言理解任务实现的可能,而Nvidia本次发布的MegatronLM模型更是将NLP处理提高了一个台阶。

 

更重要的是,新的模型可能会减少像亚马逊Alexa、Google Assistant和百度Duer这样的语音助手交互延迟时间,这对于语音交互实际的发展有非常大的推动作用。

 

文章来源:Venturebeat、Nvidia


相关资讯
CIS芯片龙头年报解读:格科微高像素战略如何实现287%净利增长

格科微电子(688728.SH)2024年度财务报告显示,公司年度营收突破63.83亿元人民币,实现35.9%的同比增幅,归母净利润呈几何级增长达1.87亿元,EBITDA指标跃升107.13%至14.15亿元。这种爆发式增长源自其在CMOS图像传感器(CIS)领域实施的"技术锚定+场景穿透"双轮驱动战略,特别是在高像素产品矩阵构建和新兴应用市场开拓方面取得突破性进展。

RS2604 vs 传统保险丝:技术迭代下的安全与效率革命

RS2604作为一款高集成度、可配置OVP(过压保护)和OCP(过流保护)的eFuse开关,专为12V24V母线电压接口设计,兼顾热插拔保护与动态负载管理。其输入电压覆盖4.5V40V,极限耐压高达45V,适用于工业设备、汽车电子及消费电子领域。通过外部电阻灵活设置350mA至2.5A的限流值,结合±7%高精度电流检测,RS2604在安全性与能效间实现平衡,成为复杂电源系统的核心保护方案。

全球汽车芯片市场遇冷,恩智浦如何守住56%毛利率防线?

荷兰半导体巨头恩智浦于2025年4月28日披露的财报显示,公司第一季度营收28.35亿美元,同比、环比均下滑9%,但略超市场预期。在汽车、工业与物联网等核心业务需求疲软的背景下,Non-GAAP毛利率同比下降2.1个百分点至56.1%,自由现金流则维持在4.27亿美元,突显其成本控制能力。值得关注的是,管理层对第二季度营收指引中值(29亿美元)释放出环比复苏信号,但关税政策的不确定性仍为业绩蒙上阴影。

全闪存与软件定义双轮驱动——中国存储产业年度趋势报告

根据IDC最新发布的企业级存储市场追踪数据,2024年中国存储产业迎来结构性增长拐点。全年市场规模达69.2亿美元,在全球市场占比提升至22%,展现出强劲复苏态势。以浪潮信息为代表的国内厂商持续突破,在销售额(10.9%)和出货量(11.2%)两大核心指标上均跻身市场前两强,标志着本土存储生态的成熟度显著提升。

索尼启动半导体业务战略重组 图像传感器龙头或迎资本化新篇章

全球消费电子巨头索尼集团近期被曝正酝酿重大战略调整。据彭博社援引多位知情人士透露,该集团拟对旗下核心半导体资产——索尼半导体解决方案公司(SSS)实施部分分拆,计划于2023年内推动该子公司在东京证券交易所独立IPO。该决策标志着索尼在半导体产业布局进入新阶段,同时也预示着全球图像传感器市场格局或将发生重要变化。