中心议题
*NVIDIA的Tegra 2架构技术全解析
LG官方目前确认基于Tegra 2的LG
Optimus手机将在10月份左右发布,外观设计、规格和售价信息虽然都还未公布,但就最近的新闻来看,LG即将推出对windows phone 7
平台的Optimus 7手机,最有可能会采用这种先进的架构。
NVIDIA的Tegra SoC片上
系统处理器之前的
应用包括
微软Zune HD掌上媒体播放器,Kin手机等,不过都算不上非常成功。新一代Tegra 2处理器于今年年初已经发布,内部包含ARM Cortex A9双核心,频率达到1GHz,还包括图形加速核心、高清
视频解码器等多媒体处理单元。虽然业界对Tegra 2寄予厚望,不过至今为止LG Optimus才是第一款确认使用Tegra 2的
智能手机产品。
LG表示,Optimus手机中的Tegra 2处理器创出多项“第一”,包括第一款移动双核CPU,第一款低功耗GeForce GPU以及第一款1080p高清移动处理器等。基于双核1GHz Tegra 2处理器的性能优势,该机的网络浏览速度将比单核1GHz智能机快一倍,
游戏性能高5倍。
接下来我们通过小熊在线的一篇文章来详细了解下Tegra 2架构技术的领先之处:
第01页:从一张幻灯片到Tegra2
一个月前,我们曾经看到过这样一张幻灯片……
这是NVIDIA对于Tegra SoC芯片的未来市场行情分析图表。仅仅在2010年,NVIDIA估计整个市场就会有40亿美元的巨大空间,到了2011年将会增长到60亿美元。而到了2013年,整个基于SoC系统级芯片的市场将突破100亿美元。比起个人
电脑市场来说,这个蛋糕显然更加具有诱惑力。
Tegra1代芯片
要想在这个市场中竞争,你就需要有一颗性能强大的芯片。近日NVIDIA发布了Tegra的第二代芯片。这是一颗
功能非常强大的芯片,从下面的芯片结构图中我们可以一窥端倪。
Tegra2核心架构图
从图中,我们可以看到这颗小小的SoC芯片中,有8个独立的处理核心单元,我们可以比较,以前的一代Tegra仅有7个处理核心单元。也许你已经猜到 了,多出来的是一个ARM Cortex A9处理核心。ARM Cortex A9的工作速度高达1GHz。我可以告诉你iphone 3GS手机中使用的是速度超快的ARM Cortex A8处理器,它给iphone手机带来了前所未有的性能体验。由此你可以想象,ARM Cortex A9将会有怎样惊人的性能表现。
曾经的Tegra使用的是ARM 11核心,它是一款具备多核心处理能力的芯片。现在为了能让Tegra芯片的处理性能更为强大,NVIDIA彻底的革新了整个计算架构。可以说ARM Cortex A8是一个相当省电的处理器,不过在同样的功耗下,ARM Cortex A9的性能表现将更加出色。
第02页:Tegra2:强大的音频处理能力
下面介绍的一个处理单元是音频解码核心。NVIDIA在2007年的时候,用3.5亿美元收购了PortalPlayer公司。要知道
苹果顶 顶大名的ipod前五代的整个音频子系统都用的是PortalPlayer的芯片。有了PortalPlayer公司强大的技术支持,它为NVIDIA贡 献了许多良策,NVIDIA可以更好的构建SoC芯片,提供更优秀的音频解码器。由此显然Tegra 2有了一个非常强大的音频解码核心,NV声称在播放MP3时,整个系统的功耗将低于10毫瓦。做到这个地步是非常不容易的。微软的Zune HD播放器可以实现33小时的高品质MP3播放,而苹果的ipod可以实现30小时。无论怎样这些超长的工作
时间都离不开NVIDIA的Tegra芯片。由此我们相信Tegra 2可以作的更好。
整个数字音频产品是源自1995年,因此到了2010年,实现音频的解码并不是一件难事。接下来我们要介绍的两个处理单元是视频的编码与解码。NVIDIA声称在编码端可以加速1080P H.264编码。而一代的Tegra仅仅可以支持720P的分辨率。
第03页:视频编码与电源功耗管理
视频编码方面,NVIDIA一直认为是他们的重要优势之一。Tegra的视频编码处理单元可以实现高达每秒10帧的1080P H.264加速能力。尽管
三星电 子声称他们提供的Cortex A8 SoC芯片可以支持1080P分辨率。但事实上3GS版本的iphone,其解码芯片只能提供480P分辨率的H.264解码。NVIDIA坚信,在 1080P解码方面还没有任何一家公司的解决方案能达到他们的功耗效率比。Tegra在1080P解码时,其功耗低于100毫瓦。NV声称其他1080P 解码方案的功耗至少要开到1W,因为许多运算还要依赖于CPU运算才能完成。对于整个系统来说会支出许多额外的附加运算。从另一个方面讲NVIDIA的方 案也是最经济的,它有着难以想象的轻处理器资源占用率。处理器的资源占用率比PowerVR SGX的硬解码方案还低,而Tegra方案整体的功耗表现还要更低。
上文中我们介绍了两个ARM Cortex A9处理单元,音频处理单元,视频编码和解码单元。下面我们来介绍第五个重要的处理单元——图像信号处理单元。换句话说,这个处理单元是负责手机的静态、 动态拍摄功能。看到他支持的规格,你也许会吓一跳,它支持高达1200万像素的图像传感器。可以支持自动白平衡,自动对焦,和一般视频处理。无论是静态图 像还是动态图像,它都可以支持。并且可以将这些信息输出到下一个重要的处理单元——Tegra 2的GeForce图形处理芯片。
NVIDIA并没有过多的提及Tegra的图形处理核心,因为这是他们自己设计的。NVIDIA证实,在Tegra 2中,只有两个ARM处理核心来自
第三方,其他都是他们自己设计的。如果你想知道Tegra2的3D图形效能究竟有多强,我要告诉你,在它上面可以运行虚幻3引擎。
Tegra运行大型3D游戏
第04页:LPDDR2:双倍内存带宽
在Tegra2的GPU架构与Tegra1相类似,同样都支持OpenGL ES 2.0。只是性能有更多提高。NVIDIA预计,Tegra2将有2至3倍的性能提升,有更高的内存带宽和更高的时钟频率。以前的Tegra仅仅支持 LPDDR1,而现在的Tegra2支持LPDDR2。在微软的Zune HD中的Tegra SoC芯片中,支持一个32bit 333MHz的LPDDR1内存总线。因此它的带宽为1.33GB/s。而在Tegra2中的内存带宽是Tegra1的两倍。
Tegra一代使用LPDDR1内存
NVIDIA认为,Tegra2是一颗有着更高的内存带宽的SoC,它可以提供更好的游戏性能,可以为
软件的运行提供更快的装载速度。NVIDIA在图形业界是王中的王者,因此我们有理由相信,他们在移动图形领域也会称王称霸。在手机上运行QuakeIII时,Tegra1能够顺畅的实现720P分辨率,帧率超过40帧。相信现在还没有一款手机能达到如此高的性能表现。
像是Tegra1一样,Tegra2也有一个ARM 7处理器,它是一颗管理控制芯片。负责管理数据流,电源管理,和其他类似的任务。
你也许会注意到一件事情,NVIDIA的Tegra2中没有调制解调器。确实如此,NVIDIA就没打算在Tegra2中集成它。NVIDIA的理念 非常简单,他们要专注于具备计算功能的SoC芯片研发,不需要入网许可证或者FCC测试。OEM厂商如果真的有需要,Tegra2可以支持第三方调制解调 器,或者根据需要集成该功能。这样做可以赢得更快的上市时间。另一方面,因为世界上有许多不同的无线网络,他们使用了大大小小许多种通讯协议。如果针对所 有网络设计出调制解调单元是不现实的。因此我觉得NVIDIA的这种做法还是相当有意义的。并不是每一个采用Tegra2方案的设备都是智能手机,也许还 会有许多其他移动设备。如果加入额外的调制解调单元,就会使产品整体成本上升。无论是厂商还是消费者,都不愿意看到这样的事情发生。
第05页:今天是Tegra开发机,明天是智能手机
以前的Tegra采用的是65nm制造工艺技术,由台积电进行生产。而现在的Tegra2采用的是台积电40nm制程。新的制造工艺技术,使得芯片的 体积可以进一步收缩,同样尺寸的芯片可以填充2倍多的晶体管数量。Tegra2是一个非常复杂的芯片,它具备2.6亿个晶体管。芯片核心面积为49平方毫 米。事实上,音频部分占据了很大一部分面积,而上文提到的2个A9处理单元仅仅占用了10%的核心面积。最初的Tegra2芯片将采用的是一个标准的 8.8mm的BGA封装,它可以安装在普通的PCB板上。而未来的智能手机版本将会使用更小尺寸的封装技术,这样可以更加节省空间。为了方面开发人员,目 前NVIDIA提供了5英寸的开发主板。NVIDIA告诉我们,通过这个简单的开发主板,我们可以开发出数以百计的移动计算设备。我们也许不能一下子就开 发出体积非常小巧的移动设备,但是NVIDIA的目标是在未来开发出手机大小的开发套件。
目前NVIDIA推出了采用Tegra2方案的Tablet PC产品,他们将可以更快更深远的占领市场。目前NVIDIA已经展示了这款Tablet PC的事物和图形
用户界 面。Zune HD也是采用的Tegra1的一个好例子,它是如此精巧简单,同时性能又是如此的强大。NVIDIA的设想是把Tegra当做GPU卖给PC制造商一样, 卖给手机制造商。虽然NVIDIA在SoC领域还需要一个漫长的学习过程,不过从Tegra1、2两款芯片来看,确实是一个好的开始。目前已经有采用 Tegra1的智能手机,预计在下个月巴塞罗那的移动世界大会上就能看到它的身影。另外还有Tegra2方案的智能手机产品也在紧锣密鼓的研发中。我们将 在2010年内看到他们的身影。
第06页:令人兴奋:ARM Cortex A9架构解析(上)
虽然NVIDIA对于GPU的架构谈的不多,但是他们更喜欢谈论ARM Cortex A9。首先我们先来看看这些微处理器核心管线之间的差异。ARM11核心在2003年推出,它采用的是单条8阶层管线,可以进行浮点运算。而ARM Cortex A8在2005年发布,管线阶层翻了一番。A8具备两条执行流水线,每一条具备13个阶层。更深层的处理管线,可以增加芯片的频率空间。而两条执行管线设 计可以增加每个时钟周期的效率。
现在的ARM Cortex A9,执行管线的级数回落到8层。它仍然是双执行管线设计,也可以乱序执行指令。而在频率方面,ARM Cortex A9也有较大进展,德州仪器发布的A9处理器频率从750MHz到1GHz之间。这也就意味着NVIDIA的Tegra2将运行在1GHz的频率上。根据 ARM的透露,ARM Cortex A9处理器在台积电的40nm制程下,可以达到2GHz的运行速度。不过真正消费级的2GHz芯片,可能要等到28nm制程才能量产。
ARM Cortex A9会比A8有着巨大的飞跃。这有两个方面的原因。第一,A9比A8具备更浅的管线阶层,这就意味着每个时钟周期可以作更多的任务。它有着一个设计更为先 进的执行引擎,这使得它每个时钟周期可以执行更多任务。在相同的时钟频率下A9可以完胜A8。根据ARM公司透露的数据,主频为1GHz的A8可以提供 2000 DMIP的处理能力,相当于每个MHz提供2 DMIP。而A9可以达到2500 DMIP,即每个MHz可以提供2.5 DMIP。
上面提到的仅仅是单一A9核心的性能增幅。但是NVIDIA采用了40nm制造工艺技术之后,一颗SoC芯片多出来的晶体管空间足够放下2个A9处理 核心。这就是NVIDIA最先做的事情。两个A9处理单元可以多线程的执行代码,你可以试想一下他会比iphone 3GS的处理性能高出多少?
第07页:令人兴奋:ARM Cortex A9架构解析(下)
同时,较浅的管线阶层数量,也有助于降低功耗。这对于移动设备来说是格外重要的一件事情。超低的功耗表现和更优秀的电源管理会对未来的移动计算设备带来深远的影响。
每一颗ARM Cortex A9处理核心都有自己私有的L1高速缓存,他们可以存储指令和数据。像A8一样,带有64KB的L1高速缓存,指令和数据各有32KB。所有核心可以共享 芯片上的L2高速缓存。共享L2是非常有必要的,尤其是这种双核心的设计。这个架构的L2容量最高可以扩展到8MB。这听起来有些夸张,我预期的容量是 256KB到512KB之间比较合理。而L2也可以以处理器的时脉速度全速运行。
这里我们会看到Tegra平台的进化历程,这似乎和台式机处理器的发展历程有些类似。只是目前它的规模要小的多。就像是奔腾和赛扬一样,ARM公司从A8到A9的发展历程中,也渐渐将处理器市场划分的更细致,处理器的品种越来越丰富。
不同于以前的Pentium
Pro, 今天的世界发生了许多变革。多线程的代码更为普遍。因此我们也看到了ARM开始推出更强的具备多核心处理能力的处理器。从技术上讲ARM11也可以用户多 核心环境,只是现在还没有看到这样的应用方案。技术NVIDIA要在Tegra中集成多个ARM11处理单元,但它最终也会发被封装在一颗SoC芯片中。 但是ARM Cortex A9将改变这一切,NVIDIA是第一个实现了双核心设计的芯片方案。在智能手机应用高速发展的今天,它确保我们能够通过小小的手机屏幕同时执行更多任 务。为了智能手机能更好的处理多任务应用,你需要一个多核心的处理器。
对于ARM Cortex A9单核心版处理器来说,也是非常强大的芯片。ARM指出,A9是自ARM11以来最为伟大的一次升级。完全向下兼容现有代码,它具备非常小巧的芯片核 心。大部分ARM11采用的是130到40nm制程,所以单核心的A9就可以作的非常小巧。同时A9将具备更强的性能表现。
第08页:NEON:ARMD的多媒体扩展指令集
在发布ARM Cortex A8的时候,AMR也发布了自己的向量浮点指令集,它的名字叫做NEON,你可以简单的把它看做是ARM世界的MMX、SSE或是3Dnow!。ARM Cortex A8处理核心中包含了NEON,但是ARM Cortex A9中包含了ARM FPU浮点运算单元或NEON。这个FPU是基于ARM Cortex A9设计的,它看上去就像是单核心的执行能力的ARM11。这个FPU将比NEON单元更加小巧,这就意味着它更加节省成本,更加省电。
苹果
iPhone 3GS采用的三星S5PC100处理器正是基于ARM Cortex-A8参考设计方案,最高速度可达833MHz,不过实际运行频率降低到了600MHz.三星这颗新处理器代号“Hummingbird” (蜂鸟),采用45nm低功耗低漏电工艺制造,由ARM NEON多媒体扩展器、32KB数据和32KB指令一级缓存、可定制大小的二级缓存等模块组成,能在1GHz频率下提供2000MIPS。
NEON就是霓虹灯的意思,这下你知道它有多绚丽了吧
第09页:ATOM 对决 Cortex A9
Intel在2008年,推出了主打低功耗和移动计算领域的Atom平台。以进军嵌入式市场领域,而ARM也看到Intel来者不善,想要通过 Cortex A9来进一步提高ARM处理器的性能表现。尽管这两个阵营的处理器产品有许多区别,但是Atom和Cortex A9都同样是非常先进的移动处理器。
在Atom执行流水线的前端,有2个解码单元,他们负责将内存读取来的指令都解析成处理器的内部指令再加以处理。这与Cortex A9非常类似,A9的指令列队也有2个解码器。
Intel Atom架构图
这两种结构都有一个统一的指令列队,和4个指令入口。Atom的FPU单元(用来执行SSE或者其他浮点操作)有2个指令入口,AGU、ALU单元有2个指令入口。而Cortex A9中,有2个ALU指令入口,一个FPU/NEON指令入口,和一个AGU指令入口。
ARM Cortex A9架构图
Atom的两个产线程可以共享资源,同时执行指令。而Cortex A9的优势在于具备较浅的管线阶层,具备很高执行效率,另外还具备乱序执行的能力。二者这样独特的设计,都是为了提高处理器的执行效能。但是实现的方式却 非常不同。不过总体看来,如果ARM的时钟频率能达到Atom的等级,那么相信它的性能会更高。
第10页:Tegra2:平板电脑
ICD是一家国外消费数码厂商,继此前推出的磁性笔触摸屏Vega平板本之后,该公司近日又发布了一款更为有趣也更为强悍的Tegra平台平板电脑, 这款产品叫作Ultra。外观酷似巨型苹果itouch。据透露,ICD Ultra是一款7英寸PC,它采用了Nvidia的Tegra T20芯片组,内置了512MB的DDR内存和512MB的NAND闪存,并且配备了4GB不可移除的SD卡,另外它还可以通过额外的MicroSD插槽 进行容量扩展。
比较有趣的一点在于,ICD Ultra为用户提供了130万象素的网络
摄像头,并且它还可以支持FM收音功能,同时它还配备了HDMI高清输出接口和3.5mm耳机孔,最后它还支持加速计功能。ICD Ultra平板PC的网络通讯功能比较出色,它可以支持3G、802.11b/g以及蓝牙等功能。
另外ICD Ultra预装的是
Google Android 2.0 Eclair操作系统,其外形尺寸为186mm×158mm×18mm,看上去相当薄。另外IDC将会提供不同屏幕分辨率的Ultra版本,用户可以选配800×480分辨率或者1024×600分辨率的电容式或者电阻式触摸屏。
第11页:绝密:曝光Tegra2芯片
老实说,Tegra2是我在本次CES2010大展上见到的最让人激动的事情,主要是因为它集成有两个ARM Cortex A9处理单元。虽然我们现在对于手机和移动设备的3D图形能力有很多期待,但是我相信这些移动设备的性能会越来越强大。Cortex A9就是一次伟大的革命。
绝密曝光Tegra2芯片
从你读到这篇文章起,就宣告着ARM11和Cortex A8被ARM叫回家吃饭,新一代Cortex A9处理器即将接任。NVIDIA并不是唯一一个提供Cortex A9解决方案的厂商。德州仪器的OMAP 4也会集成一对A9。
这里我们有理由相信NVIDIA的能力,Tegra2的性能绝对不用怀疑。至少它会比iphone 3GS快上许多。待到下个月的移动世界大会,我们就能看到真正基于Tegra的智能手机登场。至少在2010年内,我们就能用上第一款基于Tegra方案 的Android手机。
目前ARM Cortex-A系列处理器核心的授权用户已经有十几家,预计到2013年可占据移动应用处理器市场的一半左右,独立和嵌入式手机应用处理器市场总价值也将从2008年的20亿美元增至2013年的61亿美元,年复合增长率25%。
Tegra1代芯片
即使可能性很高,但我们目前仍然还不能确认LG是否真的会在windows phone7手机上采用这种看起来颇有诱惑力的架构技术,而且Tegra2带给终端用户的应用体验是否真能达到预期,这一切还有待验证...