Tegra K1架构详解:英伟达野心勃勃

发布时间:2014-01-9 阅读量:9261 来源: 发布人:

【导读】Tegra 2是首款双核心安卓处理器,Tegra 3第一个做到了四核,Tegra 4则第一次带来了四核A15。经过四代产品的铺垫,NVIDIA在移动领域积累了大量经验和教训,再次吹响了前进的号角——Tegra K1。本文带你详解K1架构,一窥NVIDIA的勃勃野心。

这一次,NVIDIA首次在同一个名字下提供了两种不同的版本,其一是传统的4+1核心A15,其二是自主设计的双核ARMv8 64位架构(丹佛工程),并且都集成了开普勒架构的GPU图形核心,抛弃之前陈旧的NV4x而首次追上了桌面显卡的步伐。

这一次,NVIDIA更加野心勃勃。


【CPU选择之一:四核A15】


Tegra K1的这个版本和Tegra 4很相像,也是四个高性能A15核心、一个省电专用A15核心,但仍然有多出明显改进:

1、晶体管布局。这个是对半导体厂商设计能力的最大考验,也是决定芯片表现的关键。NVIDIA自称汲取了Tegra 4上的经验。

2、28nm HPM制造工艺。Tegra 4使用的是台积电28nm HPL,最高只能跑到1.9GHz,而且经常需要为了控制功耗而不得不降频,而更高级的新工艺技术大大降低了动态功耗。

3、A15 R3核心。Tegra 4的核心是A15 r2p1版本,现在升级到了r3p3版本,而伴随每次修订,都会有大量Bug修复和时不时的性能提升。r3系列版本中,ARM增加了更精细的时钟栅极,直接提高了能效。

综上,Tegra K1的最高频率来到了2.3GHz,而且可以在四个核心全部开启的情况下跑出这个频率,仅此带来的性能提升就可以超过20%。

第五个节能核心的频率最高1GHz,不过大部分时候会徘徊在500MHz左右。

NVIDIA宣称,在同样的功耗下,Tegra K1的性能可以提升40%,而在同样的频率下,Tegra K1的功耗能够节省55%。


缓存没有动,还是2MB二级缓存、32+32KB一级缓存,而内存是64-bit LPDDR3/DDR3L,最大容量翻番至8GB,因为支持了40位物理寻址。

A15版本的Tegra K1已经在2013年底投产,将在本季度内提供给厂商,上半年应该就能看到实际产品出炉,不过有了Tegra 4的前车之鉴,厂商们肯定会更谨慎。

 

【CPU选择之二:64位丹佛】

整整三年前的CES上,NVIDIA宣布正在自主开发ARM指令集微架构,代号“丹佛工程”,不过当时定位的是PC、服务器,并没有提及移动端,可能那个时候大家还没有想到智能手机、平板机会发展得这么猛。

Tegra K1将在今年下半年迎来新版本,集成两个丹佛核心,工艺可能仍是28nm HPM,而且两个版本针脚兼容,因此内存接口也不会变。


丹佛版Tegra K1将不再有节能核心,只有两个更大的主核心。现在大家都在追逐更多核心,NVIDIA一下子返回双核,会不会让诸多小白感到“愤慨”?

NVIDIA宣称丹佛架构是七发射的,看起来很宽,但这只是处理器的内部指令格式,现在还不清楚哪些指令能够并发,这是很关键的。


丹佛的一级指令缓存是128KB,一级数据缓存是64KB,这种非对称设计在消费级领域并不常见,可能和架构设计特点有关。

28nm工艺加上七发射,丹佛版Tegra K1的主频仍然能够高达2.5GHz,这是挺不可思议的,不知道功耗控制会如何。

丹佛版Tegra K1的设计几周前刚刚从工厂里返回,现在已经可以运行安卓4.4了,进展顺利,不过还得等半年多才能看到它。


 
 

【GPU:牛X的开普勒】

此前四代Tegra使用的图形核心都叫做GeForce ULP,是基于古老NV40架构而来的,非统一渲染,技术特性也很差,尤其是不支持OpenGL ES 2.0,好在性能还算不错。

Tegra K1上,NVIDIA发狠首次借鉴了桌面级GPU,这在整个行业也是头一遭,而且看上去Tegra未来会一直这么做,比如下代架构麦克斯韦就也会很快进入Tegra。


Tegra、GeForce的开普勒在架构上是差不多的,拥有同样大小的寄存器文件、共享的一级缓存,100% ISA(指令集架构)兼容,这说明开普勒的设计本身就很高明,直接就能拿过来用到移动端。

当然规模小多了,只有一个阵列、192个流处理器(不过叫192核心芯片就太二了),而桌面和笔记本上至少两个阵列、384个流处理器。我们看看笔记本上的GeForce 740M,功耗大约19W,其中包括3W左右的内存IO、PCI-E和其它非GPU模块,如果能再去掉6W的漏电,那就只剩下10W。

两个阵列变成一个,功耗再降一半来到5W,而频率和电压再控制一下(核心频率应该是950MHz),2-3W是非常有可能的。NVIDIA宣称的则是GPU部分低于2W。

曲面细分、几何引擎都没有删减。FP64支持也在,相当于FP32 1/24。纹理单元8个,ROP单元4个,只有PC版的四分之一。



DirectX 11、OpenGL 4.4、OpenGL ES 3.0、CUDA 6.0,这些在桌面上有的,Tegra里一个不缺,号称有史以来最先进的移动GPU并不为过,还添加支持了自适应可伸缩纹理压缩(ATSC)。


192个流处理器×2GFlops浮点性能每核心×950MHz核心频率,Tegra K1的原始性能达到了365GFlops,远远超过Xbox 360、PS3,同时在纹理过滤、内存带宽上也都明显胜出。单从指标上看,Tegra K1已经超越了上代游戏机。


 
或许是吃了Tegra 4高功耗的亏,NVIDIA这次非常注重能效,包括电路/电源/多层时钟栅极、互连和数据路径优化、空闲/轻负载/高负载管理、二级缓存与压缩、后端处理等等。

桌面上的开普勒拥有众多计算单元和模块,彼此高效互连非常重要,而移动版规模大大缩减,这方面的压力也就轻了很多。


NVIDIA还提出,开普勒的色彩压缩技术可以有效降低内存带宽占用,而且不仅仅是3D游戏里,UI界面渲染同样如此,可节省43-76%。


NVIDIA宣扬的另外一个数据是,在GFXBench 3.0 Manhattan OpenGL ES 3.0测试中,Tegra K1的能效是骁龙800、苹果A7的1.5倍。


 
 

【图像信号处理(ISP)、视频】

ISP掌管着处理静态图片、动态视频的图像流水线,负责任务包括RGB转换、3A(自动对焦/自动曝光/自动白平衡)、降噪、镜头纠正等等。

Tegra K1也使用了两个ISP,占用面积更大,可以很好地支持双摄像头拍照等应用。

Tegra K1 ISP是第三代产品了,每个都能以14位输入每秒处理6亿像素,两个合并就是12亿像素了,相比之下Tegra 4 4亿像素、10位输入就太弱了。

它还最高支持1亿像素摄像头,最多4096个对焦点(64×64阵列),降噪、局部调和映射也都更好了。



Tegra K1兼容此前的Chimera 1.0,包括物体追踪、始终开启HDR、慢动作捕捉、全分辨率爆发等,并且带来了新的Chimera 2.0,支持更好的临时像素组合(temporal pixel binning/综合CMOS的八个曝光点来进一步降噪)、更快的全景拍照、视频稳定、更好的实时特效预览。

它的内核仍然可以运行在CPU、GPU上,但这次应该会支持CUDA了。


视频方面,继续支持2160p30 4K编码、解码,具体来说就是H.264 High Profile Level 5.1解码、H.264 High Profile 4.2编码,整体来收和Tegra 4上差不多,只是进一步优化了效率和功耗。

H.265解码也是支持的,但没有完整的硬件加速,而是交给NVENC、CPU共同处理。

NVIDIA展示了使用Tegra K1外接显示器播放4K 30FPS H.264视频,完全没有掉帧,不过事实上Tegra 4也能做到这一点,都可以通过LVDS、HDMI 1.4b、eDP 1.4来驱动4K显示器。

输入输出方面有两个USB 3.0、三个USB 2.0、eMMC 4.5.1、PCI-E x4。

哦对了,NVIDIA目前演示用的主要是一台更换了Tegra K1处理器的Tegra Note 7,另有4GB内存、1920×1200分辨率,比现在的高级很多。看起来自家平板还会继续坚持做下去。

相关资讯
“中国芯”逆袭时刻:新唐携7大新品打造全场景AIoT解决方案矩阵

在万物互联与智能化浪潮席卷全球的今天,新唐科技以颠覆性创新奏响行业强音。4月25日,这场历时10天、横跨七城的科技盛宴在深圳迎来高潮,以"创新驱动AI、新能源与车用科技"为主题,汇聚全球顶尖行业领袖,首次公开七大核心产品矩阵,展现从芯片设计到智能生态的全链条创新能力,为半导体产业转型升级注入新动能。

半导体先进制程技术博弈:台积电、英特尔与三星的差异化路径

在2025年北美技术研讨会上,台积电正式宣布其A14(1.4nm)工艺将于2028年量产,并明确表示无需依赖ASML最新一代High NA EUV光刻机。这一决策背后,折射出全球半导体巨头在技术路线、成本控制和市场竞争中的深层博弈。

嵌入式主板EMB-3128:轻量级边缘计算的工业级解决方案

随着AIoT技术的快速落地,智能设备对高性能、低功耗嵌入式硬件的需求持续攀升。华北工控推出的EMB-3128嵌入式主板,搭载Intel® Alder Lake-N系列及Core™ i3-N305处理器,以高能效比设计、工业级可靠性及丰富的接口配置,成为轻量级边缘AI计算的理想选择。该主板支持DDR5内存、多模态扩展接口及宽温运行环境,可广泛应用于智能家居、工业自动化、智慧零售等场景,助力产业智能化升级。

从ASMI财报看行业趋势:AI芯片需求爆发如何重塑半导体设备市场?

作为全球半导体沉积设备领域的龙头企业,荷兰ASM国际(ASMI)近日发布2024年第一季度财报,展现强劲增长动能。财报显示,公司当季新增订单额达8.34亿欧元(按固定汇率计算),同比增长14%,显著超出市场预期的8.08亿欧元。这一表现主要受益于人工智能芯片制造设备需求激增与中国市场的战略性突破,同时反映出半导体产业技术迭代与地缘经济博弈的双重影响。

车规级SerDes国产替代提速:解析纳芯微NLS9116/NLS9246技术优势与市场潜力

随着汽车智能化加速,车载摄像头、激光雷达、显示屏等传感器数量激增,数据传输带宽需求呈指数级增长。传统国际厂商基于私有协议(如TI的FPD-Link、ADI的GMSL)垄断车载SerDes市场,导致车企供应链弹性不足、成本高企。2025年4月,纳芯微电子发布基于HSMT公有协议的全链路国产化SerDes芯片组(NLS9116加串器与NLS9246解串器),通过协议解耦、性能优化与供应链自主可控,为ADAS、智能座舱等场景提供高性价比解决方案,标志着国产车规级芯片从“跟跑”迈向“并跑” 。