6月9日,我们终于迎来了GeForce RTX 3070 Ti的发布,这款显卡的发布标志着截止目前GeForce RTX 30系游戏卡“Ti家族”的成员全部补齐,今天给大家带来的是iGame GeForce RTX 3070 Ti Advanced OC 8G显卡首测。
iGame GeForce RTX 3070 Ti Advanced OC 8G
目前,已经推出的GeForce RTX 3060/3070/3080均已推出Ti系列,当然也不排除后续NVIDIA会推出内容创作卡GeForce RTX 3090 Ti的可能性。但就以目前的数量来看,“Ti家族”还没这么整整齐齐过,并且在售显卡达到7款,而NVIDIA方面也没有要停售哪款显卡的迹象。
iGame GeForce RTX 3070 Ti Advanced OC 8G
从售价来看,新推出的GeForce RTX 3070 Ti与GeForce RTX 3080 Ti分别为4499元起和8999元起,确实填充了价格空位,但从GeForce RTX 3080 Ti的性能提升来看,也着实对得起这份价格,所以变相涨价的说法似乎不成立。
iGame GeForce RTX 3070 Ti Advanced OC 8G
GeForce RTX 3070此前的发布价格为3899元,GeForce RTX 3070 Ti的发售价格为4499元,差价600元对于显卡来说算是非常小了,所以今天我们就来看看这款iGame GeForce RTX 3070 Ti Advanced OC 8G的性能到底如何,在测试开始前,笔者先将这款显卡的特点列出方便大家阅读:
性能较公版有大幅提升
一键超频按钮方便快捷
总的来说,GeForce RTX 3070 Ti的定价介于自家产品之间,而性能则介于对手产品之间,身份着实复杂。iGame GeForce RTX 3070 Ti Advanced OC 8G这张卡,从外观来讲,Advanced系列的整体升级让原本的合金骨架更具有力量感,显卡两侧进行了简约无遮挡的处理,可进一步提升散热效率。其标志性的能量核心加上精心设计的视觉暂留效果,真的让人忍不住会多看上几眼。
01 GeForce RTX 3070 Ti GA104核心的第二张显卡
在核心架构上,GeForce RTX 3070 Ti是采用GA104核心的第二张卡,官方白皮书上对比的对象为GeForce RTX 2070 SUPER,相较于上一代的NVIDIA Turing架构,NVIDIA Ampere架构下的GeForce RTX 3070 Ti每个时钟执行2次着色器运算,而Turing为1次,RTX 3070 Ti的着色器性能达到22 TFLOPS单精度性能,而Turing为9 TFLOPS。
RTX 3070 Ti 新老两代显卡算力对比
NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量,RT Core达到42 RT TFLOPS,而Turing为24 RT TFLOPS。而且第二代光线追踪最重要的不仅仅是性能提升,还增加了对游戏中运动模糊部分场景的光线追踪计算加速。
第三代Tensor Core可自动识别并消除不太重要的DNN权重,处理稀疏网络的速率是Turing的两倍,算力高达174 Tensor TFLOPS,而Turing为72 Tensor TFLOPS。
GeForce RTX 3070 Ti采用了GA104核心,与GeForce RTX 3070相同,不过NVIDIA官方并没有给出GA104核心架构图,我们仍以GA102来做讲解。
完整的GA102核心
完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成,而GeForce RTX 3070 Ti的CUDA数量是6144个,共有48个SM单元,也就是3个GPC 24个TPC,而刚刚发布的GeForce RTX 3080 Ti共有40个TPC 80个SM单元,这也是两款芯片的差距所在。
公版显卡参数表
为了查询方便,笔者将这几款显卡的核心参数列出,可以看到GeForce RTX 3070与GeForce RTX 3070 Ti的差距不大,相差的两个SM单元,和刚刚发布的GeForce RTX 3080 Ti情况基本相同,也就是1组TPC,256个CUDA。只不过GeForce RTX 3080 Ti更接近GeForce RTX 3090,而根据参数来看GeForce RTX 3070 Ti与GeForce RTX 3080还有一定差距。
GDDR6X
另外GeForce RTX 3070 Ti的显存虽然依旧是8GB,但已经由GDDR6更换为GDDR6X,两者的区别主要在于频率和带宽上,同频下实现更高的显存带宽可以降低成本和功耗,另外在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。这对于需要大量数据负载的工作尤为重要,如光线追踪的游戏、AI学习和8K视频渲染。
02 NVIDIA Ampere架构GA104解析
iGame GeForce RTX 3070 Ti Advanced OC 8G采用了GA104核心,拥有174亿(17400 million)个晶体管,392平方毫米的面积,基于三星的8nm NVIDIA定制工艺,来自Micron的GDDR6X显存,这里与GeForce RTX 3070的GDDR6有所区别。
本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这使得每个SM的FP32运算单元数量提高了一倍,同时吞吐量也就变为了一倍。
而通常我们计算显卡的CUDA数量,并不是把SM中的所有单元加起来计数,而是只统计FP32单元的数量,所以这样一来,SM中的【FP32 : INT32】 从 1:1 变为 2:1。
GeForce RTX 3070 Ti共有6144个CUDA,其实它有3072个INT32单元,但由于内部的FP32数量翻了一倍,所以最终实现了6144的CUDA数量。
而这样粗暴的提升CUDA数量对于游戏其实有着非常大的帮助,通常在游戏中浮点运算相比整数计算要常用的多,图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令,而FP32的加速也有助于光线追踪降噪着色器。
在去年与GeForce RTX 30系显卡一同发布的还有一项新技术――RTX IO。目前很多游戏动辄几十G甚至百G的安装空间,对于存储空间的负担暂且不提,但存放在硬盘中的数据,如果显卡想要读取到,需要先由CPU从硬盘中读取压缩过的数据,经过解压缩再发送到显存中。
虽然随着NVMe SSD的推出,读取速度相较机械硬盘能够快20倍,但受制于传统I/O限制,NVMe高达7GB/秒的高速读写对于CPU是极大的负担。
传统的数据交换
在这个过程中,会占用多个CPU核心,压力急剧增大,占用较多的内存,而此时其实GPU是处于闲置状态的。RTX IO的作用就是越过CPU解压再传输数据这一步,直接从PCIE总线读取硬盘上经过压缩的数据,并且完成无损GPU解压,降低CPU占用,变向提升了性能。
RTX IO可以极大解放CPU负担
当然这项技术作为系统底层的运行方式改变,还需要借助微软发布的DirectStorage来实现,对于目前容量的游戏来说,RTX IO的改善效果有限,但假以时日等游戏容量上百G成为常态的时候,这项技术将会发挥巨大的功效。
同时搭配新增的HDMI 2.1接口,可以支持单线8K的视频输出,而上一代HDMI 2.0仅支持4K 98Hz的视频输出,如果想要连接8K电视,则需要