分享到:
发表于 2012-11-30 11:27:03 楼主 | |
NVIDIA哥 把此帖设为精华,作者+50经验:
Kepler无疑是2012年显卡业界最耀眼新星。通过这一全新系列的图形架构,NVIDIA®为我们上演了一幕幕出乎所有人意料的好戏。无论是GeForce® GTX 690/680/670对旗舰级对手的完美超越,还是GeForce® GTX 660 Ti以甜品级身份越级挑战对手次级旗舰的精彩,Kepler架构一直没有让我们失望。 现在,NVIDIA®为我们带来了Kepler架构精彩的延续。北京时间2012年9月13日21时,GeForce® GTX 660以及GeForce® GTX 650正式发布了。 作为Kepler架构体系的最后一块拼图,GeForce® GTX 660带来的GK106架构身负着为全世界勾勒完整的Kepler体系的任务。作为GeForce® GTX 660 Ti的下级产品,定位游戏级甜品市场的GeForce® GTX 660能否成为游戏玩家的优秀选择,它的出现又是否能够将NVIDIA®产品布局更加清晰的展现在世人面前,这些都将成为我们今天将要揭晓的答案。
与GeForce® GTX 660同时到来的还有面向低端市场的GeForce® GTX 650,通过这款产品,NVIDIA®将会为我们展现GK107的真正实力。它能否成为称职的“低端游戏显卡”,我们同样会在今天的测试中为您揭晓。
一次发布两款定位差距很大的产品,这种现象在显卡发展史上是非常罕见的,NVIDIA®的本次发布让我们的测试数据量有了大幅增长。除此之外,我们还将会在本次测试中引入一种全新的游戏功耗记录手段,并首次向您展现AMD/NVIDIA®显卡在游戏中真实的功耗表现。所以屏幕前的诸位,请千万要打起精神跟上我们的脚步,否则您将会错过许多不应该被错过的精彩哦。 |
|
个性签名:无
|
发表于 2012-11-30 11:28:25 1楼 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
● 中端新锐规格总览
GeForce® GTX 660采用了基于Kepler图形构架的GK106核心,它拥有221平方毫米的芯片面积。与完整规格的GK104相比,GeForce® GTX 660运算资源总量从1536个ALU下降到了960个,Texture Filter Unit由128个减少到了80个,构成后端的ROP为原生24个。与ROP相对应的,GeForce® GTX 660的MC结构也变成了3个64bit双通道显存控制器,显存位宽192bit。GeForce® GTX 660拥有2048/3096MB两种显存容量搭配方案,其中2048MB采用了非对称显存布局体系。
GeForce® GTX 650采用了GK107架构,它的核心规模和面积更为小巧,仅为13亿晶体管/118平方毫米。与完整规格的GK104相比,GeForce® GTX 650运算资源总量从1536个ALU下降到了384个,Texture Filter Unit由128个减少到了32个,构成后端的ROP为原生16个。GeForce® GTX 650的MC结构为双64bit双通道显存控制器,显存位宽128bit。GeForce® GTX 650拥有1024/2048MB两种显存容量搭配方案,搭载GDDR5显存。
作为全新产品,GeForce® GTX 660和GeForce® GTX 650的架构特性是最为引人瞩目的。由于比过去更多的旗舰级产品下延,以及低速显存对低端架构性能造成的干扰,我们一直无法把握NVIDIA®在Kepler时代确切的产品布局以及架构性能特征。现在,我们终于看到了全新的GK106架构,同时还获得了不受束缚的“真正的”GK107架构。接下来,就让我们一起看看这两款架构的更多细节吧。 为了满足很多读者以及我们自己贪玩的“小性子”,我们在先前的《能否延续“6系经典”? GTX660性能预测》一文中对GK106架构的首发形态以及性能状况进行了预测。值得庆幸的是,我们的预测游戏再一次获得了大体上的命中。接下来,就让我们看一看出现在GeForce® GTX 660全新架构——GK106的诸多细节吧。 GK106架构具备5组SMX单元,分别居于3个GPC中来组成并行结构。3
GPC的传统结构让它具备了3套前端以及光栅化处理部分,其单周期的几何输出以及光栅化能力为同频旗舰级架构的75%。更好的几何性能、更低的时间成本以
及研发成本是它的优势。GK106架构让NVIDIA®在下位甜品级以及上位中端产品区间里拥有了更好的产品可操作性,同时在面积和成本空间层面获得了较好的平衡。 上面这幅由NVIDIA®公布的架构图有一个有些刺眼的细节,那就是右边那个独立SMX的GPC单元。这一细节将GK106上最吸引人的话题表露了出来——它究竟是不是一款“阉割”之后的芯片呢? 在NVIDIA®发布的官方说明中,对于GK106的原文描述是“The GTX 660 uses the full chip implementation of gk106 silicone”,这句拗口的英文可以被翻译成“GTX660是
使用的‘完整的GK106芯片’来实现的”或者“GTX660是基于完整规格的‘GK106芯片’”。这是两个完全不同的意思,如果玩一场充斥外交辞令的
文字游戏的话,我们完全可以将之理解成GeForce® GTX
660使用了完整的GK106架构,但GK106架构是否就是一个完整规格的架构并不重要;或者GeForce® GTX
660就是一颗完整的没有任何阉割的芯片。 由于NVIDIA®最终也未能给予我们明确的答复,同时实际性能测试环节以及针对GK106架构的其他
官方描述无法为我们提供足够的证据,来证明NVIDIA®在GK106中引入了完全不同的2种GPC结构设计,对NVIDIA®长期行动模式的分析、目的
性出发的推论以及成本和风险考量同样无法为我们提供“新GPC结构设计”的支撑,因此我们认为GK106是一款削减规模的架构。它并非原生的
5SMX/3GPC的非对称并行架构,而是由6SMX/3GPC的常规并行架构通过阉割一组SMX单元得来的。我们已经在前面提到的那篇预测文章中讨论过
这种结构的利弊,所以在此就不再重复了。 相较于GK106,GK107要来得更加“单纯”一些。我们可以很直接的将采用GK107的GeForce GTX 650,看成是换装更高速的GDDR5显存并提升一定频率的GT640。GeForce GTX 650,才是真正展现GK107架构性能的产品。 GK107拥有一组完整的GPC结构,内含2个SMX单元。它的实际规模是旗舰级的GK104的1/4,这种标本型的特征让GK107有了很高的参考价值,我们可以将GK107芯片的逻辑运算部分直接看做是GK100时代Kepler架构最基本的组成部分。 由于这种特性,GK107架构拥有了一套完整的前端以及光栅化处理部分,其单周期的几何输出以及光栅化能力为同频GK104架构的25%,或者同频GK106架构的三分之一。同时,与之搭配的显存控制器阵列扩展到了2个,GK107由此具备了128bit的显存位宽。除此之外,GK107的绝大多数特性均可以和GK106一样参考整个Kepler家族的传统。 在本代的Kepler产品线中,NVIDIA为我们带来了比过去出色许多的性能功耗比特性,为了进一步了解优秀性能功耗比的成因,同时进一步了解GK106/107架构的更多特性,我们不妨来回顾一下Kepler架构的细节特性。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
发表于 2012-11-30 11:29:04 2楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:30:03 3楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:30:51 4楼 | |
● 全新边缘检查抗锯齿:TXAA
抗锯齿技术一直都是平滑物体边缘,提升模型精细度以及视觉美感的重要手段。从最开始的超级采样,到后来的多重采样以及CSAA等极富特色的采样形式,抗锯齿一直都是显卡发展重要的组成部分。
伴随着DirectX 11的出现,GPU的通用计算性能被越来越多的直接应用在了图形计算过程中,这其中也包含了抗锯齿过程。使用Compute Shader带来的A-buffer等全新特性,边缘检查为主的MLAA以及FXAA这两种全新的抗锯齿形式获得了很好的接受度和支持度。而在GK104 中,NVIDIA®再次为我们带来了全新的基于边缘检查的抗锯齿模式——TXAA。
TXAA作为改进型的新一代边缘检测型抗锯齿不仅改善了传统的边缘检测型抗锯齿所导致的材质模糊问题,同时还为我们带来了质量极高的细小多边形以及线框部位的AA表现。
按照NVIDIA® 公布的数据,TXAA能够以2MSAA的性能代价实现8MSAA的边缘抗锯齿质量,以4MSAA的性能代价实现大幅超越8MSAA的抗锯齿质量。TXAA 的接受度相当高,已有包括EPIC以及Crytek在内的多家旗舰级游戏引擎供应商宣布将在旗下的引擎中对其进行支持。 Adaptive VSync是NVIDIA®在GK104中引入的另一个重要新功能。其最大的意义,在于改变传统垂直同步分段式的帧数管理模式,用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生。
在传统的垂直同步设定中,帧数一般会被机械的划分成30以及60帧两档,当游戏帧数大于60帧时,垂直 同步程序会将帧数限定在60帧,而当游戏实际帧数跌落到60帧以内时,垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的 顿挫感,同时还会导致画面撕裂等问题的出现,这不仅影响了游戏过程本身,更与垂直同步技术本身消除画面撕裂的初衷相悖。
在Adaptive VSync中,NVIDIA® 打破了传统垂直同步技术对帧数下限的限制,当游戏帧数低于60帧之后,Adaptive VSync将会尽量让帧数维持在当前水平,而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时,传统的垂直同步机制依旧会发挥作用,游戏帧数 依旧会如果去那样被限定在60帧上。
相比与传统的垂直同步,Adaptive VSync技术能够带来更加平滑的帧数体验,避免帧数突然暴跌带来的最小帧问题,提升整个游戏的流畅度体验。在此基础上,Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作,因此从深层意义上来讲,Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。 在之前发布的Tahiti构架中,AMD首次引入了针对视频的硬件编码处理单元VCE,这套单元可以以纯硬件的形式完成高清视频的编码过程。而Intel早在Sandy Bridge中就已经引入了类似的电路。如今,NVIDIA®在GK104中同样加入了类似的针对性解决机制——NVENC。
能够提供了一组专门的逻辑电路设计,它可以大大加快包括H.264在内的多种高清视频格式的编码和转码速度。按照NVIDIA®提供的数据,NVENC可以4~8倍于“real-time”的编码速度,如果以24帧的播放速率作为real-time的标准,则NVENC可以实现远大于60帧的高清视频实时编码过程。
除了提供更快的编码及转码速度之外,NVENC还提供了更好的性能瓦特比。它可以以十分之一的功耗实现与软件编码过程相同的性能,这从侧面进一步契合和呼应了Kepler构架以及GTX680着重强调性能瓦特比的特点。 目前,由Cyberlink出品的MediaEspresso软件已经率先提供了对NVENC的支持,用户们可以在Kepler构架发布后第一时间体验到NVENC技术带来的好处。 |
|
发表于 2012-11-30 11:33:27 5楼 | |
● 将短小进行到底——GTX660拆解
NVIDIA® GeForce® GTX660采用基于28nm制程工艺、Kepler架构设计的GK106图形核心。该显卡拥有960个流处理器,24个光栅单元和80个纹理单元。
NVIDIA® GeForce® GTX660采用4+1相供电设计(核心4相、显存1相),元器件采用全固态电容以及R22铁素体电感,外接单6pin外接供电接口,散热器与GeForce® GTX660 Ti如出一辙。
NVIDIA® GeForce® GTX660搭载星空体育平台GDDR5高速显存颗粒,显存容量2048MB,显存带宽192bit,默认频率为980/6008MHz。
NVIDIA® GeForce® GTX660采用双DVI+HDMI+DisplayPort输出组合,与GeForce® GTX660 Ti/670/680完全相同。 ● 一沙一世界 NVIDIA® GeForce® GTX 650采用基于28nm制程工艺、Kepler架构设计的GK107图形核心。该显卡拥有384个流处理器,16个光栅单元和32个纹理单元,GPU晶体管数量13亿。
NVIDIA® GeForce® GTX 650采用2+1相供电设计(核心2相、显存1相),元器件采用全固态电容以及全铁素体电感,外接单6pin外接供电接口。
NVIDIA® GeForce® GTX 650搭载海力士GDDR5高速显存颗粒,显存容量1024MB,显存带宽128bit,默认频率为1058/5000MHz。
NVIDIA® GeForce® GTX 650采用双DVI+HDMI输出组合,与更高级别NVIDIA®显卡的区别是取消了DisplayPort视频输出接口。 ● 参测产品之七彩虹GeForce® GTX 660
|
|
发表于 2012-11-30 11:35:19 6楼 | |
● 参测产品之影驰GeForce® GTX 660
● 参测产品之映众GeForce® GTX 660
|
|
发表于 2012-11-30 11:37:05 7楼 | |
● 参测产品之微星GeForce® GTX 660
● 参测产品之耕升GeForce® GTX 660
● 参测产品之七彩虹GeForce® GTX 650
参测产品之索泰GeForce® GTX 650
|
|
发表于 2012-11-30 11:38:12 8楼 | |
自持 | |
发表于 2012-11-30 11:38:29 9楼 | |
● 参测产品之影驰GeForce® GTX 650
● 参测产品之映众GTX650游戏至尊版
● 参测产品之技嘉GV-N650OC-2GI
|
|
发表于 2012-11-30 11:39:27 10楼 | |
● 参测产品之翔升GTX650+ 2G D5
● 参测产品之微星GeForce® GTX 650
|
|
发表于 2012-11-30 11:40:05 11楼 | |
● 参测产品之耕升GTX650赵云版
● 参测产品之太阳花 铁甲GTX6501GDDR5圣堂武士
|
|
发表于 2012-11-30 11:41:22 12楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:41:59 13楼 | |
● 理论性能测试:3DMark Series
3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试,两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件更加偏重整机性能。
理论测试环节,GeForce® GTX 660表现出了优秀的下位甜品级产品性能,它的理论性能领先同样定位的Radeon HD7850。而作为低端游戏级显卡出现的GeForce® GTX 650也取得了上佳的表现,它的理论测试性能甚至超越了下位中端定位的Radeon HD7750。 《暗黑破坏神3》是著名动作角色扮演游戏《暗黑破坏神2》的续作,游戏故事 发生于《暗黑破坏神2》的20年之后。玩家可以在五种不同的职业中进行选择,每种职业都有一套独特的魔法和技能。玩家在冒险中可以体验丰富多样的设置、感 受史诗般的故事情节,挑战无以计数的恶魔、怪物和强大的BOSS,逐渐累积经验,增强能力,并且获得具有神奇力量的物品。
我们采用的测试场景 选择伪第三幕戍卫要塞的第一个任务——点燃篝火。该场景存在大量激烈群战以及快速场景切换,场景地形复杂且变化较多,玩家在进行这里的游戏时会经历比平时 更大幅度的FPS变化。测试方法为获得首个任务之后移动到天冠城垛入口并开始记录帧数,然后以相同的由近至远的顺序点燃篝火并以相同单一技能与沿途敌人进 行战斗且消灭之,直至最后一个篝火被点燃为止。测试平均时长417秒,测试进行3次,取平均帧数作为测试结果。
暴雪并不以强大的图形表现见长,但Diablo3精美的画面以及绚丽的特效依旧可以对显卡造成了不小的压迫。在Diablo3的测试中,GeForce® GTX 660和GeForce® GTX 650均表现出了令人满意的性能。 |
|
发表于 2012-11-30 11:43:02 14楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:43:51 15楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:44:53 16楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:46:16 17楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:47:23 18楼 | |
您的内容正在火速审核中,请稍等 |
|
发表于 2012-11-30 11:48:06 19楼 | |
● 通用计算延展测试:Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴 影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速 度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。 CSM测试让我们进一步了解了Kepler架构在进行矩阵操作是的性能,它的结果可以近似替代 GPCBenchmark测试中的矩阵乘法以及矩阵转置测试。优秀的矩阵操作能力是一款DirectX 11 GPU所应该具备的基本素质,从测试的结果来看,GeForce® GTX 660并没有让我们失望。所谓Kepler架构放弃通用计算能力的说法,其实是根本不存在的。 ● 通用计算延展测试:OIT 半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物 体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作) 的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操 作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因 此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力。 OIT考验的cache性能以及Atomic能力是通用计算的基础,良好的缓冲体系以及对线程的控制能 力体现了构架最基本的灵活度。测试结果表明,凭借着Fermi架构的积累,拥有良好cache性能以及线程块处理能力的GeForce® GTX 660在面对通用计算以及DirectX 11图形任务时将会变得游刃有余,其性能甚至超越了竞争对手旗舰级的Radeon HD7970。 ● 通用计算延展测试:Nbody Gravity CS11 Nbody Gravity的前身来自Nbody仿真,Nbody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发 生非接触力学吸引/排斥作用。通过Nbody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星 系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成Nbody仿真过程并予以解决。
Nbody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言Nbody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够 影响的对象要多,其背后所对应的线程量非常庞大,因此Nbody Gravity对于硬件构架的并行度有极高的要求。透过Nbody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终 都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。 Nbody Gravity是一个传统的偏重吞吐以及并行化方向的测试过程,Kepler能够在这里继续维持对吞吐见长的Tahiti以及Pitcairn架构的优 势,表明其已经充分达成了构架灵活度、缓冲灵活度以及理论吞吐性能三者之间的统一和平衡,我们认为这是Kepler构架能够表现出强大绝对性能以及极好的 功耗性能比的重要原因。 ● 游戏级显卡的穿越对决 接下来的测试要相对趣味一些。GeForce® GTX 660作为一款下位甜品级产品,其主要面对的市场需求来自游戏级玩家。所以我们找来了一款数年前颇为经典的游戏级显卡——GeForce® 9800 GT,通过让其与GeForce® GTX 660进行一场直接对决,借以衡量一下NVIDIA®在过去数年间究竟取得了怎样程度的进步,游戏玩家又获得了多少性能提升。
从测试结果来看,5年的时光并没有白白流走。相比于5年前的GeForce® 9800 GT,GeForce® GTX 660在理论测试中取得了6倍的性能增长,实际游戏测试也维持了3~4倍的实际性能提升。正是得益于这些进步,显卡性能的提升被转化成了更加绚丽的游戏体 验,并在过去的5年时间里为我们带来了更多的欢乐和享受。 |
|
发表于 2012-11-30 11:49:00 20楼 | |
您的内容正在火速审核中,请稍等 |
|
针对ZOL星空(中国)您有任何使用问题和建议 您可以 联系星空(中国)管理员 、 查看帮助 或 给我提意见