2024年11月Intel重回高性能GPU市场!Xe HPG微架构潜力无穷

发布时间:

  ⑴年Intel接连发力,在月份率先推出了旗下首款高性能桌面级GPU A,虽然定位入门级,却也初具规模。而在同年月再次推出了中高性能的A/A桌面级GPU,本次的两款显卡一跃达到了市场主流产品的水准,虽然尚未达到旗舰级发烧性能,但其潜力可见一斑。

  ⑵下面则为大家简单解析一下Intel的Xe HPG微架构,到底有何玄妙之处。

  ⑶Xe HPG微架构浅析

  ⑷本代Intel 款显卡采用了Xe HPG微架构设计,最初发布的入门级A显卡包含个Xe内核(Xe Core,即两个渲染切片(Rendering Slice,下面我们从最小的Xe Core逐步为大家讲解。

  ⑸每个Xe Core包含个位宽的(XVE矢量引擎,它主要负责传统图像处理计算的任务,且提供大部分运算。

  ⑹同时由于AI算法核心几乎完全围绕着一系列大型矩阵算法和累加算法,所以每个Xe Core还包含个位宽的矩阵引擎(XMX,主要为加速AI运算而生。

  ⑺为了满足矩阵、矢量和光线追踪单元的高带宽需求,每个Xe Core中还构建了一个KB的大型本地内存。它可以根据每个工作负载的需要在L缓存和共享本地内存(SLM) 之间动态分配。

  ⑻Render slice

  ⑼综上所述,每个微小的Xe Core,将构成一个Render slice(渲染切片。除此之外,每个Render slice还集成了几何处理、光栅化、纹理采样、像素处理和光线跟踪等主流图形技术。

  ⑽新的光线追踪单元架构可为DirectX Raytracing和Vulkan RT提供全面支持,通过加速光线遍历、光线盒交叉点和光线基元交叉点实现逼真的闪电和视觉保真度。

  ⑾Xe HPG架构最大的特点就是出色的灵活性,Intel可通过叠加渲染切片的方法来构建不同核心,目前最少为个( Xe Core,最大可以做到个( Xe Core,A为两个,而A则为个Render slice。

  ⑿通过此方法,可实现GPU配置从低功耗解决方案扩展到旗舰级的游戏引擎。每个Render slice通过大型L缓存的高带宽内存交换矩阵,能够灵活地扩展到强大的多切片配置,并连接到独立的GPU基础架构。

  ⒀具有连接每个切片的大型二级缓存的高带宽内存交换矩阵能够灵活地扩展到强大的多切片配置,并连接到独立的GPU基础架构。

  ⒁Intel Xe HPG微架构 其他特性

  ⒂XeSS 超级采样

  ⒃针对游戏帧数优化方面,目前NVIDIA拥有DLSS、NIS技术,AMD拥有FSR、RSR技术,这几种技术旨在降低渲染分辨率,输出高帧率画面,但原理有所不同。

  ⒄而Intel的XeSS超级采样技术,同样在未发布时就引起了玩家的高度关注。

  ⒅它是由机器学习通过相邻像素以及运动补偿先前帧重建子像素细节,可以帮助合成非常接近于原生超高分辨率渲染质量的图像。

  ⒆整体算法采用了人工智能算法和硬件加速,以较低分辨率渲染所要求的性能水平,提高输出分辨率,提供超高清视觉效果,性能可提高倍。

  ⒇根据官方的描述,XeSS采用了与DLSS相似的时间算法,它类似于用相机拍摄长曝光,捕捉的时间越长,收集到的细节也就越多。

  ⒈在多个不同帧之间,AI会通过运动矢量来跟踪对象并分析数据,并决定如何将它们结合在一起。XeSS会通过中间帧和前后帧,收集超高像素后,再经由AI网络处理,输出相对较小且清晰的画面。

  ⒉和时间算法相比,NIS、FSR、RSR这类空间缩放算法则只能取一个像素点附近的低分辨率图像进行采样,然后缩放锐化。但锐化并不能从低分辨率图像中创建额外的细节,只能提高低分辨率信息中已经存在的细节对比度。

  ⒊令人惊喜的是,XeSS是采用开放标准实现的。换句话说,在游戏厂商的支持下,它可以适配多家GPU广泛使用。当然,XeSS算法在Xe GPU的DPa和XMX硬件功能下,会呈现更好的性能效果。

  ⒋Deep Link

  ⒌Deep Link可充分利用Intel CPU和GPU协同工作,完成如视频转码,直播推流等任务,编解码优势显著。Deep Link并不是某种具象技术,而是多项技术的总称,下面我们来分别讲解。

  ⒍Stream Assist

  ⒎Stream Assist技术主要针对游戏主播,或者有直播需求的用户。在开启直播时,Stream Assist可将直播负载分载到系统中的辅助引擎,从而优化游戏性能。性能更强的独显则依旧负责游戏运算,以获得最高的帧率和协同工作效率。

  ⒏另外集显负责直播的同时,还负责捕获任务(如虚拟绿屏、自动构图、清晰直播和自动捕捉游戏精彩时刻。

  ⒐需要注意的是,台式机如果想使用Stream Assist技术,前提是与代酷睿处理器或代次更高的处理器搭配使用,另外需要带有集成显卡的处理器,后缀带有“F”的则无法使用。

  ⒑超级编码、超级计算

  ⒒超级编码可以让Intel平台上并行工作的多个媒体引擎(适用于看重工作效率的选定应用程序,加速编码。从而让用户花更少的时间等待项目输出,最大限度地发挥创作动力。

  ⒓而超级计算则需要用到XMX引擎,它可以利用Intel平台上的多个计算引擎和 AI 加速器(适用于看重工作效率的选定应用程序,加速内容创作。

  ⒔同样,这两项技术均需要搭载代酷睿处理器或代次更高的处理器搭配使用,另外需要带有集成显卡的处理器。

  ⒕这里着重说一下超级编码,它可以使用CPU和GPU上所有可用的媒体编码引擎,某种意义上说,可以看做双显卡共同编码。

  ⒖我们此前的编码工作,无论使用CPU或者GPU,都是单线程工作。而Intel超级编码则是通过OneVPL这个跨平台的开放性框架,让CPU和GPU协同工作。

  ⒗当超级编码开始工作时,一组组解码后的原始帧通过特定的API函数被交给oneVPL,进而按组被分配到不同的多媒体引擎上,拷贝到相应的内存中缓存起来。

  ⒘不论每一组有多少帧,相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而OneVPL会完成后续的打包工作,把编码后的帧一组组拼接成最终视频来输出。这种并行处理,编码效率比单一显卡更加显著。

  ⒙高级Xe媒体引擎

  ⒚高级Xe媒体引擎带有专门AI加速、宽编解码器支持,包含H./AVC、H./HEVC、VP以及AV。并且得益于强大的媒体引擎,它也是全球首款支持AV硬件编码的GPU。与软件编码相比,编码速度提高了倍。

  ⒛AV与H.编解码谁才是未来一直广受争议,从压缩效率来讲,AV比最为常见的H.编解码器高出%,比H.高%。换句话说,对于相同的图像质量,AV可以比HEVC节省多达%的文件大小。

  ①当然,如此强大的AV也需要更强大的硬件来解码,即便如此,它也比HEVC需要更长的时间来解码。并且HEVC已经由AMD、NVIDIA、Intel、Apple、高通等公司的GPU/CPU支持,而AV目前的支持是有限的。

  ②最重要的是,AV是完全开放没有任何授权费用的编解码器。虽然目前还没有被广泛采用,但行业内用户对其前景非常认可。

  ③目前,包括FFMPEG、Handbrake、Adobe和XSplit都已集成了对锐炫AV的支持。

  ④作为Intel第一代高性能独显架构,Xe HPG微架构从硬件水准来说,显然已经达到预期,目前欠缺的只是软件方面的优化。根据Intel官方说明,刚刚发布的A已经达到了最大的个Render Slice成为完全体,性能的提升也是有目共睹。

  ⑤当然一代架构并不能说明太多问题,我们还要看后续以Xe HPG微架构为蓝本的迭代升级效果如何,不过无论怎样,在NVIDIA和AMD两强相争多年的格局下,Intel重回高性能GPU市场,无疑会在未来几年内对市场格局带来巨大冲击。