共享主机拼音（共享主机的用户名和暗码怎么看）〔共享主机的用户名和密码怎么看〕

时间：2024-08-10 编辑：小孩姐浏览：57

在游戏引擎中最能表现并发计划头脑的应用就非渲染线程莫属了。把渲染逻辑从游戏线程中分离出来，单独放入一个工作线程里处理惩罚凸显了并发实行的上风。本来的渲染逻辑都是在游戏逻辑后串行处理惩罚的，早期的游戏引擎也是这么计划的，由于它的布局相对比力简单，轻易实现。关键是在上古时期，cpu还只有一个核，即便用了渲染线程也属于脱裤子发屁完全没有须要。但是到了cpu的双核期间，这种环境发生了明显的变革，人们发现cpu单核的工作频率已经碰到了瓶颈，再也不大概进步了，否则cpu就会直接烧掉。从前那种单靠cpu升级就能免费得到的软件性能提拔的期间开始一去不复返，游戏行业也面对着同样的题目和挑衅。

epic事先做出了改变，它应该是当时做贸易引擎的公司中第一个公开支持多线程渲染的厂商。当时的贸易引擎像quake，source等还在单核模式下苦苦挣扎。有了多线程渲染的特性支持，cpu端处理惩罚渲染下令所占用的帧时间仿佛一下子消散不见了。这着实就是我之前谈到过的并发盘算的长处，渲染的任务被时空折叠了，假如你对并发尚有什么疑问，发起出门右转看一下我写的另一篇主题文章。由于渲染线程与主线程的任务是瓜代实行的，也就是主线程负责游戏天下的模仿，随后根据模仿的结果天生渲染的指令，这些渲问鼎令并不是在主线程里实行的，而是被投递到了一个独立的工作线程里，这个工作线程维护着一个Ring Buffer，它会把Ring Buffer中由主线程提交的渲染下令按照次序逐一的提取出来并依次实行。因此我们说这种实行方式是并发的，渲染线程里实行的渲染下令着实是上一帧游戏线程模仿的结果，而在渲染线程处理惩罚渲染下令的这段时间里，游戏线程又在模仿下一帧的内容，云云循环往复下去。这有点酷似CPU的指令多级流水线，只不外如今仅有两级而已。那为什么要利用 Ring Buffer呢？我们知道两个线程之间要举行数据的交互，必须要确保数据的转达是线程安全的，不能出现这个线程还没有写完，另一个线程就开始读取的环境，否则数据的完备性就会缺失。Ring Buffer可以或许方便且低本钱的办理这类题目，它可以在不参加互斥锁的环境下让数据单向的活动，由于我们知道在多线程渲染的框架里根本都是游戏线程去天生下令，而渲染线程只是一个斲丧者，那么同步操纵可以不必那么的复杂。但是要留意一点，Ring Buffer即便利用了Lockfree的计划原则来构建，依然会有额外的访问开销，相对于非线程安全的队列来说还是比力大的。以是在Unreal中，我们会发现它并不是将全部原生的渲染下令依次的压入Ring Buffer中，而是把渲染场景的操纵当成一个同一的渲染下令去实行。比方渲染场景所必要的渲染物件的Culling，渲染下令的排序，渲染参数的添补，以及渲染下令的实行等步调都会被放入同一个渲染下令里。除此之外，其他的渲染下令的计划就单纯多了，不会像场景渲染下令那样把很多的操纵复合在一起完成，比方纹理数据的添补，顶点和索引数据的写入等。

我们知道CryEngine也是按照这种思绪计划的，不外跟Unreal有点渺小的差别，CryEngine的Frustum Culling和Occlusion Culling是在主线程里处理惩罚的。但是事变总有例外，像早期的Unity就不按套路出牌。它仍旧是把抽象的渲染下令依次的由主线程压入到渲染线程的Ring Buffer中，然后再由渲染线程次序实行它们，这种做法着实开销是比力大的，由于我说过Ring Buffer的添补并非免费，而抽象的渲染下令操纵粒度相对较小，这就造成每帧里引擎都会频仍的写入和读取Ring Buffer中的内容。Unity也意识到了这个题目，在厥后的版本做了相应的改进，引入了所谓的Graphics Jobs的概念。引擎会把渲染下令的构造工作放入到多少个线程里去并行处理惩罚，并为每一个线程创建一个独立的下令队列，它们负责临时存放那些新天生的渲染下令，由于Buffer是相互独立的，以是也就没有了Thread Contention ，末了再由主线程同一把这些独立的下令队列归并到渲染线程里去实行。一旦在Unity设置中开启了Graphics Jobs的特性，渲染下令的处理惩罚性能就会得到显着的提拔。

对于Unity家的Graphics Jobs的功能，我还想做一些增补阐明。它并不美满是为了镌汰访问Ring Buffer的次数，最重要的目标还是和Unreal一样，盼望办理渲问鼎令天生迟钝的题目。为什么渲问鼎令的构建会比力费时呢？这里会有多种的缘故起因存在，起首最显着的固然是shader的绑定了，你大概会问shader的绑定不就是设置一个shader对象的指针到runtime的装备上下文里吗？这个操纵能有啥斲丧呀，但你要知道当代引擎的材质体系都很复杂，它可以支持各种各样差别的渲染结果，而且还答应外部做自由的扩展。以是差别的渲染对象大概绑定了不尽雷同的材质实例，这些材质实例之以是结果变革多端，也是由于材质实例里拥有差别的shader变体。为了选择符合 shader变体，unity必要在渲染线程里为每一个物体做搜刮，这些搜刮还要思量于差别 pass的keywords组合，因此查找shader变体的操纵肯定会斲丧肯定的cpu时间。

像早期的CryEngine，它会把险些全部的shader变体都放到同一个数据库里举行管理。以是每次为了找到等待的shader变体，都必要在运行时拼集出一个超大的hash值，这个hash值指示了当前这个drawcall关联的材质想要开启的预编译宏设定。但即便是同一个材质差别的pass也大概选择差别的shader变体，比方 depth pass和g-buffer pass就不会利用同一个shader变体。别的为了支持前向光照，固然最多只有4盏光源会影响同一个物体，可还是会有很多的分支组合，包罗选择何种光照模子，是否要投射阴影等。以是这个hash值就变得特别的复杂，显然它拖慢了shader绑定的速率，你要知道一个drawcall可不但是绑定一个shader。

除了shader变体的检索，渲染状态的设置同样会影响性能。该功能跟shader变体一样也要组合出一个hash值，根据这个hash值定位到差别的渲染状态对象，假如发现不存在就创建出一个新的，因此差别的drawcall可以或许共享雷同的渲染状态对象，有效的规避了部分渲染状态的频仍切换。

unity尚有一个比力坑爹的题目，就是纹理资源的绑定也会有开销。由于引擎内部为了纹理对象的访问安全，逼迫纹理的操纵都要通过纹理句柄来做，函数间转达的也是这个句柄。本质上说这个句柄就是一个弱对象指针，当它必要访问具体的纹理指针时会根据句柄去搜刮纹理对象库，如许就不消担心访问到野指针了，但搜刮开销却不容小觑。

按理来说对于纯静态的模子，也就是那些材质属性不会随着时间发生变革，且天下空间位置也没有改变的物体，它们的constant buffer应该也是静态稳固的，可以预先构建好，不必要每帧都举行更新。但是很多引擎包罗 unity，还是选择每帧对其举行更新，这会让constant buffer里的数据被反复添补。固然看起来有点暴力，但这种方案也有长处，就是constant buffer的实例不会太多太分散，buffer绑定所造成的状态切换也因此镌汰。

总体来说unreal的计划轻微公道一些，它将constant buffer按照每帧的利用频率分层级举行管理，每帧都会变革的shader全局参数放在一个专门的buffer里，比方帧时间，摄像机位置，随机种子等。那些随着pass变革的数据则是放到另一个buffer里，比方视距阵，投影矩阵，由于 gbuffer和shadowmap，大概 reflectionmap ，这些pass它们的摄像机位置都不一样。而对于静态的材质参数数据只必要构建一次就可以了，它会放入一个静态的constant buffer里，不必要每帧举行更新，那些每帧会发生变革的数据则被存放在动态的buffer中。由于引入了新的draw mesh pipeline，unreal会为primitive的属性创建一个buffer同一管理起来。primitive的相干属性包罗天下空间的变更矩阵，困绕盒信息等，对于静态的primitive这些数据就不会每帧做更新了，而且还能做动态的drawcall batching，真是一石二鸟。但是primitive的场景数据并非按照struct of array的模式做的内存布局，以是在读取的性能上会有一些丧失，由于 cache轻易 miss 。

我想到一个汗青故事，当年我们在移植d3d12的时间就在dynamic constant buffer上栽了一个跟头。由于 Map的功能必要应用程序本身去实现，我们必须事先在upload heap中分配出一大块内存，然后每帧要用一个fence去追踪这个buffer的利用环境，判定这个buffer何时可以重用。否则假如每次添补 buffer时都分配一个新的buffer，内存肯定吃不消。由于 gpu的任务对于cpu都是异步的，以是我们可以把fence作为一个信号指标，当轮询到这个fence处于已关照状态时，就阐明 fence之前的全部渲染下令已经全部实行完毕了。那么与此同时它上面绑定的资源也就不会再被占用，应用程序又可以重新添补这个buffer，并绑定到新的drawcall上。d3d11的map函数的内部实现根本也是按照这个方式来计划的，所谓动态资源的renaming。

讲了半天我还没有提及谁人题目，大多数环境下在d3d11里添补 constant buffer时我们会用到map_write，map_write_discard大概是map_write_no_overwrite这些标记，因此它要求访问这个buffer时只管是只写的，最好不要有读操纵，否则会有性能上的处罚。之前我们对此不是那么器重，以是在写代码时不会专门查抄这类题目。由于很多的写操纵是很潜伏的，假如只是粗看代码，一时半会很难反应过来，但是细致分析过反汇编的代码后才意识到确实是先从buffer读出了之前的结果，颠末盘算后再写归去的，却误以为只是一个纯粹的写操纵。在用d3d11开辟时我没有感觉这些读写过程会对性能有多大的伤害，但是在d3d12里却成为了一个明显的题目，居然变成了性能的热门，当时看到vtune的数据时差点没把下巴给吓掉。此中的罪魁罪魁就是d3d12的upload heap中的内存块利用了page_writecombine的掩护模式，它但是反cache的，不会主动的维持cache同等性，以是数据的读取会相称慢，至少低一个数量级以上。

关于shader绑定的服从题目有其他的办理思绪。unreal和cryengine不谋而合，由于必要支持d3d12的接口，它们都抽象了一个雷同于pso的对象布局，以是即便是d3d11也有这种渲染状态聚合物的对应实现，只不外末了往装备上下文设置时才转换成实际分离的接口调用。正由于采取了这种计划方法，引擎就可以事先把全部关联的shader变体都cache到这个对象里缓存起来，而不必要每次应用时再对shader变体举行搜刮。固然对象布局也包罗了其他的渲染状态，比方光栅化状态，深度模板状态和肴杂状态等。只不外这种方式浪费了一些内存，属于用空间调换了时间，但何乐而不为呢？！

由于硬件的遮挡测试必要回读GPU的数据，以是在Culling阶段Unity访问这些数据并不是那么的方便。由于它和CryEngine一样，Culling的处理惩罚都是在主线程里完成的，只不外真正的盘算会由主线程Dispatch到任务线程里完成，但本质上这些任务还是由主线程控制发起的，主线程必要确切的知道回读的GPU数据是否已经到达CPU端，假如发现没有停当，那么Culling任务就不能启动。为了克制每帧中差别的时间点在渲染线程里多次轮询Readback Buffer是否已经Ready ，显着这种做法根本上是不可取的。而且由于Unity的Culling逻辑和渲染线程是分离的，它不能直接访问渲染线程里的装备上下文，以是我们会在渲染线程每帧Present的背面逼迫做一次同步的Map ，使得Readback Buffer的Copy下令 (把数据从Default Heap传输到Readback Heap中)在这个时候点必须实行完毕，否则不停做空等待。当Map乐成返回结果，就把这些数据拷贝到一个主线程可以或许读取的Buffer中，等下一帧跟渲染线程与主线程同步时，主线程的逻辑就可以安全的从这个Buffer中读到GPU的数据了。这个方法看起来有点暴力，但还是行之有效的。

这里轻微做个细节上的增补，由于 Readback堆的内存利用了Page_WriteBack这个模式，以是它可以让Readback的数据区不管做读取还是写入的操纵都不会影响性能。之前我表明过Upload堆的内存为什么不能去读取它的数据，Readback堆的内存特性跟它恰好相反，它是Cache友爱的。但值得留意的是，对于可以或许包管 Cache同等性的UMA(比方某些集成显卡)，Readback堆和Upload堆的Page属性都选择了writeback，换句话说就是upload堆也可以自由的读取数据，而没有性能上的处罚。

为了克制帧率的频仍抖动，一样平常 GPU会缓冲最多三帧的渲染下令用来做平滑。也就是当调用Present竣事时，GPU并没有立即完成当前帧的渲染工作，除非碰到了V-Sync变乱。这时假如像我之前所说的那样，在Present函数的背面直接对Readback Buffer做一次同步的Map，那么Driver就会立刻将Copy操纵之前的全部的渲染下令 (大概这时下令还没有压入到硬件的Queue中，乃至也没有完成Translate) ，也包罗 Copy本身全部Flush给GPU，然后原地等待 GPU完成这些渲问鼎令。可以想象这种蛮横的同步操纵冲破了Driver的并发性，让GPU缓冲下令和负载均衡的好梦刹时幻灭。但是雷同遮挡查询结果这种对时间周期比力敏感的数据，假如不及时回读并应用，那么就会带来很大的副作用，引发高概率的False Positive和False Negative的题目。以是延缓Readback Buffer的读取并不实际，只能寄盼望于拷贝点和回读点只管离得远一点，由于如许就有富足的时间留给数据的盘算和拷贝，可以节流 Map时做空等待的周期，但理论上再远也不会高出一帧的时间。

为了继承低落每个渲染帧的表现隔断，Unreal还会把渲染线程的渲染下令发送到一个RHI Thread中。这个线程专门把抽象的渲染下令翻译成图形API的具体函数调用，从宏观上看相称于做了一个三级流水线，分别处理惩罚逻辑模仿，渲染下令天生和渲染下令翻译这三个独立的任务。如同我在另一篇文章里分析过的缘故起因，这种把帧处理惩罚流程分割成多少个子步调的方法着实并没有镌汰耽误 (我所谓的耽误是指从玩家输入到对应的画面输出的时间隔断 )，而仅仅是提拔了帧率，相称于我的输入要比及三帧以后才华看到结果，反馈的时间长度依然没有发生变革，但是每帧画面的表现隔断确实变为了原来的三分之一左右。

曾记得我在做d3d12移植时也碰到过雷同的题目，当时很奇怪为什么用d3d12的api更换了d3d11的api后性能没有发生太大的变革。按理说d3d12的接口是很高效的，由于它的实现相对比力轻量，没有那么多繁琐的校验逻辑(由于d3d12失去了强大的非常掩护，以是稍有不慎就很轻易导致程序瓦解 )，而且我们还做了大量定制的优化。但颠末多次压力测试，有个别时间居然会掉队于d3d11的性能。当时怎么也想不通，后经高人点拨，这才明白原来driver会有一个专门的线程行止理惩罚 runtime发送过来的下令，包罗将shader字节码转译成呆板码也会有独立的线程负责。但是到了d3d12期间，driver的功能变得越发的单薄，很多事变都交由应用程序行止理惩罚，driver不再负责了。那些处理惩罚 runtime下令的线程也被取消，d3d12的runtime会直接操纵 driver的核心函数。题目的缘故起因找到后，办理起来就有方向了，为了模仿 driver在d3d11中所做的举动，我们也弄了一个下令队列，它就像RHI Thread那样变成了异步并发的模式，以后帧率得到了显着的提拔。

共享主机拼音（共享主机的用户名和密码怎么看）共享主机拼音（共享主机的用户名和暗码
怎么看）〔共享主机的用户名和密码怎么看〕新闻资讯

尚有一个雷同的事变也能阐明并发的长处，那就是把多个GPU串联在一起做的交错帧渲染方法(Alternate Frame Rendering) ，每一个GPU就好像是一级的流水线，比方两个GPU在一起工作，那么第一个GPU大概专门负责渲染奇数帧，而另一个GPU则负责渲染偶数帧，它们的处理惩罚是瓜代举行的，互不依靠。固然除了AFR的模式，着实还存在一种叫做Split Frame Rendering的模式，SFR就是把多个GPU并行起来处理惩罚同一帧的数据，比方 GPU A处理惩罚屏幕的左上角，GPU B处理惩罚右上角等。这里显而易见SFR才华真正的在进步帧率的同时去低落耽误，但它的实现却比AFR复杂很多，任务的分割和调治极难处理惩罚，每每多个GPU的利用率会七零八落，而且假如必要 GPU之间传输一些中心数据，还会给带宽带来额外的开销。

很多人以为之以是要用并发来处理惩罚渲染逻辑是由于 GPU的盘算独立于CPU，但我不这么以为，固然这两个硬件所构成的体系确实是异构的。重要的缘故起因还是由于每一帧的逻辑都偶然序依靠的，不能打乱次序实行，必须先做完模仿后，才华举行渲染。那么对于这种长任务就只有通过并发改造才华进步帧率，固然中心还可以将一些局部无时序关系的逻辑并行起来，比方后文即将提到的并行渲染下令处理惩罚的功能。

除了并发的优化本领，我们还可以利用多任务并行去加快渲染流程。我之前也分析过，只有并行才华真正救济耽误的题目，大多数游戏必要是低耽误，快相应，而不是那些哄人的高帧率。但是并行的渲染功能根本都必要 Graphics API的原生支持。由于不管是unity还是早期版本的unreal，它们的并行渲染架构都没有做到真正意义上多线程同时构建硬件的渲染下令，而只是一种近似模仿，并行处理惩罚的是引擎抽象封装的渲染下令，但即便云云也比串行的过程快很多，由于引擎的渲染下令转换成runtime的函数尚有很多额外的工作要思量，比方之条件到的shader的搜刮，资源的绑定和buffer的添补等任务。

由于底层利用的是high level的图形api，以是根本没有办法在差别的线程里同时访问runtime的装备 context ，除非给每一次的访问都加上一个互斥锁，才华包管它的线程安全性。但要是那样做的话会拔苗助长，由于锁的频仍碰撞导致处理惩罚速率变得更慢了。opengl就是如许计划的，它不答应差别的线程调用它的接口，调用接口的线程必须和创建context的线程保持同等。d3d11之以是可以支持多线程的接口访问，是由于它内部提供了线程安全的运行模式，估计也是通过加锁来防止临界资源的恶意竞争，以是一样平常环境下大部分引擎都只会选择单线程的模式。

为了更好的支持多线程渲染的应用开辟，d3d11还提供了一个耽误 context的机制，它答应应用程序并行的网络渲问鼎令，这些指令会被临时缓存在耽误 context里，末了再把它们提交到立即 context里实行，耽误 context是没有办法本身直接去实行这些下令的。固然 deferred context也不是什么都不做，它也能实行一些简单的校验工作，别的添补动态的constant buffer同样没有题目。d3d11的耽误 context的工作原理还是与d3d12有较大的区别，由于 d3d11的耽误 context并不能在工作线程里完成硬件指令的翻译操纵，而是要等把它们放到立即 context里实行时才会真正开始构建硬件的渲问鼎令。以是我推测耽误 context记录的还是一些渲染下令的中心状态。我们知道多个shadowmap的渲染着实是可以并行的，由于它们之前没有任何的逻辑耦合，别的 shadowmap的渲染和gbuffer也是没有依靠的，reflectionmap同样也与它们没有辩论，以是这些pass的渲染下令网络和实行完全可以或许并行起来。我记得最早利用 d3d11的耽误 context特性的游戏就是total war，这个游戏里有大量必要渲染的脚色和物件，假如是串行的添补渲染下令帧率肯定会非常的低。

这里打个大概不是那么得当的比喻，雷同高级语言的编译器，它会为每一个源码文件天生一个对应的目标文件，而这些Object文件内里存放的只是些临时的中心结果，还必要通过链接器将它们装配在一起并转换成呆板码才华运行。由于中心文件里有很多的外部依靠和引用，在单独编译这些文件时还没有办法全部确定，以是举行全局优化也要比及代码链接的阶段。我们在d3d11的耽误 context里所做的api调用，着实不外是做了一些预处理惩罚和合法性查抄的工作，这与编译器天生中心文件的过程很相似，岂非它不也是在做同词法和语法分析差不多的工作吗。

对于像d3d11这种高级图形api来说最重要的题目还是状态的设置太零散，固然人类明白起来很公道清楚，但硬件里的对应概念却是聚合在一起的原子操纵。各种渲染状态，差别阶段的shader绑定，primitive范例，顶点布局以及渲染目标格式等，它们在硬件中是以pipeline state object的情势存在的，是一个不可分割的团体，由于上卑鄙的数据转达是环环相扣的，以是必须通盘思量，比方上游的输出属性要与卑鄙的输入属性对应起来。尚有就是游戏runtime的某些渲染状态设置大概要转换成shader的一部分内部代码，这个也得driver资助。以是应用程序设置到d3d11中的状态会被driver编译并打包天生一个个相互独立的pso，假如状态聚集里的状态全部一样则会共享同一个pso，因此driver还要负责查找雷同的状态聚集对应的pso ，以克制重复创建。正是由于d3d11接口的这种计划，导致了耽误 context想把渲染状态直接翻译成硬件pso的目标不能告竣，由于如今大概有一些渲染状态是当前这个context不知道的，固然这些状态已经在别的的context被设置了。我们知道opengl也是一种高级的图形api，新版本内里有一个pipeline object的概念，但那只是把program聚合在一起，对于硬件管线来说并不完备，以是依然要通过driver来做转换。由于d3d12的pipeline state object中，上卑鄙差别阶段的信息是全面的，因此driver可以针对差别的硬件环境做最优化的处理惩罚，而且这些pso的呆板码还能缓存起来，下次启动程序时可以直接从文件里读取，而不必每次都举行构建。这种做法节流了大量的运行时本钱，否则一旦出现大量pso的会合构建就会引起游戏卡顿。

这里还要夸大一点，硬件里处理惩罚渲染下令并不存在多个差别的下令实行队列，着实就只有一个。driver内部也是通过ring buffer举行下令的上传，然后再由gpu完成任务的后续调治。以是不管是d3d12还是 d3d11都仅能靠同一个队列提交渲问鼎令，即便它们可以并行的去构建这些下令，只不外 d3d12的runtime根本不会资助应用程序去校验渲染状态的有效性，而是要求上层逻辑本身包管。别的就是刚才说到的pso，它们只能由应用程序本身维护和创建，如许多个command list就可以独自完成硬件指令的编译和构建了，不必要等全部放在一起后才华开始做。再增补一下，刚才提到渲染任务队列只有一个着实严格来说也禁绝确，硬件上会有三个独立的任务队列，一个是处理惩罚 3d的队列，它包罗全部范例的下令，涵盖了光栅化，compute以及数据拷贝。第二个队列是专门负责处理惩罚 compute下令的，内里也可以有拷贝下令。而第三个队列则是专门实行数据拷贝的任务，它的下令范例最单纯。这些队列之间的任务假如偶然序依靠，那么就必要通过barrier和fence举行同步，以包管数据访问的安全。上述这些功能也是d3d11所不具备的，很多对硬件举动的细节控制在d3d11看来根本都是完全透明的，很多信息的转达也是笼统和暗昧的，它只能依靠 driver息息相通来完成指定的操纵，以是我们才说这类的api属于高级api，雷同于汇编语言和高级语言的区别。

之前说到GPU有三个重要的工作队列(分别对应三个硬件引擎) ，3d下令队列是一个全能的队列，内里可以实行任何范例的下令。d3d11由于不能控制装备 context利用哪个下令队列，以是在性能优化上会有很多的限定。本质上d3d11的context都是基于3d引擎的，因此即便是创建再多的deferred context也于事无补，它们都不能并行实行。我在cryengine源码中看到体系为texture streaming专门创建了一个deferred context，想用它来负责纹理数据的上传和拷贝，而不盼望这些操纵影响到渲染绘制的下令实行。但估计实际会事与愿违，如同我分析的一样，这些上传和拷贝的下令要是和其他的渲染任务肴杂在一起放在同一个3d下令队列里实行，它肯定会妨碍渲染下令的工作，即便这些渲染下令并没有引用这些纹理。由于 3d下令队列里的command list每帧都会举行同步，要求之前放入队列的全部下令必须同时完成。但大多数环境下，并不是全部纹理数据的上传和拷贝的下令都必须在当前帧竣事。着实 texture streaming的处理惩罚完全可以跨帧实行，对时效性要求没有渲问鼎令那么高，耽误几帧，乃至几十帧都没有太大的题目。不外大概 driver会根据一些外部的提示来把这个专门处理惩罚纹理streaming的deferred context放入到copy引擎里实行，但那要看底层是否提供雷同的支持了，这种事变只能听其天然，由于 d3d11不是显式可控的。我推测大概只有当DriverConcurrentCreates这个特性被驱动支持时，且在CreateTexture2D调用中就把纹理数据借由初始化参数传入函数，才华让copy engine见效。记得从前我在为cryengine移植d3d12接口时就给texture streaming功能计划了一个特别的工作队列，这个队列里的操纵会放入到copy引擎的下令队列里实行，和渲染的下令队列互不干扰，只是必要通过设置fence和barrier举行同步。

texture streaming中之以是会有显存对显存拷贝的操纵，是由于当新的mipmap流入时，原来分配的纹理对象里的mipmap数量就会不敷，以是必要别的创建一个拥有符合 mipmap数量的纹理对象，这时旧纹理对象里的mipmap数据就可以直接拷贝到新的纹理对象中，而不必重新从主存上传到显存。毕竟显存内的数据拷贝更加快速，其他旧纹理不存在的mipmap数据则必要从主存里读取，并通过upload heap的buffer上传到显存中。别的由于主存里的纹理数据布局与GPU等待的不一样，以是还必要对其做swizzle变更 (把row-major的布局改成内部的特别布局 ) ，这必要额外的处理惩罚时间。显然纹理mipmap流出时也会履历反向的过程，只是不消再上传数据了，但新建和拷贝的操纵必不可少。

共享主机拼音（共享主机的用户名和密码怎么看）共享主机拼音（共享主机的用户名和暗码
怎么看）〔共享主机的用户名和密码怎么看〕新闻资讯

对于主机平台着实也并非肯定要在上传的阶段实行 swizzle变更，由于如今的主机硬件体系都采取了uma的架构，既主存和显存共享一套内存单位，以是在内存里的数据可以同时对gpu和cpu可见。而且主机gpu端的纹理布局也是确定的，不像桌面端那样必要兼容差别厂商的格式，关键很多厂商出于保密的缘故起因，一样平常不对外透露它的纹理内存布局。可主机就不一样了，它是一个封闭的生态圈，以是厂商会向开辟者透露全部须要的硬件实现细节，因此你可以通过sdk的接口事先将纹理数据转换成gpu端的布局格式，并生存在文件里。等运行时加载到内存里后就不消再举行转换了，节流了不少的时间和能耗。着实桌面端的d3d12的sdk也提供了一个标准的swizzle格式(Z-order curve)，只不外大部分厂商都没有明白声明这个标准布局就是它们硬件内部原生支持的格式。以是估计GPU还会对上传的纹理数据举行重排，否则访问服从就会变低，重排数据有利于提拔 cache掷中率。

我心中不停有一个迷惑，就是手机端也用的是uma的架构，但好像硬件厂商并没有公开gpu端的纹理布局格式，固然也没有sdk可以对其举行离线转换。很显然swizzle的操纵是要斲丧肯定量的带宽的，那么手机端对于能耗这么敏感，按理说事先转换布局有诸多的长处，这是一个稳赚不赔的交易，何乐而不为呢？！

之前系列文章中会有一些遗漏且不敷之处，我会同一在补遗的文章里做出额外的阐明，并把最新的一些思考也记录此中，盼望对各人的实践能有所开导和资助。

下面是关于multi-engine的一些新的观点和见解。先前的形貌大概不是那么的严谨，这里算是与时俱进的做些增补。请连合早期的文章一起阅读，有了上下文，大概明白起来更轻易一些。

微软好像意识到d3d11对于multi-engine的支持太过于简单了，缺乏很多显式的控制本领。于是它在后期的版本中渐渐对此举行了多少的加强，比方新增了CreateDeferredContext3接口，它可以或许创建一种新的Context，这个Context拥有把下令 Flush到差别 Engine的本领。乃至在ID3D11DeviceContext4这个接口中还参加了Signal的功能，它可以在完成下令处理惩罚后发信号给Fence 。是的，D3D11.3也能创建Fence了，如许 ImmediateContext和D3D12的CommandQueue就根本可以等价视之。

当初我说过在d3d11中不方便将CommandList单独提交到CopyEngine大概 ComputeEngine中，引入新的Context和Device后(ID3D11DeviceContext3)，这些题目就迎刃而解了。比方 TextureStreaming可以在异步工作线程里把Copy操纵 Flush到D3D11_CONTEXT_TYPE_COPY的队列中，而并不肯定非要在渲染线程里实行。同时Query也能创建和实行在差别的ContextType上，有了这些特性的资助，我们就可以在主线程大概渲染线程里，通过轮询大概逼迫等待 Event对象来断定先前的队列里的下令是否已经处理惩罚竣事。由于这些Event会被插入到Copy下令之后，只有Event对象收到完成关照了，我们才华放心的把这些纹理绑定到ImmediateContext中。否则假如这些新建的纹理依然在Copy Engine中实行，同时它又被Shader访问到，那肯定会造成数据辩论，并引起体系的非常。

除了Copy Engine的异步化，我们还能利用 Compute Engine做一些异步的通用盘算任务。假如能把一些盘算任务与当前在实行的渲染下令重叠起来，那么就可以充实利用 GPU的处理惩罚单位，让它们的负载始终处于饱和的状态。比方 3D Engine在渲染Shadowmap时，大多数ALU单位和纹理采样单位是闲置的，它对ROP和Raster单位的依靠比力强。于是我们可以将一些盘算麋集型的任务放置到Compute Engine中，与Shadowmap的Pass同时实行。显然此种安排对于进步 GPU处理惩罚单位的利用率是大有裨益的，而且还收缩了每帧的实行时间，这就是盘算并发的好地方在，只不外它消除不了耽误，上一帧的盘算结果下一帧才华应用。

之前谈到d3d提供了一个标准的swizzle模式，这个模式是大概有硬件支持的。通过查询D3D11_FEATURE_DATA_D3D11_OPTIONS2里的StandardSwizzle属性，可以得知该装备是否支持标准的重排模式。而只要硬件支持，就可以或许利用 CreateTexture2D1函数去创建一个满意该模式的纹理对象出来。由于我们在CPU端可以事先对主行序的纹理数据按照StandardSwizzle的要求举行重排，那么背面利用 Staging纹理做拷贝时就不再必要对数据举行重排操纵了，天然节流了Upload的实行时间。

这里我还想借机辨析一下D3D11_QUERY_EVENT与D3D12中Fence的关系，由于在D3D12中，假如盼望单独知道某个下令是否已经处理惩罚完毕了，是很困难的。而D3D11的D3D11_QUERY_EVENT，它可以被插入到Context上的恣意一个下令之后，通过GetData接口，你就能轻松判定这个下令及这个下令之前的全部下令是否已经完成了。但是在D3D12中，你只能以一个Command List为最小单位去查抄下令是否已经被实行完毕，也就是说当一个大概多少个Command List被放入到Command Queue中实行时，可以在调用完ExecuteCommandLists之后，通过Signal插入一个Fence。这个Fence可以或许判定传入ExecuteCommandLists的全部 Command List是否全部竣事了。假假想用D3D12模仿 D3D11的D3D11_QUERY_EVENT，那只能把D3D11_QUERY_EVENT之前的下令放入一个Command List ，它背面的下令又放入到另一个Command List，第一个Command List先用ExecuteCommandLists行止理惩罚，接着通过Signal插入Fence ，末了才用ExecuteCommandLists实行第二个Command List，如许一来就能到达 D3D11的相似结果了。但显着上述方式是相称贫苦的，假如插入的变乱比力多，那么Command List就会被切割得非常的琐屑。不外大概 D3D11的Runtime不会那样去计划，分割Command List的方法感觉有点愚笨，我推测它是在每个Present之前且本帧全部下令调用竣事之后才会放置一个Fence。因此即便Query发生在渲染下令的中心，也会通逾期待刚才提及的Fence ，确认Present之前全部的Command都被实行完成了，才让GetData有效，而不但仅是Query之前的下令实行完毕后。这属于一种常见的batch化的处理惩罚方法。

综上所述，Fence的同步粒度是很大的，它会关联到某些硬件的停止上，不像ResourceBarrier ，ResourceBarrier可以做逐个下令的同步，以是非常的轻量级。但是 ResourceBarrier并不支持CPU端访问，它是一个纯GPU的对象实体。OS可以利用 Fence完成Command List的调治，由于我们可以把Fence看作是一种依靠关系的分边界。当硬件不支持多Engine的Command Queue时，OS可以把差别 Command Queue中的Command List按照Fence规定的依靠次序平展归并成单一的Command List，放入同一个Engine里去实行。除了D3D11_QUERY_EVENT ，其他的D3D11的Query也都必要利用 Fence才华确认Readback的操纵是否已经实行完毕，过程是雷同的。

之前的文章里我说过，驱动是以异步并发的情势去构建硬件下令的。以是 Command List会被派发到另一个工作线程里做构建，然后比及下一帧时再调用ExecuteCommandLists去实行上一帧构建好了的Command List。当前帧的Command List的添补和上一帧Command List的构建可以在时间线上重叠起来，因此Command List从添补到被实行至少要耽误两帧。

固然 d3d11的内部实现是一个黑盒子，但是我们能用d3d12的概念去做类比和分析，由于 d3d12已经代替了原来驱动的部分功能，而且和硬件的底层布局很靠近了，以是这个推测的过程应该八九不离十，大抵是相仿的。

早条件到D3D11引入了一个新的Signal函数，它能与Fence连合在一起利用。除此之外我还讲过Fence与原来的D3D11_QUERY_EVENT有很多共通之处，按理说并不必要加Fence这个看似冗余的新概念进来，由于之前的功能已经完全够用了。那到底是为什么呢？个人以为是由于微软想让D3D11全面支持multi-adapter ，用这个新引入的fence就可以实现跨装备的下令同步。着实先前版本的device类已经可以或许创建跨装备的资源，通过调用OpenSharedResource函数，在差别的adapter中引用雷同的资源。但是应用程序还必要确定两个装备在举行数据互换时，拷贝下令何时竣事。之前是没有什么本领可以或许告竣这一目标的。由于数据从装备 a拷贝到装备 b，只有跨装备的fence才有本领监控两方的操纵是否都已经完成。这就有点像socket在跨进程同步数据时所做的工作，不但要相识吸取方的环境，也要清楚发送方的状态，那样才华确保数据完备的到达远端。

泉源知乎专栏：游戏开辟杂谈

关键词：

上一篇：个人购买服务器必要存案吗（购买服务器必要什么手续）〔个人购买服务器需要备案吗〕

下一篇：关于国外猪精液稀释粉的几大上风的信息〔国外猪精稀释配方〕

搜索

标签列表

最新留言

共享主机拼音（共享主机的用户名和暗码怎么看）〔共享主机的用户名和密码怎么看〕

关键词：

搜索

标签列表

最新留言

共享主机拼音（共享主机的用户名和暗码 怎么看）〔共享主机的用户名和密码怎么看〕

关键词：

更多推荐

共享主机拼音（共享主机的用户名和暗码怎么看）〔共享主机的用户名和密码怎么看〕