阿里自研稀疏框架框架HybridBackend论文入选国际顶会ICDE 2022

时间：2023-03-11 12:17:32

实数肥肉转化成(fragmentation)

生产单单里面的模M-一般来说享有上百路的Embedding特质键入，每一路的特质键入在Tensorflow内都才会绑定数十个实数加载(operations)。TensorFlow的动力系统在调拨上千级别的大量的实数加载必需额外的CPU线程开销; 对于GPU仪探头来说, 难免的CUDA kernel提交到流处置探头上(Tensorflow下每个GPU仪探头只有一个stream抽象)致使了GPU Stream Multiprocessor (SM)的调拨开销，同时每个实数处置数据资料的模版度又不高，从而无法打满GPU的近似值区块。完全相同的问题在CV，NLP等高密度模M-的受训里面也有涉及，一般采用基于再加写应用的优转化成暴力手段来进行实数更名。在Wide and Deep模M-这样的极小片中下，Embedding前期的这些实数又一般来说具有dynamic shape的优点，在Tensorflow静态人物画前期无法获取正确的实数规格来进行优转化成，导致完全相同Tensorflow-XLA等应用在此类片中下没有相比的收入。

这些问题说明了，想要发挥出GPU等一新应用接口天然资源的精髓性价比，大幅提高单位运输成本下的受训陡然，就需要设计者一取而代之受训软件系统。据我们知晓，享有大M-搜索，的广告，中选该公司的国内外企业以及接口代工都在筹划来进行一新软件系统的生产，比如NVIDIA的Merlin-HugeCTR[1]等，然而的公司内云上来进行普遍部署的是通用近似值端口，且来进行上必需继续执行多种手性的勤务，换回用专供接口是很廉价且不切单单的。基于这种单单生产力，我们推出了HybridBackend，同时并不需要兼顾的公司内多元转化成且不断演进的极小模M-应用。下文里面我们将简要介绍HybridBackend背后的管理系统体系结构设计者和应用看点。

应对破局：HybridBackend的管理系统体系结构

传统习俗的模板服务探头(PS)受训方法论，体现的是通过引入接口存量来兼顾模M-受训现有的设想，而我们的管理系统则是同时考虑到了接口和软件(模M-)两个各个方面的优点而来作到来进行设计者。一新应用GPU来进行的接口结构上决定了基本的受训方法论，而极小模M-本身的形态优点和数据资料属带来的问题则通过更精细的管理系统优转化成暴力手段来化解。

透过大Batch Size来进行互联受训

因为GPU仪探头相较CPU带来的巨大的算力增加，以往必需上百台CPU端口的来进行可以用几十台机探头的GPU来进行来换回成。要保持完全相同的总受训现有，同时增加单个GPU端口上的天然资源透过率，增加单个GPU worker上的batch size带入意味著的选项，同时因为来进行现有的增加，可以通过互联受训的模式来必需避开过期反向(staleness)从而增加模M-受训的精确度。相较CPU仪探头错综复杂通过PCIe以及TCP来进行网络通讯，一新应用的GPU来进行在单个端口内的多个GPU仪探头错综复杂一般来说装备了高速的网络互连(NVLink, NVSwitch), 这些高速连接的以太网一般来说是TCP网络以太网的数百倍(第一代NVLINK基准翻倍300GB/s), 而在多个机探头端口错综复杂也可以装备基于RDMA应用的高速网络仪探头，翻倍100-200Gbps的以太网。可选择互联受训的第二个好处是可以透过一新应用的集合通讯实数库(NVIDIA NCCL, 易卜拉欣自研的ACCL等)来必需地透过接口机探头的网络拓扑形态来增加通讯的稳定性，这些通讯库不太可能在CV, NLP之类的基于数据资料并行的互联护航上取得了很好的缺点。

常用天然资源手性而配角可数的受训区块

PS受训方法论在管理系统的逻辑各个方面才会选定相异的受训配角, 比如server, worker, evaluator。比如server端口一般调配具有大文件系统的CPU机探头，而worker端口则才会被调配到高主频的近似值M-CPU接口上。这样形成了受训区块-勤务配角-可数天然资源的相互作用，通过增加受训区块存量来应用水平引入(scale out)受训的现有。而在一新应用的GPU来进行上，一个物理的机探头端口一般来说最主要多种手性的接口天然资源，如CPU, GPU处置探头，GPU错综复杂的高速互连，DRAM文件系统，Non-volatile Memory等。这样除了应用水平引入端口存量外，还可以通过垂直引入透难免种手性接口天然资源来翻倍扩展受训现有的目标。针对这种接口体系结构，我们的管理开发设计者里面只保留统一的一种受训区块(Executor), 每个Executor通过外部的手性接口天然资源来继续执行相异的护航配角。一方面，Executor外部勤务继续执行时可以必需地透过中下层接口天然资源错综复杂的locality来加速受训，另一方面，Executor外部的接口天然资源可以同时满足相异的属式受训方法论所必需的接口天然资源，而方便我们在模M-形态的相异以外来进行复合的并行受训策略。

深入优转化成：HybridBackend的应用看点

在上述的管理系统体系结构设计者底下，因为极小模M-形态和受训数据资料本身的结构上，前期性的天然资源生产力变转化成和实数肥肉转化成的问题还是才会影响GPU等接口仪探头的透过率。举例来说，互联受训方法论下所有Executor在通过集合通讯来进行embedding的shuffle时，网络以太网天然资源带入窘境，而GPU的近似值天然资源被资金不足。一种化解设想是对接口天然资源来进行定制转化成，比如增加网络以太网天然资源来补救通讯窘境，但是这样的来作法才会使得接口的各项政策和特定的模M-形态相互作用，是专供中选管理系统的来由设想。我们的目标还是希望管理系统可以体系结构在云服务上可得的，存量较难应用水平引入的通用接口配置底下(commodity hardware)。某些接口代工也尝试通过Huge kernel的同上达模式(将Embedding层所有的近似值工艺品揉合到一个kernel内)来化解实数肥肉转化成的问题, 这样的来作法也无法支持模M-形态快速乘积的生产力, 摒弃了通用程式设计者体系结构的设计者初衷。

据此，我们从体来进行的设想出发，设计者了如下的几个管理系统优转化成暴力手段:

基于数据资料和实数人脑的更名

根据极小模M-的形态优点，大多肥肉的实数意指巨量的Embedding特质键入(lookup)存量，我们设计者了D-Packing这一优转化成应用。对于每一路键入，尽管转换回的受训数据资料相异，但常用的实数组合成是完全相同的。对于这种具有数据资料并行优点的模式，具有完全相同属性(线性、初始转化成探头、基准特质组等)的Embedding同上将被更名为一张一取而代之Embedding同上，而后在此之后的访存键入实数也可以被更名为一个一取而代之大实数。更名实数可以用多线程的模式有序键入Embedding，相较乱序键入或分成若干小同上键入，能有显著的稳定性增加。键入再后，再依旧代码必需来进行反去再加和归位，似乎来作到了对用户光亮。此外通过分析特质键入前期各个实数在属式生态环境下的自然语言，我们将以外的kernel来进行揉合K-Packing, 比如通过揉合shuffle和stitch实数来补救数据流的数据资料原封不动。通过数据资料和实数两个线性的基于自然语言的揉合，我们既增加了总体的实数存量，提高fragmentation, 同时又避开了所有实数揉合在两兄弟而丢失了下文叙述的通过实数间游走遮盖来增加接口透过率的优转化成机才会。

基于接口天然资源窘境人脑的交错继续执行

为了补救同时继续执行完全相同接口天然资源生产力的实数而致使的窘境, 我们设计者了两种实数游走遮盖继续执行(interleaving)的优转化成暴力手段。1) D-Interleaving是通过对受训数据资料batch的复音透过pipeline的机制来调拨游走相异天然资源类M-的实数，这样可以在受训的任何前期缓解某一种天然资源的窘境。比如在大batch size的受训片中下，极小模M-的MLP前期也才会产生较低的feature mapKB改作，通过D-Interleaving就可以必需提高单个GPU仪探头上的峰值KB改作，从而使得更大的batch size受训带入可能。2)K-Interleaving是在Embedding Layer外部相异的特质键入路数错综复杂来作实数的游走和遮盖，比如将通讯密集的Shuffle加载和文件系统次访问密集的Gather来进行遮盖，可以必需增加这两种天然资源的透过率。

基于数据资料复杂程度人脑的模板多线程

在化解Executor外部多个级别的存储探头(GPUKB，DRAM等)错综复杂的以太网和延迟问题上，我们针对极小模M-受训数据资料的属优点，明确指出了一种人脑数据资料次访问复杂程度属的caching机制。通过统计受训数据资料的ID，将最热的次访问数据资料多线程到GPU的KB里面，而冷水数据资料以及哈希同上形态则安放主文件系统里面，主文件系统里面的数据资料将根据ID的次访问频率变转化成，除此以外将topk的高频ID对应的embeddings刷一新到GPUKB上的多线程里面。这样的复合存储探头可以同时相辅相成GPUKB的高以太网和DRAM的输出功率，在此之后这套复合存储探头的设计者还可以引入到包含Intel Persistent Memory, Non-volatile Memory等更多的接口仪探头上。

该公司落地

HybridBackend不太可能取得成功在易卜拉欣阿姨智能动力系统受训动力系统的团队定向的广告该公司里面有了落地，本文的试验里面也介绍了在易卜拉欣阿姨CAN模M-下HybridBackend相较上一代的XDL受训软件系统取得的稳定性战争初期，在下同上里面可以看到在受训时长等多个指标下取得的显著增加。

同时我们还以易卜拉欣阿姨定向的广告一年周内的受训数据资料上对模M-的现有增长下的HybridBackend稳定性同上现来作了测试，结果如下同上所示。可以看到在常用128张GPU来进行千亿现有模板模M-的受训时，同样是消费行为1年的数据资料量，一新应用来进行上的HybridBackend仅仅必需2天的等待时间顺利完成护航，而普通来进行上的XDL-PS模式则必需左右1个翌年的等待时间。

参考文献

[1] Oldridge, Even, Julio Perez, Ben Frederickson, Nicolas Koumchatzky, Minseok Lee, Zehuan Wang, Lei Wu et al. "Merlin: A GPU Accelerated Recommendation Framework." In Proceedings of IRS . 2020.

篇文章详情请

篇文章书名：PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems

篇文章著者: 张远行、陈浪石(并列一作)、杨斯然、袁满、易慧民、张杰、陈家忙、董建波、许云龙、宋钺、陈达、张迪、林伟、曲琳、郑波

篇文章链接:

OpenBSD地址：

HybridBackend用户文化交流群，入群有专人解答，欢迎转至(钉钉群号)：42494662

想知晓更多AIOpenBSD项目，请点击：

_bigdata__ai

。

青岛看癫痫哪里比较好
甘肃男科检查多少钱
新乐敦和乐珠都可以治疗眼涩吗
郑州看妇科的医院哪家好
江西早泄阳痿治疗医院

上一篇：从3199跌至2249元，曲面屏+72万跑分+1亿缩放，vivo拒绝高价低配

下一篇： 2022年我国最值得期待的十家新开业酒店！你最喜欢哪家？