麻豆 足交 国产SW26010-Pro不绝器上3级BLAS函数众核并行优化
发布日期:2024-10-05 20:02 点击次数:81
twitter 露出节录:
BLAS (basic linear algebra subprograms)是最基本、最蹙迫的底层数学库之一.在一个圭表的BLAS库中麻豆 足交,BLAS 3级函数涵盖的矩阵-矩阵运算尤为蹙迫,在好多大限度科学与工程接洽应用中被平庸调用.另外,BLAS 3级属于接洽密集型函数,对充分发挥不绝器的接洽性能有至关蹙迫的作用.针对国产SW26010-Pro不绝器计议BLAS 3级函数的众核并行优化时候.具体而言麻豆 足交,凭据SW26010-Pro的存储头绪结构,接洽多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于而已内存探访(remote memory access,RMA)机制接洽数据分享政策,提高从核间的数据传输成果.进一时局,摄取三缓冲、参数调优等要害对算法进行全面优化,掩饰径直内存探访(direct memory access,DMA)访存支出和RMA通讯支出.此外,期骗SW26010-Pro的两条硬件活水线和些许向量化接洽/访存辅导,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等些许运算进行手工汇编优化,提高了函数的浮点接洽成果.现实适度闪现,所建议的并行优化时候在SW26010-Pro不绝器上为BLAS 3级函数带来了明显的性能擢升,单核组BLAS 3级函数的浮点接洽性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点接洽性能最高可达峰值性能的88%.