基于GPU—CUDA的共轭斜量法实现及性能对比

结果ATA；申请六块与方程组右端向量b相等容量的设备内存空间，用于存储右端向量b、方程组的解向量x和每次迭代需要的中间向量。⑶ 将主机端系数矩阵A及右端向量b拷贝回至设备端。⑷ 设计内核并行程序，计算ATA和ATb。⑸ 调用内核并行程序解线性方程组ATAx=ATb。⑹ 将方程组的解向量x拷贝回主机。基于GPU-CUDA的共轭斜量法的关键是并行处理网格的构造以及内核函数的设计，并行处理网格的构造及主机内核函数调用的主要源代码如下[6，10]。其中，DIM为线性方程组的阶数。因篇幅所限，部分求解中间向量的内核函数源代码不再列出。算法实现过程中，为了使每次迭代过程都不进行主机与设备端的数据交换，提高总体并行处理性能，采取了如下三个并行优化措施：⑴ 设备端一次性分配足够内存空间用于存储所有矩阵、右端向量以及中间向量；⑵ 主机端按需要调用内核函数完成并行处理；⑶ 并行处理过程中，主机与设备端不进行任何数据交换，一直等待所有并行处理结束后，才将线性方程组的解x从
<<上一页下一页>>

首页 > 电子期刊 > J > 计算机时代

本站访问人数：