GPU高性能计算培训
GPU离性能计算一
OpenACC编程基础
与优化进阶
1. OpenACC基础:概念、与CUDA区别、编译器、生态;共享存储结
2.0penACC开发环境搭建配置
3.0penACC四步开发流程:判断并行性、并行化表达、显式数据传遂、优化
•判断并行性:Profile工具pgprof
•并行化表达:引导关键字Kernerls和Parallel Loop
•显式管理数据的拷贝:引导关键字Data
•优化:统一内存管理、线程并行层级、collapse、tile
OpenACC上机实操
• Hellow world •矢量点乘
GPU高性能计S—
CUDA编程基础
与优化进阶
1. CUDA基础:API、数据并行、线程模型、存储播型、控制、同步、并发和通信、加
速比
2. CUDA幵发环境搭建和工具配置
3. CUDA优化进阶:线程组织调度、分支语句、访存优化、数据传输、原子操作
4. GPU并行计算模式及案例分析
分析调试:parallel nsight、visual profiler、cuda-gdb
5. CUDA生态系统和相关专业领域软件介绍
GPU高性能计算一
深度学习
1.深度学习GPU解决方案:
• 基于GPU的交互式深度学习训练平台:DIGITS
• 深度学习框架的GPU加速:TensorFlow、Caffe等
• NVIDIA深度学习 SDK:cuDNN, TensorRT, NCCL, CUDA-X
• 深度学习显卡选择