AMSS-NCKU 黑洞演化程序性能优化
2026.01 - 2026.032026 世界大学生超级计算机竞赛
在 Intel Xeon 与 NVIDIA A100 异构平台上进行 AMSS-NCKU 数值相对论程序的部署与系统调优。实施流程解耦策略,通过重构 I/O 工作流并引入异步数据缓冲机制,实现演化与分析任务的并行化;结合核心算法重构与基于 MPI_Waitany 的通信机制增加计算与通信的重叠,在保持数值稳定与精度的前提下,分别在 2*64 CPU 核心及 8*A100 环境下取得 5.02x 与 9.73x 的加速。获比赛二等奖 27/300+。
基于国产加速平台的 OpenCI 信号处理加速优化
2025.06 - 2025.082025年度中国青年科技创新"揭榜挂帅"擂台赛
围绕国产 GPU 平台进行 Matlab 信号处理算法的迁移与重构。设计 OpenCL 异构计算流水线,对 GEMM、Conv 等核心算子进行底层重构,并引入内存池技术改善显存分配效率,验证信号处理算法在国产算力平台的移植可行性。获比赛优胜奖。
围绕 AMD 平台的 GPU 算子优化
2025.09.09 - 2025.09.11CCF TCArch 计算机体系结构挑战赛
针对 AMD GPU 平台上的 Prefix Sum、Softmax 及 APSP 算子进行性能调优。在 48 小时的限定时间内构建算子性能剖析模型,通过 Kernel Fusion 技术降低显存读写压力,调整 Warp 线程同步机制以提高计算单元利用率。获比赛二等奖。
面向 CPU-DCU 异构平台的 GMRES 优化
2024.06.17 - 2024.10.08全国大学生计算机系统能力大赛智能计算创新设计赛
基于国产曙光DCU异构平台,对广义最小残差法(GMRES,Generalized Minimal Residual Method)进行性能优化。针对大规模稀疏矩阵的维度与分布特征,设计自适应算法派发机制,实现求解策略与矩阵特征的动态匹配;结合底层架构特点,引入算子融合、访存合并及并行规约等调优手段,有效降低异构环境下的数据搬运开销。
HPCG 与 DGEMM 在国产超算上的调优与优化
2024.06.10 - 2024.07.202025 全国并行应用挑战赛
围绕国产鲲鹏平台下 HPCG 与 DGEMM 算子进行性能优化。利用 roofline 模型定位算子瓶颈,采用矩阵转置与 Tiling 分块技术改善 Cache 局部性,配合 NUMA 绑核及流水线重排手段,完成相关算法库在目标平台的性能适配。
CESM 通用地球系统模型性能优化
2024.04.29 - 2024.06.032025 海洋计算挑战赛
在国产鲲鹏 ARM 高性能集群上对通用地球系统模式 (CESM) 进行并行优化。通过 NUMA 核心亲和性绑定策略降低跨节点访问开销,并基于计算访存比特征对计算流水线进行重排,减少 Cache Miss 冗余,实现系统整体 1.71x 加速。
Tecorigin 深度学习算子性能优化
2024.09 - 2024.11开放原子大赛 · 算子开发任务挑战赛
针对卷积前向算子的 I/O 访存瓶颈进行特征分析,引入双缓冲异步流水线设计,以掩盖数据搬运延迟。结合 SIMD 数据重排技术提高计算单元吞吐率,实现算子整体 1.20x 加速。获得比赛贡献奖 26/97。