fxlin's Blog

CUDA GEMM：从基础写法到工程优化

Wed, 15 Apr 2026 15:10:02 GMT

CUDA GEMM：从基础写法到工程优化 SGEMM 要做的事很简单： C = alpha * A * B + beta * C A 是 M x K B 是 K x N C 是 M x N 默认约定：矩阵按 row-major 存储后面的高性能版本主要面向大矩阵 benchmark，很多 kernel 默认 M/N 按 block tile 对齐、K 按 BK 对齐、N 满足 float4 对齐真正工程里如果要通吃任意尺寸，还要补边界判断和尾块处理参数记号： BM / BN / BK：thread block 级别 tile TM / TN：每个线程在寄存器里负责的输出 tile WM...

CUDA性能优化思想

Wed, 15 Apr 2026 15:10:02 GMT

CUDA 性能优化思想算子kernel 核心思路：少访存、访存连续、多复用、少分支。 Global Memory 连续访问，尽量触发 coalescing。利用局部性，提高 L1/L2 缓存命中率。必要时调整数据布局，例如矩阵乘中先转置 B，让读取更连续。使用 float4、int4 等向量化加载，提高带宽利用率。 Shared Memory 热数据先搬到 shared memory，减少 global memory 访问。注意 bank conflict；必要时通过 padding 避免冲突。 Register 线程私有的高频数据尽量放寄存器里，例如 thread tile。寄存...

Random算子范式

Wed, 15 Apr 2026 15:10:02 GMT

Random 算子范式所有 random 算子本质上都是同一条流水线的变体： ① 确定性种子 → ② Philox RNG → ③ 归一化随机数 → ④ 数学变换 → 目标分布 RNG = Random Number Generator，随机数生成器 Philox 是 counter-based RNG，不像传统 RNG 有状态依赖链。每个核只需知道自己的 counter 起始值（通过 Skip 跳转），就能独立生成不重叠的随机数序列。核间零通信。算子之间的唯一本质区别就是最后一步”数学变换”。 ① 确定性种子 // seed → key（拆成两个 uint32） key[0] = stat...

浮点数表示与精度

Mon, 13 Apr 2026 15:55:53 GMT

有符号整数范围最高位符号位，正数为 0，负数为 1。对于计算机，补码才是数，正数的补码是本身，负数的补码是取反 + 1。 int8 举例正数：00000000 ～ 01111111 → 最大值 01111111 = 127 负数：10000000 ～ 11111111 → 最小值 10000000 → 补码 -1 为 01111111 → 取反为 10000000 → 所以真实值为 -128（负数 1 越多数字越大，因为取反之后为 0，越接近 0）浮点数范围 float32 举例最大：+3.4028235 × 10^38 最小：-3.4028235 × 10^38 是对称的为什么要有...

关于

Mon, 13 Apr 2026 15:34:07 GMT

关于 fxlin

FlashAttention原理与CUDA实现

Mon, 13 Apr 2026 15:34:07 GMT

flash attention 干了什么 template __global__ void flash_attention_v2_kernel(Ty* Q, Ty* K, Ty* V, Ty* O, int seqlen, // M int stride_head, // M*N Ty smScale) { int groupSeq = (seqlen + kBc - 1) / kBc; int groupTx = (kDim + kBc - 1) / kBc; int ...

Llama

Mon, 13 Apr 2026 15:34:07 GMT

LLaMa LLaMA 1: 7B / 13B / 33B / 65B Llama 2: 7B / 13B / 70B Llama 3: 8B / 70B Llama 3.1: 8B / 70B / 405B Llama 3.2: 1B / 3B（文本）, 11B / 90B（视觉） Code Llama: 7B / 13B / 34B / 70B 核心配方一直不变 decoder-only Transformer RMSNorm SwiGLU RoPE 小变化 llama1→Llama 2：context length 提高 + 引入 GQA tokenizer 明显变大（32K → 12...

sincos正余弦和RoPE旋转位置编码

Mon, 13 Apr 2026 15:34:07 GMT

为什么需要位置编码：因为计算注意力中，没有区分词的顺序，没办法区分 “你爱我”和“我爱你”，位置编码就来解决这一问题为什么不直接使用顺序编码，比如1 2 3 4 5 6，序列太长影响，并且不能固定序列长度 Transformer位置编码 Input(pos)=Embedding(token_{pos})+PositionalEncoding(pos) 第 pos 个 token 的输入 = 第 pos 个 token 的词向量 + 第 pos 个位置的位置编码向量 PositionalEncoding是个什么计算： PE(pos)= \begin{bmatrix} \sin(0) &...

NPU Tiling切分基础公共逻辑

Mon, 13 Apr 2026 15:34:07 GMT

核间切分需要核心数 = CeilDiv(总长度, 每个核心目标处理x个) 使用核心数 = min(需要核心数, 实际物理核数) 每个核心处理的个数 = CeilDiv(总长度, 使用核心数) 尾核处理的个数 = 总长度 - 每个核心处理的个数 * (使用核心数 - 1) 核内切分一次L0能装多少个 = FloorDiv(L0级缓存大小, 元素大小) 正常核心循环次数 = CeilDiv(核心处理的个数, 一次L0能装多少个) 最后一次要处理的个数 = 核心处理的个数 - 一次L0能装多少个 * (正常核心循环次数 - 1) 尾核心循环次数和尾核心最后一次处理个数同理基础对齐运算 Ceil...

npu

Mon, 13 Apr 2026 15:34:07 GMT

记录 NPU（主要是 Ascend）相关编译链路与执行流程的文章