use fused kernel

ganeshnj · ganeshnj · commit 208cabbd438a · 2026-04-08T22:11:37.000+02:00
diff --git a/examples/microgpt_colab.ipynb b/examples/microgpt_colab.ipynb
@@ -337,115 +337,56 @@
         "    gpu_linear_kernel[(out_f,)](W_np.flatten().copy(), x.copy(), y, in_f)\n",
         "    return y\n",
         "\n",
-        "# --- rmsnorm (4 kernel launches) --------------------------------------------\n",
+        "# --- fused rmsnorm (1 kernel launch) ----------------------------------------\n",
         "\n",
         "@tt.jit\n",
-        "def rn_square(src, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    tt.store(dst + off, x * x, mask=mask)\n",
-        "\n",
-        "@tt.jit\n",
-        "def rn_reduce_sum(src, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    total = tt.reduce_sum(x)\n",
-        "    tt.store(dst + pid, total)\n",
-        "\n",
-        "@tt.jit\n",
-        "def rn_rsqrt_mean(sum_ptr, n_ptr, out_ptr):\n",
-        "    tid = tt.arange(0, 64)\n",
-        "    s = tt.load(sum_ptr)\n",
-        "    n = tt.load(n_ptr)\n",
-        "    mean_eps = s / n + 1e-5\n",
-        "    scale = tt.rsqrt(mean_eps)\n",
-        "    tt.store(out_ptr, scale)\n",
-        "\n",
-        "@tt.jit\n",
-        "def rn_mul_scalar(src, scalar_ptr, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    s = tt.load(scalar_ptr)\n",
-        "    tt.store(dst + off, x * s, mask=mask)\n",
+        "def fused_rmsnorm_kernel(src, dst, N, n_ptr):\n",
+        "    tid  = tt.arange(0, 64)\n",
+        "    mask = tid < N\n",
+        "    x    = tt.load(src + tid, mask=mask)\n",
+        "    sq   = x * x\n",
+        "    s    = tt.reduce_sum(sq)\n",
+        "    n    = tt.load(n_ptr)\n",
+        "    scale = tt.rsqrt(s / n + 1e-5)\n",
+        "    tt.store(dst + tid, x * scale, mask=mask)\n",
         "\n",
         "def gpu_rmsnorm(x, N):\n",
-        "    grid = (max(1, (N + 63) // 64),)\n",
-        "    tmp_sq = np.zeros(N, dtype=np.float32)\n",
-        "    tmp_sum = np.zeros(1, dtype=np.float32)\n",
-        "    tmp_scl = np.zeros(1, dtype=np.float32)\n",
         "    n_arr = np.array([float(N)], dtype=np.float32)\n",
         "    out = np.zeros(N, dtype=np.float32)\n",
-        "    rn_square[grid](x, tmp_sq, N)\n",
-        "    rn_reduce_sum[(1,)](tmp_sq, tmp_sum, N)\n",
-        "    rn_rsqrt_mean[(1,)](tmp_sum, n_arr, tmp_scl)\n",
-        "    rn_mul_scalar[grid](x, tmp_scl, out, N)\n",
+        "    fused_rmsnorm_kernel[(1,)](x, out, N, n_arr)\n",
         "    return out\n",
         "\n",
-        "# --- softmax (5 kernel launches) --------------------------------------------\n",
+        "# --- fused softmax (1 kernel launch) ----------------------------------------\n",
         "\n",
         "@tt.jit\n",
-        "def sm_reduce_max(src, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    mx = tt.reduce_max(x)\n",
-        "    tt.store(dst + pid, mx)\n",
-        "\n",
-        "@tt.jit\n",
-        "def sm_sub_scalar(src, scalar_ptr, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    s = tt.load(scalar_ptr)\n",
-        "    tt.store(dst + off, x - s, mask=mask)\n",
-        "\n",
-        "@tt.jit\n",
-        "def sm_exp(src, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    tt.store(dst + off, tt.exp(x), mask=mask)\n",
-        "\n",
-        "@tt.jit\n",
-        "def sm_reduce_sum(src, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    total = tt.reduce_sum(x)\n",
-        "    tt.store(dst + pid, total)\n",
-        "\n",
-        "@tt.jit\n",
-        "def sm_div_scalar(src, scalar_ptr, dst, N):\n",
-        "    pid = tt.program_id(0)\n",
-        "    off = pid * 64 + tt.arange(0, 64)\n",
-        "    mask = off < N\n",
-        "    x = tt.load(src + off, mask=mask)\n",
-        "    s = tt.load(scalar_ptr)\n",
-        "    tt.store(dst + off, x / s, mask=mask)\n",
+        "def fused_softmax_kernel(src, dst, N):\n",
+        "    tid  = tt.arange(0, 64)\n",
+        "    mask = tid < N\n",
+        "    x    = tt.load(src + tid, mask=mask, other=-float('inf'))\n",
+        "    mx   = tt.reduce_max(x)\n",
+        "    e    = tt.exp(x - mx)\n",
+        "    s    = tt.reduce_sum(e)\n",
+        "    tt.store(dst + tid, e / s, mask=mask)\n",
         "\n",
         "def gpu_softmax(x, N):\n",
-        "    grid = (max(1, (N + 63) // 64),)\n",
-        "    tmp_max = np.zeros(1, dtype=np.float32)\n",
-        "    tmp_exp = np.zeros(N, dtype=np.float32)\n",
-        "    tmp_sum = np.zeros(1, dtype=np.float32)\n",
         "    out = np.zeros(N, dtype=np.float32)\n",
-        "    sm_reduce_max[(1,)](x, tmp_max, N)\n",
-        "    sm_sub_scalar[grid](x, tmp_max, tmp_exp, N)\n",
-        "    sm_exp[grid](tmp_exp, tmp_exp, N)\n",
-        "    sm_reduce_sum[(1,)](tmp_exp, tmp_sum, N)\n",
-        "    sm_div_scalar[grid](tmp_exp, tmp_sum, out, N)\n",
+        "    fused_softmax_kernel[(1,)](x, out, N)\n",
         "    return out\n",
         "\n",
+        "# --- fused scaled softmax (score/sqrt_d + softmax, 1 kernel launch) ---------\n",
+        "\n",
+        "@tt.jit\n",
+        "def fused_scaled_softmax_kernel(src, dst, N, sqrt_d_ptr):\n",
+        "    tid  = tt.arange(0, 64)\n",
+        "    mask = tid < N\n",
+        "    x    = tt.load(src + tid, mask=mask, other=-float('inf'))\n",
+        "    sd   = tt.load(sqrt_d_ptr)\n",
+        "    x    = x / sd\n",
+        "    mx   = tt.reduce_max(x)\n",
+        "    e    = tt.exp(x - mx)\n",
+        "    s    = tt.reduce_sum(e)\n",
+        "    tt.store(dst + tid, e / s, mask=mask)\n",
+        "\n",
         "# --- relu -------------------------------------------------------------------\n",
         "\n",
         "@tt.jit\n",
@@ -512,10 +453,8 @@
         "            gpu_linear_kernel[(seq_len,)](np.ascontiguousarray(K_h).flatten().copy(), q_h, scores, head_dim)\n",
         "\n",
         "            sqrt_d = np.array([np.sqrt(float(head_dim))], dtype=np.float32)\n",
-        "            scores_scaled = np.zeros(seq_len, dtype=np.float32)\n",
-        "            sm_div_scalar[(1,)](scores, sqrt_d, scores_scaled, seq_len)\n",
-        "\n",
-        "            attn_weights = gpu_softmax(scores_scaled, seq_len)\n",
+        "            attn_weights = np.zeros(seq_len, dtype=np.float32)\n",
+        "            fused_scaled_softmax_kernel[(1,)](scores, attn_weights, seq_len, sqrt_d)\n",
         "\n",
         "            V_h_T = np.ascontiguousarray(V_h.T)\n",
         "            head_out = np.zeros(head_dim, dtype=np.float32)\n",