sgl-project · b8zhong · Nov 21, 2025 · Nov 18, 2025 · Nov 19, 2025 · Nov 20, 2025
@@ -74,6 +74,29 @@
 if _is_cuda:
     from sgl_kernel import kimi_k2_moe_fused_gate, moe_fused_gate
 
+    @torch.library.register_fake("sgl_kernel::kimi_k2_moe_fused_gate")
+    def _kimi_k2_moe_fused_gate(
+        input_tensor,
+        bias,
+        topk,
+        renormalize,
+        routed_scaling_factor,
+        apply_routed_scaling_factor_on_output,
+    ):
+        num_rows = input_tensor.shape[0]
+        topk_weights = input_tensor.new_empty(
+            num_rows,
+            topk,
+            dtype=torch.float32,
+        )
+        topk_ids = input_tensor.new_empty(
+            num_rows,
+            topk,
+            dtype=torch.int32,
-        topk_weights = input_tensor.new_empty(
-            num_rows,
-            topk,
-            dtype=torch.float32,
-        )
-        topk_ids = input_tensor.new_empty(
-            num_rows,
-            topk,
-            dtype=torch.int32,
+        topk_weights = torch.empty(
+            (num_rows, topk),
+            dtype=torch.float32,
+            device=input_tensor.device,
+        )
+        topk_ids = torch.empty(
+            (num_rows, topk),
+            dtype=torch.int32,
+            device=input_tensor.device,
-        topk_weights = input_tensor.new_empty(
-            num_rows,
-            topk,
-            dtype=torch.float32,
-        )
-        topk_ids = input_tensor.new_empty(
-            num_rows,
-            topk,
-            dtype=torch.int32,
+        topk_weights = torch.empty(
+            (num_rows, topk),
+            dtype=torch.float32,
+            device=input_tensor.device,
+        )
+        topk_ids = torch.empty(
+            (num_rows, topk),
+            dtype=torch.int32,
+            device=input_tensor.device,
+        )
+        return topk_weights, topk_ids
+
+
 if _is_cuda or _is_hip:
     from sgl_kernel import topk_softmax
 if _use_aiter: