[BugFix] fix VL fp8 bug when moe token_num is 0 (#4928)

ming1753 · web-flow · commit 3148dbca063c · 2025-11-12T21:19:36.000+08:00
* [BugFix] fix VL fp8 bug when moe token_num is 0

* fix bug

* format

* fix bug
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -287,8 +287,10 @@ def apply(
         """
         Triton compute Fused MoE.
         """
-        gate_out = gate(x.cast("float32"))
         token_num = x.shape[0]
+        if token_num == 0:
+            return paddle.zeros([token_num, layer.hidden_size], dtype=x.dtype)
+        gate_out = gate(x.cast("float32"))
         top_k = layer.top_k
         num_local_experts = layer.num_local_experts
         top_k = layer.top_k
@@ -669,8 +671,10 @@ def apply(
         """
         Triton compute Fused MoE.
         """
-        gate_out = gate(x.cast("float32"))
         token_num = x.shape[0]
+        if token_num == 0:
+            return paddle.zeros([token_num, layer.hidden_size], dtype=x.dtype)
+        gate_out = gate(x.cast("float32"))
         top_k = layer.top_k
         num_local_experts = layer.num_local_experts
         moe_intermediate_size = layer.moe_intermediate_size
@@ -959,8 +963,10 @@ def apply(
         """
         Triton compute Fused MoE.
         """
-        gate_out = gate(x.cast("float32"))
         token_num = x.shape[0]
+        if token_num == 0:
+            return paddle.zeros([token_num, layer.hidden_size], dtype=x.dtype)
+        gate_out = gate(x.cast("float32"))
         top_k = layer.top_k
         num_local_experts = layer.num_local_experts
         moe_intermediate_size = layer.moe_intermediate_size
@@ -1480,8 +1486,10 @@ def apply(
         """
         Triton compute Fused MoE.
         """
-        gate_out = gate(x.cast("float32"))
         token_num = x.shape[0]
+        if token_num == 0:
+            return paddle.zeros([token_num, layer.hidden_size], dtype=x.dtype)
+        gate_out = gate(x.cast("float32"))
         top_k = layer.top_k
         num_local_experts = layer.num_local_experts
         moe_intermediate_size = layer.moe_intermediate_size