sgl-project · zhyncs · Jun 17, 2025 · Jun 17, 2025 · gemini-code-assist · Jun 17, 2025
@@ -1932,6 +1932,8 @@ def post_load_weights(self, is_nextn=False, weight_names=None):
             self._weight_requant_ue8m0()
 
     def _weight_requant_ue8m0(self):
+        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
-        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
+        if self.config.architectures and self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
-        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
+        # This specific architecture variant (DeepseekV3ForCausalLMNextN) might handle
+        # ue8m0 quantization differently or not require this explicit requantization step.
+        # TODO: Add a more precise reason if known (e.g., "Skips because NextN models do not use ue8m0 weights").
+        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
-        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
+        if self.config.architectures and self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
-        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
+        # This specific architecture variant (DeepseekV3ForCausalLMNextN) might handle
+        # ue8m0 quantization differently or not require this explicit requantization step.
+        # TODO: Add a more precise reason if known (e.g., "Skips because NextN models do not use ue8m0 weights").
+        if self.config.architectures[0] == "DeepseekV3ForCausalLMNextN":
+            return
         weight_block_size = self.quant_config.weight_block_size
 
         moe_layers = list(