NVIDIA-NeMo
diff --git a/‎nemo/export/tensorrt_llm.py‎
Lines changed: 18 additions & 16 deletions b/‎nemo/export/tensorrt_llm.py‎
Lines changed: 18 additions & 16 deletions
diff --git a/‎scripts/deploy/nlp/deploy_triton.py‎
Lines changed: 12 additions & 2 deletions b/‎scripts/deploy/nlp/deploy_triton.py‎
Lines changed: 12 additions & 2 deletions
diff --git a/‎scripts/export/export_to_trt_llm.py‎
Lines changed: 4 additions & 4 deletions b/‎scripts/export/export_to_trt_llm.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎tests/deploy/nemo_deploy.py‎
Lines changed: 2 additions & 2 deletions b/‎tests/deploy/nemo_deploy.py‎
Lines changed: 2 additions & 2 deletions
@@ -119,8 +119,8 @@ def export(
         model_type: str,
         delete_existing_files: bool = True,
         n_gpus: int = 1,
-        tensor_parallel_size: int = None,
-        pipeline_parallel_size: int = None,
+        tensor_parallelism_size: int = 1,
+        pipeline_parallelism_size: int = 1,
         gpus_per_node: int = None,
         max_input_len: int = 256,
         max_output_len: int = 256,
@@ -151,8 +151,8 @@ def export(
             model_type (str): type of the model. Currently, "llama", "gptnext", "falcon", and "starcoder" are supported.
             delete_existing_files (bool): if Truen, deletes all the files in model_dir.
             n_gpus (int): number of GPUs to use for inference.
-            tensor_parallel_size (int): tensor parallelism.
-            pipeline_parallel_size (int): pipeline parallelism.
+            tensor_parallelism_size (int): tensor parallelism.
+            pipeline_parallelism_size (int): pipeline parallelism.
             gpus_per_node (int): number of gpus per node.
             max_input_len (int): max input length.
             max_output_len (int): max output length.
@@ -176,6 +176,15 @@ def export(
             save_nemo_model_config (bool):
         """
 
+        if n_gpus is not None:
+            warnings.warn(
+                "Parameter n_gpus is deprecated and will be removed in the next release. "
+                "Please use tensor_parallelism_size and pipeline_parallelism_size parameters instead.",
+                DeprecationWarning,
+                stacklevel=2,
+            )
+            tensor_parallelism_size = n_gpus
+
         if model_type not in self.get_supported_models_list:
             raise Exception(
                 "Model {0} is not currently a supported model type. "
@@ -188,14 +197,7 @@ def export(
         if model_type == "mixtral":
             model_type = "llama"
 
-        if pipeline_parallel_size is None:
-            tensor_parallel_size = n_gpus
-            pipeline_parallel_size = 1
-        elif tensor_parallel_size is None:
-            tensor_parallel_size = 1
-            pipeline_parallel_size = n_gpus
-
-        gpus_per_node = tensor_parallel_size if gpus_per_node is None else gpus_per_node
+        gpus_per_node = tensor_parallelism_size if gpus_per_node is None else gpus_per_node
 
         if Path(self.model_dir).exists():
             if delete_existing_files and len(os.listdir(self.model_dir)) > 0:
@@ -253,8 +255,8 @@ def export(
                     max_output_len=max_output_len,
                     max_batch_size=max_batch_size,
                     max_prompt_embedding_table_size=max_prompt_embedding_table_size,
-                    tensor_parallel_size=tensor_parallel_size,
-                    pipeline_parallel_size=pipeline_parallel_size,
+                    tensor_parallel_size=tensor_parallelism_size,
+                    pipeline_parallel_size=pipeline_parallelism_size,
                     use_parallel_embedding=use_parallel_embedding,
                     paged_kv_cache=paged_kv_cache,
                     remove_input_padding=remove_input_padding,
@@ -273,8 +275,8 @@ def export(
                     nemo_export_dir=nemo_export_dir,
                     decoder_type=model_type,
                     dtype=dtype,
-                    tensor_parallel_size=tensor_parallel_size,
-                    pipeline_parallel_size=pipeline_parallel_size,
+                    tensor_parallel_size=tensor_parallelism_size,
+                    pipeline_parallel_size=pipeline_parallelism_size,
                     gpus_per_node=gpus_per_node,
                     use_parallel_embedding=use_parallel_embedding,
                     use_embedding_sharing=use_embedding_sharing,
 
@@ -83,6 +83,8 @@ def get_args(argv):
         "-tmr", "--triton_model_repository", default=None, type=str, help="Folder for the trt-llm conversion"
     )
     parser.add_argument("-ng", "--num_gpus", default=1, type=int, help="Number of GPUs for the deployment")
+    parser.add_argument("-tps", "--tensor_parallelism_size", default=1, type=int, help="Tensor parallelism size")
+    parser.add_argument("-pps", "--pipeline_parallelism_size", default=1, type=int, help="Pipeline parallelism size")
     parser.add_argument(
         "-dt",
         "--dtype",
@@ -109,6 +111,13 @@ def get_args(argv):
         action='store_true',
         help="Disables the remove input padding option.",
     )
+    parser.add_argument(
+        "-upe",
+        "--use_parallel_embedding",
+        default=False,
+        action='store_true',
+        help='Use parallel embedding feature of TensorRT-LLM.',
+    )
     parser.add_argument(
         "-mbm",
         '--multi_block_mode',
@@ -254,13 +263,14 @@ def get_trtllm_deployable(args):
                 nemo_checkpoint_path=args.nemo_checkpoint,
                 model_type=args.model_type,
                 n_gpus=args.num_gpus,
-                tensor_parallel_size=args.num_gpus,
-                pipeline_parallel_size=1,
+                tensor_parallelism_size=args.tensor_parallelism_size,
+                pipeline_parallelism_size=args.pipeline_parallelism_size,
                 max_input_len=args.max_input_len,
                 max_output_len=args.max_output_len,
                 max_batch_size=args.max_batch_size,
                 max_num_tokens=args.max_num_tokens,
                 opt_num_tokens=args.opt_num_tokens,
+                use_parallel_embedding=args.use_parallel_embedding,
                 max_prompt_embedding_table_size=args.max_prompt_embedding_table_size,
                 paged_kv_cache=(not args.no_paged_kv_cache),
                 remove_input_padding=(not args.disable_remove_input_padding),
 
@@ -40,8 +40,8 @@ def get_args(argv):
         "-mr", "--model_repository", required=True, default=None, type=str, help="Folder for the trt-llm model files"
     )
     parser.add_argument("-ng", "--num_gpus", default=1, type=int, help="Number of GPUs for the deployment")
-    parser.add_argument("-tps", "--tensor_parallelism_size", type=int, help="Tensor parallelism size")
-    parser.add_argument("-pps", "--pipeline_parallelism_size", type=int, help="Pipeline parallelism size")
+    parser.add_argument("-tps", "--tensor_parallelism_size", default=1, type=int, help="Tensor parallelism size")
+    parser.add_argument("-pps", "--pipeline_parallelism_size", default=1, type=int, help="Pipeline parallelism size")
     parser.add_argument(
         "-dt",
         "--dtype",
@@ -138,8 +138,8 @@ def nemo_export_trt_llm(argv):
             nemo_checkpoint_path=args.nemo_checkpoint,
             model_type=args.model_type,
             n_gpus=args.num_gpus,
-            tensor_parallel_size=args.tensor_parallelism_size,
-            pipeline_parallel_size=args.pipeline_parallelism_size,
+            tensor_parallelism_size=args.tensor_parallelism_size,
+            pipeline_parallelism_size=args.pipeline_parallelism_size,
             max_input_len=args.max_input_len,
             max_output_len=args.max_output_len,
             max_batch_size=args.max_batch_size,
 
@@ -241,8 +241,8 @@ def run_trt_llm_inference(
             nemo_checkpoint_path=checkpoint_path,
             model_type=model_type,
             n_gpus=n_gpu,
-            tensor_parallel_size=tp_size,
-            pipeline_parallel_size=pp_size,
+            tensor_parallelism_size=tp_size,
+            pipeline_parallelism_size=pp_size,
             max_input_len=max_input_len,
             max_output_len=max_output_len,
             max_batch_size=max_batch_size,