`bridge.recipes.nemotronh.nemotron_nano_9b_v2`#

Module Contents#

Functions#

`model_config`	Configure the Nemotron Nano 9B v2 model.
`pretrain_config`	Create a pre-training configuration for Nemotron Nano 9B v2 model.

API#

bridge.recipes.nemotronh.nemotron_nano_9b_v2.model_config( tensor_parallelism: int = 2, pipeline_parallelism: int = 1, pipeline_parallelism_dtype: Optional[torch.dtype] = torch.bfloat16, virtual_pipeline_parallelism: Optional[int] = None, context_parallelism: int = 1, sequence_parallelism: bool = True, ) → megatron.bridge.models.nemotronh.NemotronNano9Bv2Provider#

Configure the Nemotron Nano 9B v2 model.

Parameters:

tensor_parallelism – Degree of tensor model parallelism.
pipeline_parallelism – Degree of pipeline model parallelism.
pipeline_parallelism_dtype – Data type for pipeline parallelism.
virtual_pipeline_parallelism – Size of virtual pipeline parallelism.
context_parallelism – Degree of context parallelism.
sequence_parallelism – Whether to use sequence parallelism.

Returns:

Configuration for the Nemotron Nano 9B v2 model.

Return type:

NemotronNano9Bv2Provider

bridge.recipes.nemotronh.nemotron_nano_9b_v2.pretrain_config( dir: Optional[str] = None, name: str = 'default', data_paths: Optional[list[str]] = None, data_args_path: Optional[str] = None, train_data_path: Optional[list[str]] = None, valid_data_path: Optional[list[str]] = None, test_data_path: Optional[list[str]] = None, per_split_data_args_path: Optional[str] = None, mock: bool = False, tensor_parallelism: int = 2, pipeline_parallelism: int = 1, pipeline_parallelism_dtype: Optional[torch.dtype] = torch.bfloat16, virtual_pipeline_parallelism: Optional[int] = None, context_parallelism: int = 1, sequence_parallelism: bool = True, train_iters: int = 1168251, global_batch_size: int = 768, micro_batch_size: int = 1, seq_length: int = 8192, lr: float = 0.0003, min_lr: float = 3e-05, lr_warmup_iters: int = 2000, lr_decay_iters: Optional[int] = None, precision_config: Optional[Union[megatron.bridge.training.mixed_precision.MixedPrecisionConfig, str]] = 'bf16_mixed', comm_overlap_config: Optional[megatron.bridge.training.comm_overlap.CommOverlapConfig] = None, ) → megatron.bridge.training.config.ConfigContainer#

Create a pre-training configuration for Nemotron Nano 9B v2 model.