`bridge.recipes.mamba.mamba2_hybrid_8b`#

Module Contents#

Functions#

`model_config`	Configure the Mamba Hybrid 8B model.
`pretrain_config`	Create a pre-training configuration for Mamba Hybrid 8B model.

API#

bridge.recipes.mamba.mamba2_hybrid_8b.model_config( tensor_parallelism: int = 8, pipeline_parallelism: int = 1, pipeline_parallelism_dtype: Optional[torch.dtype] = None, virtual_pipeline_parallelism: Optional[int] = None, context_parallelism: int = 1, sequence_parallelism: bool = False, ) → megatron.bridge.models.mamba.NVIDIAMambaHybridProvider8B#

Configure the Mamba Hybrid 8B model.

Parameters:

tensor_parallelism – Degree of tensor model parallelism.
pipeline_parallelism – Degree of pipeline model parallelism.
pipeline_parallelism_dtype – Data type for pipeline parallelism.
virtual_pipeline_parallelism – Size of virtual pipeline parallelism.
context_parallelism – Degree of context parallelism.
sequence_parallelism – Whether to use sequence parallelism.

Returns:

Configuration for the Mamba Hybrid 8B model.

Return type:

NVIDIAMambaHybridProvider8B

bridge.recipes.mamba.mamba2_hybrid_8b.pretrain_config( dir: Optional[str] = None, name: str = 'default', data_paths: Optional[list[str]] = None, data_args_path: Optional[str] = None, train_data_path: Optional[list[str]] = None, valid_data_path: Optional[list[str]] = None, test_data_path: Optional[list[str]] = None, per_split_data_args_path: Optional[str] = None, mock: bool = False, tensor_parallelism: int = 8, pipeline_parallelism: int = 1, pipeline_parallelism_dtype: Optional[torch.dtype] = None, virtual_pipeline_parallelism: Optional[int] = None, context_parallelism: int = 1, sequence_parallelism: bool = False, train_iters: int = 1168251, global_batch_size: int = 8, micro_batch_size: int = 1, seq_length: int = 4096, lr: float = 0.0003, min_lr: float = 3e-05, lr_warmup_iters: int = 2000, lr_decay_iters: Optional[int] = None, precision_config: Optional[Union[megatron.bridge.training.mixed_precision.MixedPrecisionConfig, str]] = 'bf16_mixed', comm_overlap_config: Optional[megatron.bridge.training.comm_overlap.CommOverlapConfig] = None, ) → megatron.bridge.training.config.ConfigContainer#

Create a pre-training configuration for Mamba Hybrid 8B model.