`bridge.perf_recipes.llama.gb300.llama3`#

GB300 performance recipes for Llama 3.

Module Contents#

Functions#

`llama3_8b_pretrain_8gpu_gb300_bf16_config`	Llama3 8B pretrain: 8× GB300, BF16, CUDA graph local.
`llama3_8b_pretrain_8gpu_gb300_fp8cs_config`	Llama3 8B pretrain: 8× GB300, FP8 current-scaling, CUDA graph local.
`llama3_8b_pretrain_8gpu_gb300_fp8mx_config`	Llama3 8B pretrain: 8× GB300, MXFP8, CUDA graph local.
`llama3_8b_pretrain_8gpu_gb300_nvfp4_config`	Llama3 8B pretrain: 8× GB300, NVFP4, CUDA graph local.
`llama3_70b_pretrain_64gpu_gb300_bf16_config`	Llama3 70B pretrain: 64× GB300, BF16, FSDP + NCCL UB, GBS=256.
`llama3_70b_pretrain_64gpu_gb300_fp8cs_config`	Llama3 70B pretrain: 64× GB300, FP8 current-scaling, FSDP, GBS=256.
`llama3_70b_pretrain_64gpu_gb300_fp8mx_config`	Llama3 70B pretrain: 64× GB300, MXFP8, PP=4, GBS=256.
`llama3_70b_pretrain_64gpu_gb300_nvfp4_config`	Llama3 70B pretrain: 64× GB300, NVFP4, PP=4, GBS=256.
`llama3_70b_sft_32gpu_gb300_bf16_config`	Llama3 70B SFT: 32× GB300, BF16, PP=2 VP=20.
`llama3_70b_sft_32gpu_gb300_fp8cs_config`	Llama3 70B SFT: 32× GB300, FP8 current-scaling, PP=2 VP=20.
`llama3_70b_lora_8gpu_gb300_bf16_config`	Llama3 70B LoRA: 8× GB300, BF16.
`llama3_70b_lora_8gpu_gb300_fp8cs_config`	Llama3 70B LoRA: 8× GB300, FP8 current-scaling.
`llama3_70b_lora_8gpu_gb300_fp8mx_config`	Llama3 70B LoRA: 8× GB300, MXFP8, PP=2.
`llama3_70b_sft_32gpu_gb300_fp8mx_config`	LLaMA 3 70B SFT: 32× GB300, FP8-MX (same layout as FP8-CS).
`llama3_8b_pretrain_32gpu_gb300_bf16_config`	Llama3 8B pretrain: 32× GB300, BF16, legacy-scaled GBS.
`llama3_8b_pretrain_32gpu_gb300_fp8cs_config`	Llama3 8B pretrain: 32× GB300, FP8 current-scaling, legacy-scaled GBS.
`llama3_8b_pretrain_32gpu_gb300_fp8mx_config`	Llama3 8B pretrain: 32× GB300, MXFP8, legacy-scaled GBS.
`llama3_8b_pretrain_32gpu_gb300_nvfp4_config`	Llama3 8B pretrain: 32× GB300, NVFP4, legacy-scaled GBS.
`llama3_70b_pretrain_32gpu_gb300_bf16_config`	Llama3 70B pretrain: 32× GB300, BF16, legacy-scaled GBS.
`llama3_70b_pretrain_32gpu_gb300_fp8cs_config`	Llama3 70B pretrain: 32× GB300, FP8 current-scaling, legacy-scaled GBS.

API#

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_8gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 8× GB300, BF16, CUDA graph local.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_8gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 8× GB300, FP8 current-scaling, CUDA graph local.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_8gpu_gb300_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 8× GB300, MXFP8, CUDA graph local.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_8gpu_gb300_nvfp4_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 8× GB300, NVFP4, CUDA graph local.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_64gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 64× GB300, BF16, FSDP + NCCL UB, GBS=256.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_64gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 64× GB300, FP8 current-scaling, FSDP, GBS=256.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_64gpu_gb300_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 64× GB300, MXFP8, PP=4, GBS=256.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_64gpu_gb300_nvfp4_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 64× GB300, NVFP4, PP=4, GBS=256.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_sft_32gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B SFT: 32× GB300, BF16, PP=2 VP=20.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_sft_32gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B SFT: 32× GB300, FP8 current-scaling, PP=2 VP=20.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_lora_8gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B LoRA: 8× GB300, BF16.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_lora_8gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B LoRA: 8× GB300, FP8 current-scaling.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_lora_8gpu_gb300_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B LoRA: 8× GB300, MXFP8, PP=2.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_sft_32gpu_gb300_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: LLaMA 3 70B SFT: 32× GB300, FP8-MX (same layout as FP8-CS).

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_32gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 32× GB300, BF16, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_32gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 32× GB300, FP8 current-scaling, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_32gpu_gb300_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 32× GB300, MXFP8, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3.llama3_8b_pretrain_32gpu_gb300_nvfp4_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 8B pretrain: 32× GB300, NVFP4, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_32gpu_gb300_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 32× GB300, BF16, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3.llama3_70b_pretrain_32gpu_gb300_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3 70B pretrain: 32× GB300, FP8 current-scaling, legacy-scaled GBS.

bridge.perf_recipes.llama.gb300.llama3#

Module Contents#

Functions#

API#

`bridge.perf_recipes.llama.gb300.llama3`#