`bridge.perf_recipes.llama.gb200.llama31`#

GB200 performance recipes for Llama 3.1.

Module Contents#

Functions#

`llama31_405b_pretrain_128gpu_gb200_bf16_config`	Llama3.1 405B pretrain: 128× GB200, BF16, TP=4 PP=8 CP=2.
`llama31_405b_pretrain_128gpu_gb200_fp8cs_config`	Llama3.1 405B pretrain: 128× GB200, FP8 current-scaling, FSDP.
`llama31_405b_pretrain_128gpu_gb200_fp8mx_config`	Llama3.1 405B pretrain: 128× GB200, MXFP8, TP=4 PP=8 CP=2.
`llama31_405b_pretrain_128gpu_gb200_nvfp4_config`	Llama3.1 405B pretrain: 128× GB200, NVFP4, TP=4 PP=16.
`llama31_405b_pretrain_256gpu_gb200_bf16_config`	Llama3.1 405B pretrain: 256× GB200, BF16, TP=4 PP=16.
`llama31_405b_pretrain_256gpu_gb200_fp8cs_config`	Llama3.1 405B pretrain: 256× GB200, FP8 current-scaling, TP=4 PP=16.
`llama31_405b_pretrain_256gpu_gb200_fp8mx_config`	Llama3.1 405B pretrain: 256× GB200, MXFP8, TP=4 PP=16.
`llama31_405b_pretrain_256gpu_gb200_nvfp4_config`	Llama3.1 405B pretrain: 256× GB200, NVFP4, TP=4 PP=16.

API#

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_128gpu_gb200_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 128× GB200, BF16, TP=4 PP=8 CP=2.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_128gpu_gb200_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 128× GB200, FP8 current-scaling, FSDP.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_128gpu_gb200_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 128× GB200, MXFP8, TP=4 PP=8 CP=2.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_128gpu_gb200_nvfp4_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 128× GB200, NVFP4, TP=4 PP=16.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_256gpu_gb200_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 256× GB200, BF16, TP=4 PP=16.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_256gpu_gb200_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 256× GB200, FP8 current-scaling, TP=4 PP=16.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_256gpu_gb200_fp8mx_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 256× GB200, MXFP8, TP=4 PP=16.

bridge.perf_recipes.llama.gb200.llama31.llama31_405b_pretrain_256gpu_gb200_nvfp4_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 256× GB200, NVFP4, TP=4 PP=16.