`bridge.perf_recipes.llama.h100.llama31`#

H100 performance recipes for Llama 3.1.

Module Contents#

Functions#

`llama31_405b_pretrain_1024gpu_h100_bf16_config`	Llama3.1 405B pretrain: 1024× H100, BF16, TP=8 PP=8 CP=2.
`llama31_405b_pretrain_1024gpu_h100_fp8cs_config`	Llama3.1 405B pretrain: 1024× H100, FP8 current-scaling, TP=8 PP=8 CP=2.
`llama31_405b_pretrain_512gpu_h100_bf16_config`	Llama3.1 405B pretrain: 512× H100, BF16, legacy-scaled GBS.
`llama31_405b_pretrain_512gpu_h100_fp8cs_config`	Llama3.1 405B pretrain: 512× H100, FP8 current-scaling, legacy-scaled GBS.

API#

bridge.perf_recipes.llama.h100.llama31.llama31_405b_pretrain_1024gpu_h100_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 1024× H100, BF16, TP=8 PP=8 CP=2.

bridge.perf_recipes.llama.h100.llama31.llama31_405b_pretrain_1024gpu_h100_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 1024× H100, FP8 current-scaling, TP=8 PP=8 CP=2.

bridge.perf_recipes.llama.h100.llama31.llama31_405b_pretrain_512gpu_h100_bf16_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 512× H100, BF16, legacy-scaled GBS.

bridge.perf_recipes.llama.h100.llama31.llama31_405b_pretrain_512gpu_h100_fp8cs_config() → megatron.bridge.perf_recipes.llama.common.ConfigContainer#: Llama3.1 405B pretrain: 512× H100, FP8 current-scaling, legacy-scaled GBS.