`bridge.recipes.qwen.qwen3`#

Module Contents#

Functions#

`qwen3_600m_pretrain_config`	Return a pre-training config for Qwen3 0.6B.
`qwen3_1p7b_pretrain_config`	Return a pre-training config for Qwen3 1.7B.
`qwen3_4b_pretrain_config`	Return a pre-training config for Qwen3 4B.
`qwen3_8b_pretrain_config`	Return a pre-training config for Qwen3 8B.
`qwen3_14b_pretrain_config`	Return a pre-training config for Qwen3 14B.
`qwen3_32b_pretrain_config`	Return a pre-training config for Qwen3 32B.
`qwen3_600m_sft_config`	Return a full SFT config for Qwen3 600M.
`qwen3_600m_sft_128k_config`	Return a full SFT config for Qwen3 600M with 128K context length.
`qwen3_600m_sft_yarn_128k_config`	Return a 128K full SFT config for Qwen3 600M with YaRN scaling.
`qwen3_1p7b_sft_config`	Return a full SFT config for Qwen3 1.7B.
`qwen3_4b_sft_config`	Return a full SFT config for Qwen3 4B.
`qwen3_8b_sft_config`	Return a full SFT config for Qwen3 8B.
`qwen3_14b_sft_config`	Return a full SFT config for Qwen3 14B.
`qwen3_32b_sft_config`	Return a full SFT config for Qwen3 32B.
`qwen3_600m_peft_config`	Return a PEFT config for Qwen3 600M.
`qwen3_1p7b_peft_config`	Return a PEFT config for Qwen3 1.7B.
`qwen3_4b_peft_config`	Return a PEFT config for Qwen3 4B.
`qwen3_8b_peft_config`	Return a PEFT config for Qwen3 8B.
`qwen3_14b_peft_config`	Return a PEFT config for Qwen3 14B.
`qwen3_32b_peft_config`	Return a PEFT config for Qwen3 32B.

API#

bridge.recipes.qwen.qwen3.qwen3_600m_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 0.6B.

Recommended parallelism: TP=1, PP=1 (fits on a single GPU).

bridge.recipes.qwen.qwen3.qwen3_1p7b_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 1.7B.

Recommended parallelism: TP=1, PP=1 (fits on a single GPU).

bridge.recipes.qwen.qwen3.qwen3_4b_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 4B.

Recommended parallelism: TP=2, PP=1.

bridge.recipes.qwen.qwen3.qwen3_8b_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 8B.

Recommended parallelism: TP=4, PP=1.

bridge.recipes.qwen.qwen3.qwen3_14b_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 14B.

Recommended parallelism: TP=8, PP=1.

bridge.recipes.qwen.qwen3.qwen3_32b_pretrain_config() → megatron.bridge.training.config.ConfigContainer#

Return a pre-training config for Qwen3 32B.

Recommended parallelism: TP=8, PP=2 with recompute enabled for memory optimization.

bridge.recipes.qwen.qwen3.qwen3_600m_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 600M.

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_600m_sft_128k_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 600M with 128K context length.

Extends the base 600M SFT config to support 128K sequence length with context parallelism.

Recommended parallelism: TP=1, CP=8 (minimum 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_600m_sft_yarn_128k_config() → megatron.bridge.training.config.ConfigContainer#

Return a 128K full SFT config for Qwen3 600M with YaRN scaling.

This recipe uses the math subset of nvidia/Nemotron-Cascade-2-SFT-Data with the Hugging Face chat template from Qwen/Qwen3-0.6B.

Recommended parallelism: TP=1, CP=8 (minimum 8 GPUs).

bridge.recipes.qwen.qwen3.qwen3_1p7b_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 1.7B.

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_4b_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 4B.

Recommended parallelism: TP=2, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_8b_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 8B.

Recommended parallelism: TP=4, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_14b_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 14B.

Recommended parallelism: TP=8, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_32b_sft_config() → megatron.bridge.training.config.ConfigContainer#

Return a full SFT config for Qwen3 32B.

Recommended parallelism: TP=8, PP=2 (2 nodes, 16 GPUs total) Includes recompute for memory optimization.

bridge.recipes.qwen.qwen3.qwen3_600m_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 600M.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_1p7b_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 1.7B.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_4b_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 4B.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_8b_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 8B.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_14b_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 14B.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs)

bridge.recipes.qwen.qwen3.qwen3_32b_peft_config( peft_scheme: str | megatron.bridge.peft.base.PEFT = 'lora', ) → megatron.bridge.training.config.ConfigContainer#

Return a PEFT config for Qwen3 32B.

Parameters:: peft_scheme – PEFT scheme - ‘lora’, ‘dora’, or a PEFT instance. Default: ‘lora’

Recommended parallelism: TP=1, PP=1 (1 node, 8 GPUs) Includes recompute for memory optimization.

bridge.recipes.qwen.qwen3#

Module Contents#

Functions#

API#

`bridge.recipes.qwen.qwen3`#