`bridge.models.gemma.gemma4_bridge`#

Megatron Bridge for Gemma 4 text-only (CausalLM).

Supports all Gemma 4 text variants:

MoE (enable_moe_block=True): Gemma4ForCausalLM (26B-A4B and similar)
Dense (enable_moe_block=False): same HF class, dispatched via Gemma4DenseProvider

Usage::

AutoBridge.from_hf_pretrained(“google/gemma-4-26B-A4B”) └─ Gemma4Bridge (registered for Gemma4ForCausalLM) ├─ provider_bridge() MoE → Gemma4ModelProvider │ Dense → Gemma4DenseProvider └─ mapping_registry() MoE path → _moe_mapping_registry() Dense path → _dense_mapping_registry()

Module Contents#

Classes#

`_Gemma4QKVMapping`	QKV mapping tolerating missing v_proj on global attention layers (K=V).
`_Gemma4DenseQKVMapping`	QKV mapping tolerating missing k_proj AND v_proj on shared-KV layers.
`Gemma4Bridge`	Megatron Bridge for Gemma 4 text-only (CausalLM).

Functions#

`_infer_attn_pattern`	Infer (sliding, global) interleaved attention pattern from layer_types list.
`_layer_types_from_provider`	Reconstruct the Hugging Face per-layer attention pattern.
`_rope_parameters_from_provider`	Reconstruct Gemma 4’s dual local/global RoPE configuration.

API#

class bridge.models.gemma.gemma4_bridge._Gemma4QKVMapping(*args, **kwargs)#

Bases: megatron.bridge.models.conversion.param_mapping.QKVMapping

QKV mapping tolerating missing v_proj on global attention layers (K=V).

Initialization

class bridge.models.gemma.gemma4_bridge._Gemma4DenseQKVMapping(*args, **kwargs)#

Bases: megatron.bridge.models.conversion.param_mapping.QKVMapping

QKV mapping tolerating missing k_proj AND v_proj on shared-KV layers.

Initialization

bridge.models.gemma.gemma4_bridge._infer_attn_pattern(layer_types: list[str]) → tuple[int, int]#: Infer (sliding, global) interleaved attention pattern from layer_types list.

bridge.models.gemma.gemma4_bridge._layer_types_from_provider( provider: megatron.bridge.models.gemma.gemma4_provider.Gemma4ModelProvider | megatron.bridge.models.gemma.gemma4_provider.Gemma4DenseProvider, ) → list[str]#: Reconstruct the Hugging Face per-layer attention pattern.

bridge.models.gemma.gemma4_bridge._rope_parameters_from_provider( provider: megatron.bridge.models.gemma.gemma4_provider.Gemma4ModelProvider | megatron.bridge.models.gemma.gemma4_provider.Gemma4DenseProvider, ) → dict[str, dict]#: Reconstruct Gemma 4’s dual local/global RoPE configuration.

class bridge.models.gemma.gemma4_bridge.Gemma4Bridge#

Bases: megatron.bridge.models.conversion.model_bridge.MegatronModelBridge