`bridge.models.qwen_omni.modeling_qwen25_omni.transformer_config`#

Module Contents#

Classes#

Qwen25OmniTransformerConfig

Configuration for Qwen2.5 Omni transformer with vision, audio, and language components.

API#

class bridge.models.qwen_omni.modeling_qwen25_omni.transformer_config.Qwen25OmniTransformerConfig#

Bases: megatron.core.transformer.transformer_config.TransformerConfig

Configuration for Qwen2.5 Omni transformer with vision, audio, and language components.

vocab_size: int#: 152064

language_max_sequence_length: int#: 4096

patch_size: int#: 14

temporal_patch_size: int#: 2

in_channels: int#: 3

spatial_merge_size: int#: 2

apply_rotary_pos_emb_in_fp32: bool#: False

fp16_lm_cross_entropy: bool#: False

share_embeddings_and_output_weights: bool#: False

rotary_percent: float#: 1.0

rotary_base: float#: 10000

mrope_section: list[int]#: ‘field(…)’

apply_rope_fusion: bool#: False

image_token_id: int#: 151655

video_token_id: int#: 151656

audio_token_id: int#: 151646

vision_start_token_id: int#: 151652

audio_start_token_id: int#: 151647

position_id_per_seconds: int#: 25

seconds_per_chunk: int#: 2

qk_layernorm: bool#: False