`nemo_automodel.components.models.hy_v3.model`#

HYV3ForCausalLM — Tencent Hy3-preview (295B MoE) SFT support.

Architecture (from tencent/Hy3-preview config.json):

80 transformer layers; layer 0 is dense, layers 1-79 are MoE
MoE: 192 routed experts + 1 shared expert, top-8 activated
Sigmoid routing with expert-bias correction (e_score_correction_bias)
GQA: 64 Q heads, 8 KV heads, head_dim=128
Per-head QK RMSNorm before RoPE
256K context, rope_theta=11158840

Module Contents#

Classes#

`Block`
`HYV3Model`
`HYV3ForCausalLM`

Data#

ModelClass

API#

class nemo_automodel.components.models.hy_v3.model.Block( layer_idx: int, config: Any, moe_config: nemo_automodel.components.moe.config.MoEConfig, backend: nemo_automodel.components.models.common.BackendConfig, )#

Bases: torch.nn.Module

Initialization

forward(

x: torch.Tensor,

*,

freqs_cis: torch.Tensor,

attention_mask: torch.Tensor | None = None,

padding_mask: torch.Tensor | None = None,

**attn_kwargs: Any,

) → torch.Tensor#

_mlp( x: torch.Tensor, padding_mask: torch.Tensor | None, ) → torch.Tensor#

init_weights(buffer_device: torch.device)#

class nemo_automodel.components.models.hy_v3.model.HYV3Model( config: Any, backend: nemo_automodel.components.models.common.BackendConfig, *, moe_config: nemo_automodel.components.moe.config.MoEConfig | None = None, moe_overrides: dict | None = None, )#