`nemo_rl.models.generation.vllm.config`#

Module Contents#

Classes#

`VllmSpecificArgs`
`VllmConfig`

API#

class nemo_rl.models.generation.vllm.config.VllmSpecificArgs#

Bases: typing.TypedDict

tensor_parallel_size: int#: None

pipeline_parallel_size: int#: None

expert_parallel_size: int#: None

gpu_memory_utilization: float#: None

max_model_len: int#: None

skip_tokenizer_init: bool#: None

async_engine: bool#: None

load_format: NotRequired[str]#: None

precision: NotRequired[str]#: None

kv_cache_dtype: Literal[auto, fp8, fp8_e4m3]#: None

enforce_eager: NotRequired[bool]#: None

enable_return_routed_experts: NotRequired[bool]#: None

use_tqdm: NotRequired[bool]#: None

expose_http_server: NotRequired[bool]#: None

http_server_serving_chat_kwargs: NotRequired[dict[str, Any]]#: None

tool_parser_plugin: NotRequired[str]#: None

env_vars: NotRequired[dict[str, str]]#: None

reasoning_parser_plugin: NotRequired[str]#: None

class nemo_rl.models.generation.vllm.config.VllmConfig#

Bases: nemo_rl.models.generation.interfaces.GenerationConfig

vllm_cfg: nemo_rl.models.generation.vllm.config.VllmSpecificArgs#: None

vllm_kwargs: NotRequired[dict[str, Any]]#: None

quant_cfg: NotRequired[str | None]#: None

real_quant: NotRequired[bool]#: None

real_quant_ignore: NotRequired[list[str]]#: None