`nemo_rl.algorithms.sft`#

Module Contents#

`_default_sft_save_state`
`setup`	Main entry point for running SFT algorithm.
`validate`	Run validation on the validation dataset.
`sft_train`

class nemo_rl.algorithms.sft.SFTSaveState#

Bases: typing.TypedDict

nemo_rl.algorithms.sft._default_sft_save_state() → nemo_rl.algorithms.sft.SFTSaveState#

class nemo_rl.algorithms.sft.SFTConfig#

Bases: typing.TypedDict

class nemo_rl.algorithms.sft.MasterConfig#

Bases: typing.TypedDict

nemo_rl.algorithms.sft.setup( master_config: nemo_rl.algorithms.sft.MasterConfig, tokenizer: transformers.AutoTokenizer, train_dataset: nemo_rl.data.datasets.AllTaskProcessedDataset, val_dataset: Optional[nemo_rl.data.datasets.AllTaskProcessedDataset], ) → tuple[nemo_rl.models.policy.lm_policy.Policy, nemo_rl.distributed.virtual_cluster.RayVirtualCluster, torchdata.stateful_dataloader.StatefulDataLoader, Optional[torchdata.stateful_dataloader.StatefulDataLoader], nemo_rl.algorithms.loss.loss_functions.NLLLossFn, nemo_rl.utils.logger.Logger, nemo_rl.utils.checkpoint.CheckpointManager, nemo_rl.algorithms.sft.SFTSaveState, nemo_rl.algorithms.sft.MasterConfig]#

Main entry point for running SFT algorithm.

Returns:: Tuple of policy, cluster, dataloader, tokenizer, loss_fn, math_env, master_config, logger

nemo_rl.algorithms.sft.validate( policy: nemo_rl.models.policy.interfaces.PolicyInterface, val_dataloader: Optional[torchdata.stateful_dataloader.StatefulDataLoader], tokenizer, loss_fn, step: int, master_config: nemo_rl.algorithms.sft.MasterConfig, val_batches: int, val_batch_size: int, val_mbs: int, )#: Run validation on the validation dataset.

nemo_rl.algorithms.sft.sft_train( policy, train_dataloader, val_dataloader, tokenizer, loss_fn, master_config, logger, checkpointer, sft_save_state: nemo_rl.algorithms.sft.SFTSaveState, ) → None#