NVIDIA Docs Hub NVIDIA PhysicsNeMo NVIDIA Modulus Core v0.2.1 Modulus Distributed

Modulus Distributed

class modulus.distributed.manager.DistributedManager[source]

Bases: object

Distributed Manager for setting up distributed training enviroment.

This is a singleton that creates a persistance class instance for storing parallel environment information through out the life time of the program. This should be used to help set up Distributed Data Parallel and parallel datapipes.

Note

One should call DistributedManager.initialize() prior to constructing a manager object

Example

Copy
Copied!

            
            >>> DistributedManager.initialize()
>>> manager = DistributedManager()
>>> manager.rank
0
>>> manager.world_size
1

property broadcast_buffers

static cleanup()[source]

property cuda

property device

property distributed

property find_unused_parameters

static get_available_backend()[source]

group(name=None)[source]

group_name(group=None)[source]

property group_names

group_rank(name=None)[source]

group_size(name=None)[source]

static initialize()[source]

static initialize_env()[source]

static initialize_open_mpi(addr, port)[source]

static initialize_slurm(port)[source]

classmethod is_initialized() → bool[source]

property local_rank

property rank

static setup(rank=0, world_size=1, local_rank=None, addr='localhost', port='12355', backend='nccl', method='env')[source]

property world_size

modulus.distributed.utils.gather_loss(loss: float, dst_rank: int = 0, mean: bool = True)[source]

Gathers loss from all processes to one for logging

Parameters
Raises