Skip to main content

Ctrl+K

Megatron Core

Megatron Core

Table of Contents

User Guide

User Guide

API Guide

API Guide

API Guide

API Guide#

models package
- Subpackages
- Module contents
tensor_parallel package
context_parallel package
pipeline_parallel package
MCore Custom Fully Sharded Data Parallel (FSDP)
fusions package
transformer package
Mixture of Experts package
dist_checkpointing package
Distributed Optimizer
distributed package
datasets package
Multi-Latent Attention
- Multi-Latent Attention overview
- Enabling Multi-Latent Attention
Microbatches Calculator
- Module contents
Optimizer Parameters Scheduler
- Module contents
  - OptimizerParamScheduler
Optimizer CPU offload package
- How to use ?
- Configuration Recommendataions
Multi-Token Prediction (MTP)
- Related Arguments
- Precautions
New Tokenizer System
- Key Differences from the Old Tokenizer System

previous

User Guide

next

models package

Privacy Policy | Manage My Privacy | Do Not Sell or Share My Data | Terms of Service | Accessibility | Corporate Policies | Product Security | Contact

Copyright © 2022-2025, NVIDIA Corporation.

Last updated on Sep 25, 2025.