Skip to main content

Ctrl+K

Megatron Core

GitHub

Megatron Core

GitHub

Table of Contents

About Megatron Core

Overview
Release Notes

Get Started

Installation
Your First Training Run

Basic Usage

Data Preparation
Training Examples
Parallelism Strategies Guide

Supported Models

Supported Models

Advanced Features

Mixture of Experts
Context Parallel Package
Megatron-FSDP
Distributed Optimizer
Optimizer CPU Offload
Custom Pipeline Model Parallel Layout
Fine-Grained Activation Offloading
Data Loading at Scale
Megatron Energon
Megatron RL
Tokenizers

Developer Guide

Contributing to Megatron-LM
How to Submit a PR
Oncall Overview
Generating Docs Locally

API Reference

API Guide
API Reference
- core

Resources

Discussions

Advanced Features

Is this page helpful?

Advanced Features#

Guides for Megatron Core training features.

CUDA Graph
Fine-Grained Activation Offloading
Mixture of Experts
Megatron Core MoE
Context Parallel Package
Megatron-FSDP
Distributed Optimizer
Optimizer CPU Offload
- How to use ?
- Configuration Recommendations
MoE Paged Stash
Custom Pipeline Model Parallel Layout
Tokenizers
Megatron Energon
Megatron RL

Privacy Policy | Your Privacy Choices | Terms of Service | Accessibility | Corporate Policies | Product Security | Contact

Copyright © 2026, NVIDIA Corporation.