Audio Curation Concepts#

This guide covers the essential concepts for audio data curation in NVIDIA NeMo Curator. These concepts assume basic familiarity with speech processing and machine learning principles.

Core Concept Areas#

Audio curation in NVIDIA NeMo Curator focuses on these key areas:

Audio Curation Pipeline

Modality-level overview of ingest, validation, optional ASR, metrics, filtering, and export

overview map

Audio Curation Pipeline (Overview)

ASR Pipeline

Comprehensive overview of the automatic speech recognition pipeline and workflow

overview architecture

ASR Pipeline Architecture

Quality Metrics

Core concepts for evaluating speech transcription quality and audio characteristics

wer cer metrics

Audio Quality Metrics

AudioBatch Structure

Understanding the AudioBatch data structure and audio file management

data-structures validation

AudioBatch Data Structure

Dataset Manifests and Ingest

Concepts for constructing manifests and ingesting audio datasets

manifests ingest

Dataset Manifests and Ingest

Text Integration

Concepts for integrating audio processing with text curation workflows

multimodal integration

Audio-Text Integration Concepts

Infrastructure Components#

The audio curation concepts build on NVIDIA NeMo Curator’s core infrastructure components, which are shared across all modalities. These components include:

Memory Management

Optimize memory usage when processing large audio datasets

partitioning batching monitoring

Memory Management Guide

GPU Acceleration

Leverage NVIDIA GPUs for faster ASR inference and audio processing

cuda nemo-toolkit performance

GPU Processing Guide

Resumable Processing

Continue interrupted operations across large audio datasets

checkpoints recovery batching

Resumable Processing