nemo_curator.tasks.audio_task

Module Contents

Classes

Name	Description
`AudioTask`	A single audio manifest entry.
`_AttrDict`	Dict subclass exposing keys as attributes so `hasattr` works.

API

class nemo_curator.tasks.audio_task.AudioTask(
    task_id: str = '',
    dataset_name: str = '',
    data: dict = _AttrDict(),
    _stage_perf: list[nemo_curator.utils.performance_utils.StagePerfStats] = list(),
    _metadata: dict[str, typing.Any] = dict(),
    filepath_key: str | None = None
)

Dataclass

Bases: Task[dict]

A single audio manifest entry.

Represents one line from a JSONL manifest file (e.g. one audio file with its metadata). data is always a single dict, never a list.

Matches the VideoTask naming convention used by the video modality.

Parameters:

data

dictDefaults to _AttrDict()

Manifest entry dict (e.g. {"audio_filepath": "...", "text": "..."}).

filepath_key

str | NoneDefaults to None

Optional key whose value is validated as an existing path.

data

dict = field(default_factory=_AttrDict)

dataset_name

str = ''

filepath_key

str | None = None

num_items

int

task_id

str = ''

nemo_curator.tasks.audio_task.AudioTask.__post_init__()

nemo_curator.tasks.audio_task.AudioTask.validate() -> bool

Validate the task data.

class nemo_curator.tasks.audio_task._AttrDict()

Bases: dict

Dict subclass exposing keys as attributes so hasattr works.

nemo_curator.tasks.audio_task._AttrDict.__delattr__(
    key: str
)

nemo_curator.tasks.audio_task._AttrDict.__getattr__(
    key: str
)

nemo_curator.tasks.audio_task._AttrDict.__setattr__(
    key: str,
    value: object
) -> None