Drop Columns | NVIDIA NeMo Data Designer

Module Contents

Classes

Name	Description
`DropColumnsProcessor`	Drops specified columns from the dataset after each batch.

Data

logger

API

1 logger = getLogger(...)

1 class data_designer.engine.processing.processors.drop_columns.DropColumnsProcessor(
2     config: data_designer.engine.configurable_task.TaskConfigT,
3     resource_provider: data_designer.engine.resources.resource_provider.ResourceProvider
4 )

Bases: data_designer.engine.processing.processors.base.Processor[data_designer.config.processors.DropColumnsProcessorConfig]

Drops specified columns from the dataset after each batch.

1 _resolve_columns(available: pandas.Index) -> list[str]

Expand column_names entries (including glob patterns) against available columns.

1 process_after_batch(
2     data: pandas.DataFrame,
3     *,
4     current_batch_number: int | None
5 ) -> pandas.DataFrame

1 _save_dropped_columns(
2     data: pandas.DataFrame,
3     resolved: list[str],
4     current_batch_number: int
5 ) -> None

1	class data_designer.engine.processing.processors.drop_columns.DropColumnsProcessor(
2	config: data_designer.engine.configurable_task.TaskConfigT,
3	resource_provider: data_designer.engine.resources.resource_provider.ResourceProvider
4	)

1	process_after_batch(
2	data: pandas.DataFrame,
3	*,
4	current_batch_number: int \| None
5	) -> pandas.DataFrame

1	_save_dropped_columns(
2	data: pandas.DataFrame,
3	resolved: list[str],
4	current_batch_number: int
5	) -> None