data_designer.config.seed

Module Contents

Classes

Name	Description
`SamplingStrategy`	str(object=”) -> str str(bytes_or_buffer[, encoding[, errors]]) -> str
`IndexRange`	!!! abstract “Usage Documentation” Models
`PartitionBlock`	!!! abstract “Usage Documentation” Models
`SeedConfig`	Configuration for sampling data from a seed dataset.

API

1 class data_designer.config.seed.SamplingStrategy

Bases: str, enum.Enum

1 ORDERED = ordered

1 SHUFFLE = shuffle

1 class data_designer.config.seed.IndexRange(
2     /,
3     **data: typing.Any
4 )

Bases: data_designer.config.base.ConfigBase

1 start: int = Field(...)

1 end: int = Field(...)

1 _validate_index_range() -> typing_extensions.Self

1 size: int

1 class data_designer.config.seed.PartitionBlock(
2     /,
3     **data: typing.Any
4 )

Bases: data_designer.config.base.ConfigBase

1 index: int = Field(...)

1 num_partitions: int = Field(...)

1 _validate_partition_block() -> typing_extensions.Self

1 to_index_range(dataset_size: int) -> data_designer.config.seed.IndexRange

1 class data_designer.config.seed.SeedConfig(
2     /,
3     **data: typing.Any
4 )

Bases: data_designer.config.base.ConfigBase

Configuration for sampling data from a seed dataset.

Parameters:

source

A SeedSource defining where the seed data exists

sampling_strategy

Strategy for how to sample rows from the dataset.

ORDERED: Read rows sequentially in their original order.
SHUFFLE: Randomly shuffle rows before sampling. When used with selection_strategy, shuffling occurs within the selected range/partition.

selection_strategy

Optional strategy to select a subset of the dataset.

IndexRange: Select a specific range of indices (e.g., rows 100-200).
PartitionBlock: Select a partition by splitting the dataset into N equal parts. Partition indices are zero-based (index=0 is the first partition, index=1 is the second, etc.).

Attributes:

source

A SeedSource defining where the seed data exists

sampling_strategy

Strategy for how to sample rows from the dataset.

ORDERED: Read rows sequentially in their original order.
SHUFFLE: Randomly shuffle rows before sampling. When used with selection_strategy, shuffling occurs within the selected range/partition.

selection_strategy

Optional strategy to select a subset of the dataset.

IndexRange: Select a specific range of indices (e.g., rows 100-200).
PartitionBlock: Select a partition by splitting the dataset into N equal parts. Partition indices are zero-based (index=0 is the first partition, index=1 is the second, etc.).

Examples:

1 Read rows sequentially from start to end:
2     SeedConfig(
3         source=LocalFileSeedSource(path="my_data.parquet"),
4         sampling_strategy=SamplingStrategy.ORDERED
5     )
6 
7 Read rows in random order:
8     SeedConfig(
9         source=LocalFileSeedSource(path="my_data.parquet"),
10         sampling_strategy=SamplingStrategy.SHUFFLE
11     )
12 
13 Read specific index range (rows 100-199):
14     SeedConfig(
15         source=LocalFileSeedSource(path="my_data.parquet"),
16         sampling_strategy=SamplingStrategy.ORDERED,
17         selection_strategy=IndexRange(start=100, end=199)
18     )
19 
20 Read random rows from a specific index range (shuffles within rows 100-199):
21     SeedConfig(
22         source=LocalFileSeedSource(path="my_data.parquet"),
23         sampling_strategy=SamplingStrategy.SHUFFLE,
24         selection_strategy=IndexRange(start=100, end=199)
25     )
26 
27 Read from partition 2 (3rd partition, zero-based) of 5 partitions (20% of dataset):
28     SeedConfig(
29         source=LocalFileSeedSource(path="my_data.parquet"),
30         sampling_strategy=SamplingStrategy.ORDERED,
31         selection_strategy=PartitionBlock(index=2, num_partitions=5)
32     )
33 
34 Read shuffled rows from partition 0 of 10 partitions (shuffles within the partition):
35     SeedConfig(
36         source=LocalFileSeedSource(path="my_data.parquet"),
37         sampling_strategy=SamplingStrategy.SHUFFLE,
38         selection_strategy=PartitionBlock(index=0, num_partitions=10)
39     )

Initialization:

Create a new model by parsing and validating input data from keyword arguments.

Raises [ValidationError][pydantic_core.ValidationError] if the input data cannot be validated to form a valid model.

self is explicitly positional-only to allow self as a field name.

1 source: data_designer.config.seed_source_types.SeedSourceT

1 sampling_strategy: data_designer.config.seed.SamplingStrategy

1 selection_strategy: data_designer.config.seed.IndexRange | data_designer.config.seed.PartitionBlock | Noneselection_strategy: data_designer.config.seed.IndexRange | data_designer.config.seed.PartitionBlock | None

1	class data_designer.config.seed.IndexRange(
2	/,
3	**data: typing.Any
4	)

1	class data_designer.config.seed.PartitionBlock(
2	/,
3	**data: typing.Any
4	)

1	class data_designer.config.seed.SeedConfig(
2	/,
3	**data: typing.Any
4	)

1	Read rows sequentially from start to end:
2	SeedConfig(
3	source=LocalFileSeedSource(path="my_data.parquet"),
4	sampling_strategy=SamplingStrategy.ORDERED
5	)
6
7	Read rows in random order:
8	SeedConfig(
9	source=LocalFileSeedSource(path="my_data.parquet"),
10	sampling_strategy=SamplingStrategy.SHUFFLE
11	)
12
13	Read specific index range (rows 100-199):
14	SeedConfig(
15	source=LocalFileSeedSource(path="my_data.parquet"),
16	sampling_strategy=SamplingStrategy.ORDERED,
17	selection_strategy=IndexRange(start=100, end=199)
18	)
19
20	Read random rows from a specific index range (shuffles within rows 100-199):
21	SeedConfig(
22	source=LocalFileSeedSource(path="my_data.parquet"),
23	sampling_strategy=SamplingStrategy.SHUFFLE,
24	selection_strategy=IndexRange(start=100, end=199)
25	)
26
27	Read from partition 2 (3rd partition, zero-based) of 5 partitions (20% of dataset):
28	SeedConfig(
29	source=LocalFileSeedSource(path="my_data.parquet"),
30	sampling_strategy=SamplingStrategy.ORDERED,
31	selection_strategy=PartitionBlock(index=2, num_partitions=5)
32	)
33
34	Read shuffled rows from partition 0 of 10 partitions (shuffles within the partition):
35	SeedConfig(
36	source=LocalFileSeedSource(path="my_data.parquet"),
37	sampling_strategy=SamplingStrategy.SHUFFLE,
38	selection_strategy=PartitionBlock(index=0, num_partitions=10)
39	)