`bridge.data.vlm_datasets.preloaded_provider`#

Provider for datasets preloaded from JSON/JSONL files into conversation schema.

Module Contents#

Classes#

PreloadedVLMConversationProvider

DatasetProvider that builds VLM conversation datasets from preloaded JSON/JSONL files.

Functions#

`_split_text_by_placeholders`	Split legacy text containing “”/”
`_normalize_paths`
`_record_to_conversation`	Transform a single legacy record into an AutoProcessor-friendly conversation schema. Supports two input styles:
`_load_preloaded_examples`

API#

bridge.data.vlm_datasets.preloaded_provider._split_text_by_placeholders( text: str, image_paths: List[str], video_paths: Optional[List[str]] = None, ) → List[Dict[str, Any]]#: Split legacy text containing “”/”

bridge.data.vlm_datasets.preloaded_provider._normalize_paths( paths: Optional[List[Any]], base_folder: Optional[str], ) → Optional[List[Any]]#

bridge.data.vlm_datasets.preloaded_provider._record_to_conversation( record: Dict[str, Any], image_folder: Optional[str], ) → Optional[List[Dict[str, Any]]]#

Transform a single legacy record into an AutoProcessor-friendly conversation schema. Supports two input styles:

{“conversation”: […]} already in HF schema -> passthrough
{“messages”: […], “images”: […], “videos”: […]} with /

bridge.data.vlm_datasets.preloaded_provider._load_preloaded_examples( path: str, ) → List[Dict[str, Any]]#

class bridge.data.vlm_datasets.preloaded_provider.PreloadedVLMConversationProvider#

Bases: megatron.bridge.training.config.DatasetProvider