`core.tokenizers.megatron_tokenizer`#

Module Contents#

Classes#

MegatronTokenizer

Restores model tokenizer.

Functions#

_get_metadata_path

Returns metadata file path.

Data#

`TOKENIZER_MAPPING_NAMES`
`TOKENIZER_LIBRARIES`
`logger`

API#

core.tokenizers.megatron_tokenizer.TOKENIZER_MAPPING_NAMES#: ‘OrderedDict(…)’

core.tokenizers.megatron_tokenizer.TOKENIZER_LIBRARIES#: [‘sentencepiece’, ‘huggingface’, ‘megatron’, ‘tiktoken’, ‘byte-level’, ‘null’]

core.tokenizers.megatron_tokenizer.logger#: ‘getLogger(…)’

class core.tokenizers.megatron_tokenizer.MegatronTokenizer#

Restores model tokenizer.

Initialization

from_pretrained(

metadata_path: Optional[Union[str, dict]] = None,

**kwargs,

) → megatron.core.tokenizers.base_tokenizer.MegatronTokenizerBase#

Parameters:

path (str) – path to tokenizer file with metadata.json in folder.
metadata_path (Optional[str]) – path to the tokenizer metadata. Must be specified when loading the tokenizer from HF.

Returns:

tokenizer object.

Return type:

MegatronTokenizerBase

Usage: MegatronTokenizer.from_pretrained(tokenizer_path=’/path/to/tokenzier’)

write_metadata( tokenizer_library: str, model_type: Optional[str] = None, tokenizer_class: Optional[megatron.core.tokenizers.base_tokenizer.MegatronTokenizerBase] = None, chat_template: Optional[str] = None, overwrite: Optional[bool] = False, metadata_path: Optional[str] = None, ) → None#

Creates metadata file for tokenizer.