diff --git a/docs/source/es/_toctree.yml b/docs/source/es/_toctree.yml index d0d5e1c9cf709..455516e28b9e5 100644 --- a/docs/source/es/_toctree.yml +++ b/docs/source/es/_toctree.yml @@ -15,6 +15,8 @@ title: Entrenamiento distribuido con 馃 Accelerate title: Tutoriales - sections: + - local: fast_tokenizers + title: Usa tokenizadores de 馃 Tokenizers - sections: - local: language_modeling title: Modelado de lenguaje diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx new file mode 100644 index 0000000000000..63b43cc1c4c7e --- /dev/null +++ b/docs/source/es/fast_tokenizers.mdx @@ -0,0 +1,70 @@ + + +# Usa los tokenizadores de 馃 Tokenizers + +[`PreTrainedTokenizerFast`] depende de la biblioteca [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser +cargados de forma muy sencilla en los 馃 Transformers. + +Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas l铆neas: + +```python +>>> from tokenizers import Tokenizer +>>> from tokenizers.models import BPE +>>> from tokenizers.trainers import BpeTrainer +>>> from tokenizers.pre_tokenizers import Whitespace + +>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) +>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) + +>>> tokenizer.pre_tokenizer = Whitespace() +>>> files = [...] +>>> tokenizer.train(files, trainer) +``` + +Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o puedes guardarlo +en un archivo JSON para reutilizarlo en un futuro. + +## Cargando directamente desde el objeto tokenizador + +Veamos c贸mo utilizar este objeto tokenizador en la biblioteca 馃 Transformers. La clase +[`PreTrainedTokenizerFast`] permite una instanciaci贸n f谩cil, al aceptar el objeto +*tokenizer* instanciado como argumento: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) +``` + +Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores +](main_classes/tokenizer) para m谩s informaci贸n. + +## Cargando desde un archivo JSON + +Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador: + +```python +>>> tokenizer.save("tokenizer.json") +``` + +La localizaci贸n (path en ingl茅s) donde este archivo es guardado puede ser incluida en el m茅todo de inicializaci贸n de [`PreTrainedTokenizerFast`] +utilizando el par谩metro `tokenizer_file`: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") +``` + +Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores +](main_classes/tokenizer) para m谩s informaci贸n.