Skip to content

Commit

Permalink
Documentation: Spanish translation of fast_tokenizers.mdx (#16882)
Browse files Browse the repository at this point in the history
* Spanish translation of fast_tokenizers.mdx

* add fast_tokenizers to the spanish _toctree.yml

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

* Update docs/source/es/fast_tokenizers.mdx

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>

Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>
  • Loading branch information
jloayza10 and omarespejel committed May 12, 2022
1 parent ae82da2 commit e2d678b
Show file tree
Hide file tree
Showing 2 changed files with 72 additions and 0 deletions.
2 changes: 2 additions & 0 deletions docs/source/es/_toctree.yml
Expand Up @@ -15,6 +15,8 @@
title: Entrenamiento distribuido con 馃 Accelerate
title: Tutoriales
- sections:
- local: fast_tokenizers
title: Usa tokenizadores de 馃 Tokenizers
- sections:
- local: language_modeling
title: Modelado de lenguaje
Expand Down
70 changes: 70 additions & 0 deletions docs/source/es/fast_tokenizers.mdx
@@ -0,0 +1,70 @@
<!--Copyright 2022 The HuggingFace Team. All rights reserved.

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
specific language governing permissions and limitations under the License.
-->

# Usa los tokenizadores de 馃 Tokenizers

[`PreTrainedTokenizerFast`] depende de la biblioteca [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser
cargados de forma muy sencilla en los 馃 Transformers.

Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas l铆neas:

```python
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
```
Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o puedes guardarlo
en un archivo JSON para reutilizarlo en un futuro.
## Cargando directamente desde el objeto tokenizador
Veamos c贸mo utilizar este objeto tokenizador en la biblioteca 馃 Transformers. La clase
[`PreTrainedTokenizerFast`] permite una instanciaci贸n f谩cil, al aceptar el objeto
*tokenizer* instanciado como argumento:
```python
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
```

Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores
](main_classes/tokenizer) para m谩s informaci贸n.

## Cargando desde un archivo JSON

Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador:

```python
>>> tokenizer.save("tokenizer.json")
```

La localizaci贸n (path en ingl茅s) donde este archivo es guardado puede ser incluida en el m茅todo de inicializaci贸n de [`PreTrainedTokenizerFast`]
utilizando el par谩metro `tokenizer_file`:

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
```

Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores
](main_classes/tokenizer) para m谩s informaci贸n.

0 comments on commit e2d678b

Please sign in to comment.