From 7416aa23be3ab9d61a790bb5bcea19ce6cff3a61 Mon Sep 17 00:00:00 2001 From: jloayza10 Date: Thu, 21 Apr 2022 15:12:35 -0400 Subject: [PATCH 1/8] Spanish translation of fast_tokenizers.mdx --- docs/source/es/fast_tokenizers.mdx | 70 ++++++++++++++++++++++++++++++ 1 file changed, 70 insertions(+) create mode 100644 docs/source/es/fast_tokenizers.mdx diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx new file mode 100644 index 0000000000000..ce71a032b0365 --- /dev/null +++ b/docs/source/es/fast_tokenizers.mdx @@ -0,0 +1,70 @@ + + +# Usa los tokenizadores de 馃 Tokenizers + +[`PreTrainedTokenizerFast`] depende de la librer铆a [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la librer铆a 馃 Tokenizers pueden ser +cargados muy simplemente a 馃 Transformers. + +Antes de entrar en los detalles, podemos crear un tokenizador dummy en unas cuantas l铆neas: + +```python +>>> from tokenizers import Tokenizer +>>> from tokenizers.models import BPE +>>> from tokenizers.trainers import BpeTrainer +>>> from tokenizers.pre_tokenizers import Whitespace + +>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) +>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) + +>>> tokenizer.pre_tokenizer = Whitespace() +>>> files = [...] +>>> tokenizer.train(files, trainer) +``` + +Ahora tenemos un tokenizador entrenado con los archivos (files en el c贸digo) que fueron definidos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o se lo puede guardar +en un archivo JSON para reutilizarlo en un futuro. + +## Cargando directamente desde el objeto tokenizador + +Veamos como utilizar este objeto tokenizador en la librer铆a 馃 Transformers. La clase +[`PreTrainedTokenizerFast`] permite una instanciaci贸n simple, al aceptar el objeto +*tokenizer* instanciado como argumento: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) +``` + +Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores +](main_classes/tokenizer) para m谩s informaci贸n. + +## Cargando desde un archivo JSON + +Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador: + +```python +>>> tokenizer.save("tokenizer.json") +``` + +La localizaci贸n (path en ingl茅s) donde este archivo es guardado puede ser incluida en el m茅todo de inicializaci贸n de [`PreTrainedTokenizerFast`] +utilizando el par谩metro `tokenizer_file`: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") +``` + +Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la [p谩gina sobre tokenizadores +](main_classes/tokenizer) para m谩s informaci贸n. From 7cb23cf2abdcefc380159d3cdb60cd5f641e01bd Mon Sep 17 00:00:00 2001 From: jloayza10 Date: Tue, 3 May 2022 18:57:46 -0400 Subject: [PATCH 2/8] add fast_tokenizers to the spanish _toctree.yml --- docs/source/es/_toctree.yml | 2 ++ 1 file changed, 2 insertions(+) diff --git a/docs/source/es/_toctree.yml b/docs/source/es/_toctree.yml index 525683955e717..6e94df6e1f170 100644 --- a/docs/source/es/_toctree.yml +++ b/docs/source/es/_toctree.yml @@ -13,5 +13,7 @@ title: Entrenamiento distribuido con 馃 Accelerate title: Tutorials - sections: + - local: fast_tokenizers + title: "Usa los tokenizadores de 馃 Tokenizers" - local: multilingual title: Modelos multiling眉es para inferencia \ No newline at end of file From ca22b95417a530661125153c0403b14482aca8eb Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:32:10 -0400 Subject: [PATCH 3/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index ce71a032b0365..29d8de7d43ac4 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -12,7 +12,7 @@ specific language governing permissions and limitations under the License. # Usa los tokenizadores de 馃 Tokenizers -[`PreTrainedTokenizerFast`] depende de la librer铆a [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la librer铆a 馃 Tokenizers pueden ser +[`PreTrainedTokenizerFast`] depende de la biblioteca [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser cargados muy simplemente a 馃 Transformers. Antes de entrar en los detalles, podemos crear un tokenizador dummy en unas cuantas l铆neas: From 9e01f107a97d141fe33a4ab21baad064262696ef Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:32:39 -0400 Subject: [PATCH 4/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index 29d8de7d43ac4..54eae5d729721 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -13,7 +13,7 @@ specific language governing permissions and limitations under the License. # Usa los tokenizadores de 馃 Tokenizers [`PreTrainedTokenizerFast`] depende de la biblioteca [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser -cargados muy simplemente a 馃 Transformers. +cargados de forma muy sencilla en los 馃 Transformers. Antes de entrar en los detalles, podemos crear un tokenizador dummy en unas cuantas l铆neas: From 436ff2854630016c6d3f0a7a5ffec82a27de324e Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:33:05 -0400 Subject: [PATCH 5/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index 54eae5d729721..7867c969b6f5d 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -15,7 +15,7 @@ specific language governing permissions and limitations under the License. [`PreTrainedTokenizerFast`] depende de la biblioteca [馃 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser cargados de forma muy sencilla en los 馃 Transformers. -Antes de entrar en los detalles, podemos crear un tokenizador dummy en unas cuantas l铆neas: +Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas l铆neas: ```python >>> from tokenizers import Tokenizer From 475a656e168ed28c19a0de23c57749128cdda92b Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:40:31 -0400 Subject: [PATCH 6/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index 7867c969b6f5d..e56d33af8a6ec 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -31,7 +31,7 @@ Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cua >>> tokenizer.train(files, trainer) ``` -Ahora tenemos un tokenizador entrenado con los archivos (files en el c贸digo) que fueron definidos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o se lo puede guardar +Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o puedes guardarlo en un archivo JSON para reutilizarlo en un futuro. ## Cargando directamente desde el objeto tokenizador From 7c9be50bc1d3aab2ea0619bddf91c9798617e23f Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:40:42 -0400 Subject: [PATCH 7/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index e56d33af8a6ec..2b89047a740a7 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -36,7 +36,7 @@ en un archivo JSON para reutilizarlo en un futuro. ## Cargando directamente desde el objeto tokenizador -Veamos como utilizar este objeto tokenizador en la librer铆a 馃 Transformers. La clase +Veamos c贸mo utilizar este objeto tokenizador en la biblioteca 馃 Transformers. La clase [`PreTrainedTokenizerFast`] permite una instanciaci贸n simple, al aceptar el objeto *tokenizer* instanciado como argumento: From 9a66e6df5631d9a015c7815db44ad593a6ca4c97 Mon Sep 17 00:00:00 2001 From: Jorge Loayza R <62972713+jloayza10@users.noreply.github.com> Date: Wed, 4 May 2022 12:40:54 -0400 Subject: [PATCH 8/8] Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel --- docs/source/es/fast_tokenizers.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/fast_tokenizers.mdx b/docs/source/es/fast_tokenizers.mdx index 2b89047a740a7..63b43cc1c4c7e 100644 --- a/docs/source/es/fast_tokenizers.mdx +++ b/docs/source/es/fast_tokenizers.mdx @@ -37,7 +37,7 @@ en un archivo JSON para reutilizarlo en un futuro. ## Cargando directamente desde el objeto tokenizador Veamos c贸mo utilizar este objeto tokenizador en la biblioteca 馃 Transformers. La clase -[`PreTrainedTokenizerFast`] permite una instanciaci贸n simple, al aceptar el objeto +[`PreTrainedTokenizerFast`] permite una instanciaci贸n f谩cil, al aceptar el objeto *tokenizer* instanciado como argumento: ```python