SHINRA2020での前処理済みデータの森羅2020-JPタスクの学習・ターゲットデータ(トークナイズ済み, Mecab(IPA辞書)&BPE使用, 東北大BERT対応)を使用しています。
事前学習済みモデルとして東北大BERTを使用しています. BERTの上に属性ごとに独立した分類層を乗せています.
- pytorch
- transformers>=3.0.1
- fugashi
- seqeval
- mlflow
こちらをご利用いただけます.
sh train.sh
※ model_path
はディレクトリです.validation setで最大精度のモデルと最終エポックのモデルを保存します.
python train.py \
--input_path /path/to/Target_Category \
--model_path /path/to/model_directory \
--lr 1e-5 \
--bsz 32 \
--epoch 50 \
--grad_acc 1 \
--grad_clip 1.0
sh predict.sh
.
前処理済みのデータ(1カテゴリ)を入力に,森羅2020の出力形式で予測結果を出力.
※ model_path
はモデルファイルへのパスです.
python predict.py \
--input_path /path/to/Target_Category \
--model_path /path/to/model_file \
--output_path /path/to/output_file