参考にしたサイト
参考にしたというより、そのまま、動かしただけ。
www.depends-on-the-definition.com
結果
環境
windows10
python3.7
モジュールのバージョン
numpy 1.19.2 scikit-learn 0.23.2 seqeval 1.1.1 tokenizers 0.5.2 torch 1.2.0+cpu transformers 2.6.0
時短のため、多少?、データを減らしたりしているので、その影響はあるかも。。。 ただ、Validationは、もう良くならない感じ。。。
Average train loss: 0.08474868331431437 Validation loss: 0.19457249017662098 Validation Accuracy: 0.9525395503746877 Validation F1-Score: 0.7423857868020304
構成
data = pd.read_csv("ner_dataset.csv", encoding="latin1").fillna(method="ffill")
tokenizer = BertTokenizer.from_pretrained('bert-base-cased', do_lower_case=False)
model = BertForTokenClassification.from_pretrained( "bert-base-cased",
↑これらで、雰囲気、わかるかな。。。