Olá David.

Source: Deep Learning on Medium

Olá David.

Muito obrigado pelo seu comentário. Você está certo!

Eu tinha esquecido que o tokenizer SentencePiece treina um modelo de linguagem por si para encontrar as subpalavras mais prováveis ​​para o corpus usado (veja esta vídeo).

Foi a ocasião de assistir de novo aos vídeos do Jeremy Howard (fastai) sobre esse assunto. Coloco em baixo os links para as pessoas que gostariam de entender melhor o que é o tokenizer SentencePiece.

Portanto, treinei novamente o LM e o classificador no conjunto de dados de jurisprudência do TCU e obtivi melhores resultados: acurácia do classificador de 97.95% em vez de 97.39% 🙂

Eu já atualizei o post, o caderno lm3-portuguese-classifier-TCU-jurisprudencia.ipynb (nbviewer) e o link para o arquivo tgz no diretório models do meu github.

Links sobre o SentencePiece:

  • Neste vídeo, ele explica porque precisamos de usar as vezes um tokenizer como o SentencePiece e não spaCy por exemplo.
  • Neste vídeo, ele explica porque temos de usar de volta o modelo e o vocabulário criados pelo SentencePiece durante a criação do databunch do modelo geral de linguagem e que código usar.
  • SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (2018)
  • unigram model