Pré Processamento e Limpeza de textos


(Andre Emidio) #1

Esse tópico tem o objetivo de demonstrar técnicas de pré processamento de textos, que são muito importantes para NLP


(Abelardo Vieira Mota) #2

A lib Python textacy tem um módulo de pré processamento de texto: https://chartbeat-labs.github.io/textacy/api_reference.html#module-textacy.preprocess


(Christian S. Perone) #3

Legal @abevieiramota, não conhecia essa e parece ser muito boa, valeu pelo link. Tem outras duas que uso bastante também, a NLTK e o Spacy, a Spacy tem uma abstração muito boa de pipelines como o scikit-learn e também tem alguns modelos para português.


(Abelardo Vieira Mota) #4

Pois é, a textacy é escrita em cima da Spacy! Tem features como geração de n-grams, remoção de pontuação etc. Nesse notebook eu pus exemplos de algumas features: http://nbviewer.jupyter.org/github/abevieiramota/learning-spacy/blob/master/0%20-%20Spacy.ipynb#Textacy