Extração de tabelas a partir de imagens


(Rogerio Bromfman) #1

Bom dia pessoal,

Como parte de um projeto maior, estou montando uma rotina em Python para extrair tabelas a partir de imagens de extratos bancários e documentos similares. Tenho boa parte já feita, mas seria ótimo se tivessem mais cabeças pensando comigo.

Estou usando o OCR do Google Cloud Vision, que retorna um JSON com o texto. A partir daí estou escrevendo rotinas para identificar as linhas e depois as colunas das tabelas.

O código ainda não está no GitHub, mas coloco lá se tivermos um time pra trabalhar nisso.

Obrigado!

Rogerio


(Christian S. Perone) #2

Legal o projeto @rogerio, obrigado por postar ! Eu trabalhei com algo similar no passado. Você já tentou usar o Tesseract (open-source) ao invés da API do Google ? Recentemente o próprio google investiu para modernizar os modelos do tesseract e eles estão utilizando uma LSTM + beam search, mas a principal vantagem é que você pode treinar com teus dados e conseguir provavelmente resultados melhores que a API cloud, dado que você faria fine-tuning com teus dados de fato, algo que provavelmente não conseguiria fazer com a API cloud.


(Rogerio Bromfman) #3

Eu instalei o tesseract hoje mais cedo na máquina. Vou estudá-lo. O OCR do Google realmente deixa um pouco a desejar, principalmente na forma que ele quebra o documento em blocos. Fica difícil até de organizar o texto em linhas. Talvez com o tesseract eu consiga extrair os dados de forma mais organizada, e daí transformar em tabela fique mais simples. Obrigado pela dica!


(Luciano Martins) #4

O turicas tem um módulo q deve ajudar…pip install rows…