Extraindo Texto de Arquivos PDF com Python

On 10 de fevereiro de 2022, by Tiago Dias

Fala galerinha do mundo dos dados! Tudo bão por aí? Hoje vamos fazer a extração de textos em arquivos PDF. Temos uma lib Python, com o nome de Tika, que faz essa atividade com apenas duas linhas de código. Sério? Tá de brincadeira? Verdade, dessa forma, em poucas linhas de código já podemos fazer a análise dos textos de arquivos PDF com Python.

O que são Arquivos PDF?

O PDF (Portable Document Format) em tradução livre para português é formato de documento portável, a Adobe Systems iniciou o seu desenvolvimento. Seu objetivo é descrever em um único formato, documentos com texto, gráficos e imagens de forma independente do dispositivo ou sistema operacional.

Este é um formato de arquivo de padrão aberto (disponível para livre acesso e implementações) e utilizado de forma universal. Sendo assim, em algum dia você vai precisar ler informações de um arquivo PDF, o Python está aqui para te ajudar e o Dados ao Cubo te mostra como.

Biblioteca Python Tika

A biblioteca Tika é baseada no projeto Apache Tika™ (projeto open source para detectar e extrair metadados e texto de arquivos como PPT, XLS e PDF) e abstrai todo o processo, deixando simples e prático. Com ela podemos ler arquivos PDF com Python, de forma bem simples. Portanto já quem faremos a leitura do arquivos, então podemos extrair, manipular e gravar os dados do PDF com Python.

Tika ao Cubo

Para nossa atividade, geramos um arquivo PDF com o conteúdo da imagem abaixo. Com o objetivo de extrair os dados desse PDF com o Python através da biblioteca Tika. Isso mesmo iremos ler o PDF utilizando o Python!

Primeiramente, vamos instalar a biblioteca tika.

pip install tika

Em seguida, importaremos a função parser, que vai extrair uma série de informações do arquivo PDF, inclusive o conteúdo.

from tika import parser

Pode começar a contar as duas linhas de código! Linha 1, criada a variável raw para armazenar o conteúdo tipo dicionário, chamamos função parser.from_file, e passamos como parâmetro o arquivo PDF. Dessa forma que é feita a leitura do arquivo PDF.

raw = parser.from_file('pdf/sample.pdf')

Linha 2, localizamos no dicionário acima gerado o content, chave para o texto contido no PDF.

raw['content']

Na imagem a seguir o resultado da leitura do arquivo PDF com Python.

Texto extraído de arquivo PDF com Python

Wow! Duas linhas apenas e já temos o conteúdo do PDF extraído com Python, agora é só começar a diversão!

Arquivos PDF com Python ao Cubo

E por hoje é só! Python, sendo Python, mais simples impossível. Assim, conseguimos fazer a extração de textos em arquivos PDF com Python. Então, se gostou, compartilhe nosso conteúdo, se não, mande seu feedback para nós. O código completo no lá no GitHub, um abraço e até a próxima.

Conteúdos ao Cubo

Por fim, deixo sugestões de outros conteúdos que você vai encontrar no Dados ao Cubo, sempre trazendo um pouco do mundo dos dados.

Portanto, finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.

Tiago Dias

Apaixonado por dados e tecnologia ❤️ , criando soluções com dados 📊 📈 , desde 2015, sempre buscando tornar os processos orientados! Com formação em Engenharia da Computação 💾 , MBA Gestão da Informação e Business Intelligence e Especialização em Data Science.

Também atuo como professor na área de dados. Nas horas vagas crio modelos de Machine Learning 🤖 com Python em desafios do Kaggle e escrevo no Dados ao Cubo sobre o mundo dos dados 🎲 !

Compartilhando conhecimentos sempre 🚀

Gostou? Compartilhe!