Fala galerinha do mundo dos dados! Tudo bão por aí? Hoje vamos fazer a extração de textos em arquivos PDF. Temos uma lib Python, com o nome de Tika, que faz essa atividade com apenas duas linhas de código. Sério? Tá de brincadeira? Verdade, dessa forma, em poucas linhas de código já podemos fazer a análise dos textos de arquivos PDF com Python.
O que são Arquivos PDF?
O PDF (Portable Document Format) em tradução livre para português é formato de documento portável, a Adobe Systems iniciou o seu desenvolvimento. Seu objetivo é descrever em um único formato, documentos com texto, gráficos e imagens de forma independente do dispositivo ou sistema operacional.
Este é um formato de arquivo de padrão aberto (disponível para livre acesso e implementações) e utilizado de forma universal. Sendo assim, em algum dia você vai precisar ler informações de um arquivo PDF, o Python está aqui para te ajudar e o Dados ao Cubo te mostra como.
Biblioteca Python Tika
A biblioteca Tika é baseada no projeto Apache Tika™ (projeto open source para detectar e extrair metadados e texto de arquivos como PPT, XLS e PDF) e abstrai todo o processo, deixando simples e prático. Com ela podemos ler arquivos PDF com Python, de forma bem simples. Portanto já quem faremos a leitura do arquivos, então podemos extrair, manipular e gravar os dados do PDF com Python.
Tika ao Cubo
Para nossa atividade, geramos um arquivo PDF com o conteúdo da imagem abaixo. Com o objetivo de extrair os dados desse PDF com o Python através da biblioteca Tika. Isso mesmo iremos ler o PDF utilizando o Python!
Primeiramente, vamos instalar a biblioteca tika.
pip install tika
Em seguida, importaremos a função parser, que vai extrair uma série de informações do arquivo PDF, inclusive o conteúdo.
from tika import parser
Pode começar a contar as duas linhas de código! Linha 1, criada a variável raw para armazenar o conteúdo tipo dicionário, chamamos função parser.from_file, e passamos como parâmetro o arquivo PDF. Dessa forma que é feita a leitura do arquivo PDF.
raw = parser.from_file('pdf/sample.pdf')
Linha 2, localizamos no dicionário acima gerado o content, chave para o texto contido no PDF.
raw['content']
Na imagem a seguir o resultado da leitura do arquivo PDF com Python.
Wow! Duas linhas apenas e já temos o conteúdo do PDF extraído com Python, agora é só começar a diversão!
Arquivos PDF com Python ao Cubo
E por hoje é só! Python, sendo Python, mais simples impossível. Assim, conseguimos fazer a extração de textos em arquivos PDF com Python. Então, se gostou, compartilhe nosso conteúdo, se não, mande seu feedback para nós. O código completo no lá no GitHub, um abraço e até a próxima.
Conteúdos ao Cubo
Por fim, deixo sugestões de outros conteúdos que você vai encontrar no Dados ao Cubo, sempre trazendo um pouco do mundo dos dados.
- Entre Vieses e Causalidades: Como (não) ser Enganado pelos Dados
- Introdução à Gramática dos Gráficos com plotnine
- AutoML (Automated Machine Learning) com ML.Net
- Storytelling com Dash e Plotly
- Modelos em Produção com Streamlit
- Criar CRUD com Streamlit e o PostgreSQL
- Visualização de Dados com Bokeh Python
- Pipeline de Dados Airbyte com PostgreSQL
Portanto, finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.
Apaixonado por dados e tecnologia ❤️ , criando soluções com dados 📊 📈 , desde 2015, sempre buscando tornar os processos orientados! Com formação em Engenharia da Computação 💾 , MBA Gestão da Informação e Business Intelligence e Especialização em Data Science.
Também atuo como professor na área de dados. Nas horas vagas crio modelos de Machine Learning 🤖 com Python em desafios do Kaggle e escrevo no Dados ao Cubo sobre o mundo dos dados 🎲 !
Compartilhando conhecimentos sempre 🚀