Análise de Dados com Pandas Python

On 9 de maio de 2023, by Tiago Dias

Fala galera do mundo dos dados! Se o Descartes dizia, “Penso, logo existo.”, podemos dizer… Pensamos em análise de dados, logo Python existe. Brincadeiras à parte, o Python é a linguagem de programação atualmente mais utilizada para análise de dados. E uma biblioteca que faz toda a diferença nesse universo é o Pandas. Então, nosso assunto de hoje é análise de dados com Pandas Python. Será que dá para fazer muita coisa com esse tal de Pandas? Ou só estamos falando de um bichinho fofo? 🐼? Chega mais e confere aqui o Pandas ao cubo. 🐼🚀🎲3️⃣!!!

A Biblioteca Pandas Python

O Pandas é uma das bibliotecas Python mais populares para análise de dados. Essa ferramenta robusta permite importar, manipular e analisar dados de diversas fontes. Neste post, vamos explorar as principais funções da biblioteca Pandas Python com exemplos de código e explicações detalhadas.

Formatos de Dados da Biblioteca Pandas Python

O Pandas oferece uma estrutura poderosa para lidar com dados tabulares, destacando-se pelas “Series” e “DataFrames”.

Series na Biblioteca Pandas

Uma “Series” é uma estrutura unidimensional que lembra uma coluna em uma planilha ou uma matriz em linguagens tradicionais. Composta por elementos de dados e rótulos de índice associados, as “Series” armazenam e manipulam dados unidimensionais eficientemente, aceitando diversos tipos, como números, texto e datas.

DataFrame na Biblioteca Pandas

O “DataFrame” é a estrela do Pandas, assemelhando-se a uma tabela de banco de dados ou planilha. Cada coluna em um “DataFrame” é uma “Series”, proporcionando um rótulo de índice exclusivo. Ideal para armazenar e analisar dados bidimensionais, o “DataFrame” oferece funcionalidades poderosas para limpeza, transformação, agregação e visualização de dados.

Em resumo, o Pandas fornece um ambiente robusto para trabalhar com dados, permitindo a você organizar, manipular e analisar informações de maneira eficaz. Sendo assim, faremos a importação dos dados nesse formato de dados da biblioteca pandas.

Importando Dados com Pandas Python

A primeira etapa da análise de dados é importar os dados para a sua análise. A biblioteca pandas oferece diversas funções para a importação de dados. Vamos conferir como executar algumas dessas funções.

Como importar a biblioteca Pandas Python?

# Importando a biblioteca pandas
import pandas as pd

Depois de importar a biblioteca pandas, faremos a leitura dos dados de diversas fontes. Para isso vamos utilizar a base de dados de exemplo da imagem abaixo. Assim, começamos com o arquivo CSV.

Como ler um arquivo CSV com o Pandas Python?

# Lendo dados de um arquivo CSV
df = pd.read_csv('example.csv', delimiter=';')
df.head(3)

Com a utilização da função read_csv, fazemos a importação dos dados e exibimos com a função head conforme a imagem abaixo.

Utilizando o mesmo conjunto de dados porém desta vez no formato xlsx.

Ler arquivo XLSX com o Pandas Python?

# Lendo dados de um arquivo Excel
df = pd.read_excel('example.xlsx')
df.head(3)

Agora utilizamos a função read_excel, realizando a importação dos dados e exibindo também com a função head conforme a imagem abaixo.

Para concluir a importação faremos a leitura desses dados a partir de um banco de dados do tipo sqlite. Na imagem abaixo é possível ver o select realizado no banco de dados, apresentando o dataset que será importado.

Fazer leitura de uma tabela do banco de dados SQLITE com o Pandas Python?

# Lendo dados de um banco de dados SQL
import sqlite3
con = sqlite3.connect('example.db')
df = pd.read_sql_query('SELECT * FROM clientes', con)
df.head(3)

Aqui primeiramente, criamos a conexão com o sqlite3 e sua função connect e em seguida, utilizamos a função read_sql_query, fazendo a importação dos dados através de uma consulta SQL simples e exibimos mais uma vez com a função head conforme a imagem abaixo.

Agora que já temos os dados importados, veremos algumas funções para fazer a manipulação dos mesmos

Manipulação de Dados com Pandas Python

Após importar os dados, é comum precisar manipulá-los de alguma forma. A biblioteca pandas oferece diversas funções para manipulação de dados. Confere na sequencia, algumas das principais funções para manipulação de dados.

Selecionar somente uma coluna do DataFrame Pandas?

Apenas informando o DataFrame e o nome da coluna.

# Selecionando uma coluna
coluna = df['nm_cliente']

Como selecionar várias colunas do DataFrame Pandas?

Aqui informamos o DataFrame e os nomes das colunas.

# Selecionando várias colunas
colunas = df[['cd_cliente','nm_cliente']]

Filtrar linhas do DataFrame Pandas?

Para filtrar linhas, informamos o DataFrame com a coluna e a condição de filtro, também é possível fazer de outras formas.

# Filtrando linhas
filtrado = df[df['cd_cliente'] > 14]

Como ordenar dados do DataFrame Pandas?

Temos a função sort_values que recebe a coluna para ordenação e o tipo (crescente ou decrescente).

# Ordenando os dados
ordenado = df.sort_values('cd_cliente',ascending=False)

Aplicar uma função em uma coluna do DataFrame Pandas?

Para funções temos o método apply, que permite aplicar funções em uma coluna ou em todo o DataFrame.

# Aplicando uma função a uma coluna
df['cd_cliente_new'] = df['cd_cliente'].apply(lambda x: x+1000)

Então, manipulações simples de dados apresentadas, podemos dar um passo adiante na análise de dados utilizando pandas.

Análise de Dados com Pandas Python

Uma vez que os dados estejam manipulados, é possível realizar a análise de dados propriamente dita. A biblioteca pandas oferece diversas funções para análise de dados. Portanto, conferimos algumas delas.

Gerar um resumo estatístico com o Pandas com a função describe?

Podemos visualizar um conjunto de métricas estatísticas no DataFrame com a função describe.

# Resumo estatístico dos dados
resumo = df.describe()

Realizar uma contagem de ocorrências com o Pandas?

Existe algumas formas para contar ocorrências, uma delas é com o value_counts.

# Contando o número de ocorrências de um valor
contagem = df['nm_cliente'].value_counts()

Calcular a correlação entre as colunas com o Pandas?

Dá para calcular a correlações entre as variáveis numéricas do DataFrame através da função corr.

# Calculando a correlação entre colunas
correlacao = df.corr()

Realizar agrupamentos de dados com o Pandas?

Também podemos agrupar os dados utilizando a função groupby.

# Agrupando dados
agrupado = df.groupby('cd_cliente').mean()

E não pense que para por aí, o pandas permite também criar algumas visualizações de dados simples.

Visualização de Dados com Pandas Python

Por fim, é possível visualizar os dados de forma mais clara e intuitiva. A biblioteca pandas oferece algumas funções para visualização de dados, mas a biblioteca mais comumente utilizada é a matplotlib. Em seguida algumas visualização de dados da biblioteca pandas.

Criar um gráfico de barras com o Pandas?

A função bar, gera um gráfico de barras no Pandas informando as variáveis x e y.

# Gráfico de barras
df.plot.bar(x='nm_cliente', y='cd_cliente');

Fazer um gráfico de dispersão com o Pandas?

Aqui usamos a função scatter, para um gráfico de dispersão no Pandas também informando as variáveis x e y.

# Gráfico de dispersão
df.plot.scatter(x='cd_cliente', y='cd_cliente_new');

Plotar um gráfico de linha com o Pandas?

Para fechar, o gráfico de linhas com a função line.

# Gráfico de linha
df.plot.line(x='nm_cliente', y='cd_cliente')

E assim, temos uma visão geral da análise de dados com Pandas.

Pandas Python ao Cubo

A biblioteca pandas Python é uma ferramenta poderosa para análise de dados. Sendo assim, apresentamos as principais funções da biblioteca pandas com exemplos de código e uma explicação detalhada. Com Pandas, você pode importar, manipular, analisar e visualizar dados de forma eficiente e produtiva. Para mais conteúdo sobre a biblioteca Pandas, confere aqui no Dados ao Cubo a Análise Exploratória de Dados com Python Parte I, Análise Exploratória de Dados com Python Parte II e Manipular Dados no MySQL com Pandas.

E então, está é uma das diversas bibliotecas Python para análise de dados. Na sequência, o Dados ao Cubo trará algumas outras bibliotecas para você que está começando no mundo de análise de dados com Python. Então, fica ligado aqui nas novidades com a nossa Newsletter. Um abraço e até a próxima!!!

Conteúdos ao Cubo

Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode encontrar. Sempre falando sobre o mundo dos dados!

Portanto, finalizo com um convite para você se tornar um expert em análise de dados seja Parceiro de Publicação Dados ao Cubo e escreva o próximo artigo, compartilhando conhecimento para toda a comunidade de dados.

Tiago Dias

Apaixonado por dados e tecnologia ❤️ , criando soluções com dados 📊 📈 , desde 2015, sempre buscando tornar os processos orientados! Com formação em Engenharia da Computação 💾 , MBA Gestão da Informação e Business Intelligence e Especialização em Data Science.

Também atuo como professor na área de dados. Nas horas vagas crio modelos de Machine Learning 🤖 com Python em desafios do Kaggle e escrevo no Dados ao Cubo sobre o mundo dos dados 🎲 !

Compartilhando conhecimentos sempre 🚀

Gostou? Compartilhe!

Análise de Dados com Pandas Python

A Biblioteca Pandas Python

Formatos de Dados da Biblioteca Pandas Python

Series na Biblioteca Pandas

DataFrame na Biblioteca Pandas

Importando Dados com Pandas Python

Manipulação de Dados com Pandas Python

Análise de Dados com Pandas Python

Visualização de Dados com Pandas Python

Pandas Python ao Cubo

Conteúdos ao Cubo

1 Comment

José Hilário Alves Neto

Deixe um comentário Cancelar resposta

Análise de Dados com Pandas Python

A Biblioteca Pandas Python

Formatos de Dados da Biblioteca Pandas Python

Series na Biblioteca Pandas

DataFrame na Biblioteca Pandas

Importando Dados com Pandas Python

Manipulação de Dados com Pandas Python

Análise de Dados com Pandas Python

Visualização de Dados com Pandas Python

Pandas Python ao Cubo

Conteúdos ao Cubo

1 Comment

Deixe um comentário Cancelar resposta

Fique conectado