Análise de Dados com Pandas Python

Análise de dados com Pandas

Fala galera do mundo dos dados! Se o Descartes dizia, “Penso, logo existo.”, podemos dizer… Pensamos em análise de dados, logo Python existe. Brincadeiras à parte, o Python é a linguagem de programação atualmente mais utilizada para análise de dados. E uma biblioteca que faz toda a diferença nesse universo é o Pandas. Então, nosso assunto de hoje é análise de dados com Pandas Python. Será que dá para fazer muita coisa com esse tal de Pandas? Ou só estamos falando de um bichinho fofo? 🐼? Chega mais e confere aqui o Pandas ao cubo. 🐼🚀🎲3️⃣!!!

A Biblioteca Pandas Python

O Pandas é uma das bibliotecas Python mais populares para análise de dados. Essa ferramenta robusta permite importar, manipular e analisar dados de diversas fontes. Neste post, vamos explorar as principais funções da biblioteca Pandas Python com exemplos de código e explicações detalhadas.

Formatos de Dados da Biblioteca Pandas Python

O Pandas oferece uma estrutura poderosa para lidar com dados tabulares, destacando-se pelas “Series” e “DataFrames”.

Series na Biblioteca Pandas

Uma “Series” é uma estrutura unidimensional que lembra uma coluna em uma planilha ou uma matriz em linguagens tradicionais. Composta por elementos de dados e rótulos de índice associados, as “Series” armazenam e manipulam dados unidimensionais eficientemente, aceitando diversos tipos, como números, texto e datas.

DataFrame na Biblioteca Pandas

O “DataFrame” é a estrela do Pandas, assemelhando-se a uma tabela de banco de dados ou planilha. Cada coluna em um “DataFrame” é uma “Series”, proporcionando um rótulo de índice exclusivo. Ideal para armazenar e analisar dados bidimensionais, o “DataFrame” oferece funcionalidades poderosas para limpeza, transformação, agregação e visualização de dados.

Em resumo, o Pandas fornece um ambiente robusto para trabalhar com dados, permitindo a você organizar, manipular e analisar informações de maneira eficaz. Sendo assim, faremos a importação dos dados nesse formato de dados da biblioteca pandas.

Importando Dados com Pandas Python

A primeira etapa da análise de dados é importar os dados para a sua análise. A biblioteca pandas oferece diversas funções para a importação de dados. Vamos conferir como executar algumas dessas funções.

Como importar a biblioteca Pandas Python?

# Importando a biblioteca pandas
import pandas as pd

Depois de importar a biblioteca pandas, faremos a leitura dos dados de diversas fontes. Para isso vamos utilizar a base de dados de exemplo da imagem abaixo. Assim, começamos com o arquivo CSV.

Como ler um arquivo CSV com o Pandas Python?

# Lendo dados de um arquivo CSV
df = pd.read_csv('example.csv', delimiter=';')
df.head(3)

Com a utilização da função read_csv, fazemos a importação dos dados e exibimos com a função head conforme a imagem abaixo.

Utilizando o mesmo conjunto de dados porém desta vez no formato xlsx.

Ler arquivo XLSX com o Pandas Python?

# Lendo dados de um arquivo Excel
df = pd.read_excel('example.xlsx')
df.head(3)

Agora utilizamos a função read_excel, realizando a importação dos dados e exibindo também com a função head conforme a imagem abaixo.

Para concluir a importação faremos a leitura desses dados a partir de um banco de dados do tipo sqlite. Na imagem abaixo é possível ver o select realizado no banco de dados, apresentando o dataset que será importado.

Fazer leitura de uma tabela do banco de dados SQLITE com o Pandas Python?

# Lendo dados de um banco de dados SQL
import sqlite3
con = sqlite3.connect('example.db')
df = pd.read_sql_query('SELECT * FROM clientes', con)
df.head(3)

Aqui primeiramente, criamos a conexão com o sqlite3 e sua função connect e em seguida, utilizamos a função read_sql_query, fazendo a importação dos dados através de uma consulta SQL simples e exibimos mais uma vez com a função head conforme a imagem abaixo.

Agora que já temos os dados importados, veremos algumas funções para fazer a manipulação dos mesmos

Manipulação de Dados com Pandas Python

Após importar os dados, é comum precisar manipulá-los de alguma forma. A biblioteca pandas oferece diversas funções para manipulação de dados. Confere na sequencia, algumas das principais funções para manipulação de dados.

Selecionar somente uma coluna do DataFrame Pandas?

Apenas informando o DataFrame e o nome da coluna.

# Selecionando uma coluna
coluna = df['nm_cliente']

Como selecionar várias colunas do DataFrame Pandas?

Aqui informamos o DataFrame e os nomes das colunas.

# Selecionando várias colunas
colunas = df[['cd_cliente','nm_cliente']]

Filtrar linhas do DataFrame Pandas?

Para filtrar linhas, informamos o DataFrame com a coluna e a condição de filtro, também é possível fazer de outras formas.

# Filtrando linhas
filtrado = df[df['cd_cliente'] > 14]

Como ordenar dados do DataFrame Pandas?

Temos a função sort_values que recebe a coluna para ordenação e o tipo (crescente ou decrescente).

# Ordenando os dados
ordenado = df.sort_values('cd_cliente',ascending=False)

Aplicar uma função em uma coluna do DataFrame Pandas?

Para funções temos o método apply, que permite aplicar funções em uma coluna ou em todo o DataFrame.

# Aplicando uma função a uma coluna
df['cd_cliente_new'] = df['cd_cliente'].apply(lambda x: x+1000)

Então, manipulações simples de dados apresentadas, podemos dar um passo adiante na análise de dados utilizando pandas.

Análise de Dados com Pandas Python

Uma vez que os dados estejam manipulados, é possível realizar a análise de dados propriamente dita. A biblioteca pandas oferece diversas funções para análise de dados. Portanto, conferimos algumas delas.

Gerar um resumo estatístico com o Pandas com a função describe?

Podemos visualizar um conjunto de métricas estatísticas no DataFrame com a função describe.

# Resumo estatístico dos dados
resumo = df.describe()

Realizar uma contagem de ocorrências com o Pandas?

Existe algumas formas para contar ocorrências, uma delas é com o value_counts.

# Contando o número de ocorrências de um valor
contagem = df['nm_cliente'].value_counts()

Calcular a correlação entre as colunas com o Pandas?

Dá para calcular a correlações entre as variáveis numéricas do DataFrame através da função corr.

# Calculando a correlação entre colunas
correlacao = df.corr()

Realizar agrupamentos de dados com o Pandas?

Também podemos agrupar os dados utilizando a função groupby.

# Agrupando dados
agrupado = df.groupby('cd_cliente').mean()

E não pense que para por aí, o pandas permite também criar algumas visualizações de dados simples.

Visualização de Dados com Pandas Python

Por fim, é possível visualizar os dados de forma mais clara e intuitiva. A biblioteca pandas oferece algumas funções para visualização de dados, mas a biblioteca mais comumente utilizada é a matplotlib. Em seguida algumas visualização de dados da biblioteca pandas.

Criar um gráfico de barras com o Pandas?

A função bar, gera um gráfico de barras no Pandas informando as variáveis x e y.

# Gráfico de barras
df.plot.bar(x='nm_cliente', y='cd_cliente');

Fazer um gráfico de dispersão com o Pandas?

Aqui usamos a função scatter, para um gráfico de dispersão no Pandas também informando as variáveis x e y.

# Gráfico de dispersão
df.plot.scatter(x='cd_cliente', y='cd_cliente_new');

Plotar um gráfico de linha com o Pandas?

Para fechar, o gráfico de linhas com a função line.

# Gráfico de linha
df.plot.line(x='nm_cliente', y='cd_cliente')

E assim, temos uma visão geral da análise de dados com Pandas.

Pandas Python ao Cubo

A biblioteca pandas Python é uma ferramenta poderosa para análise de dados. Sendo assim, apresentamos as principais funções da biblioteca pandas com exemplos de código e uma explicação detalhada. Com Pandas, você pode importar, manipular, analisar e visualizar dados de forma eficiente e produtiva. Para mais conteúdo sobre a biblioteca Pandas, confere aqui no Dados ao Cubo a Análise Exploratória de Dados com Python Parte I, Análise Exploratória de Dados com Python Parte II e Manipular Dados no MySQL com Pandas.

E então, está é uma das diversas bibliotecas Python para análise de dados. Na sequência, o Dados ao Cubo trará algumas outras bibliotecas para você que está começando no mundo de análise de dados com Python. Então, fica ligado aqui nas novidades com a nossa Newsletter. Um abraço e até a próxima!!!

Conteúdos ao Cubo

Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode encontrar. Sempre falando sobre o mundo dos dados!

Portanto, finalizo com um convite para você se tornar um expert em análise de dados seja Parceiro de Publicação Dados ao Cubo e escreva o próximo artigo, compartilhando conhecimento para toda a comunidade de dados.

Tiago Dias

Apaixonado por dados e tecnologia ❤️ , criando soluções com dados 📊 📈 , desde 2015, sempre buscando tornar os processos orientados! Com formação em Engenharia da Computação 💾 , MBA Gestão da Informação e Business Intelligence e Especialização em Data Science.

Também atuo como professor na área de dados. Nas horas vagas crio modelos de Machine Learning 🤖 com Python em desafios do Kaggle e escrevo no Dados ao Cubo sobre o mundo dos dados 🎲 !

Compartilhando conhecimentos sempre 🚀