Fala galera do mundo dos dados! Se o Descartes dizia, “Penso, logo existo.”, podemos dizer… Pensamos em análise de dados, logo Python existe. Brincadeiras à parte, o Python é a linguagem de programação atualmente mais utilizada para análise de dados. E uma biblioteca bem importante para isso é o Pandas. Então, nosso assunto de hoje é análise de dados com Pandas Python. Será que dá para fazer muita coisa com esse tal de Pandas? Ou só estamos falando de um bichinho fofo? 🐼? Chega mais e confere aqui o Pandas ao cubo. 🐼🚀🎲3️⃣!!!
A Biblioteca Pandas Python
A biblioteca pandas é uma das bibliotecas Python mais populares para análise de dados. Com ela, é possível importar, manipular e analisar dados de diversas fontes diferentes. Neste post, apresentaremos as principais funções da biblioteca pandas Python com exemplos de código e uma explicação detalhada.
Formatos de Dados da Biblioteca Pandas Python
A biblioteca Pandas, uma das mais populares para manipulação e análise de dados em Python, oferece uma estrutura poderosa para lidar com dados tabulares. Assim, dois dos principais componentes dessa estrutura são as “Series” e os “DataFrames”.
Series na Biblioteca Pandas
Uma “Series” no Pandas é uma estrutura unidimensional que se assemelha a uma coluna em uma planilha ou a uma matriz em uma linguagem de programação tradicional. Ela é composta por um conjunto de elementos de dados e um rótulo associado a cada elemento, chamado de “índice”. As “Series” são utilizadas para armazenar e manipular dados unidimensionais de forma eficiente, e podem conter uma variedade de tipos de dados, como números, texto ou datas.
DataFrame na Biblioteca Pandas
O “DataFrame” é a estrutura de dados mais versátil do Pandas. Ele se assemelha a uma tabela em um banco de dados ou a uma planilha com linhas e colunas. Cada coluna de um “DataFrame” é uma “Series” e, portanto, possui um rótulo de índice exclusivo. Os “DataFrames” são ideais para armazenar e analisar dados bidimensionais, como conjuntos de dados tabulares. Eles oferecem uma ampla gama de funcionalidades para realizar operações de limpeza, transformação, agregação e visualização de dados.
Em resumo, o Pandas fornece um ambiente robusto para trabalhar com dados, permitindo a você organizar, manipular e analisar informações de maneira eficaz. Sendo assim, faremos a importação dos dados nesse formato de dados da biblioteca pandas.
Importando Dados com Pandas Python
A primeira etapa da análise de dados é importar os dados para a sua análise. A biblioteca pandas oferece diversas funções para a importação de dados. Vamos conferir como executar algumas dessas funções.
Como importar a biblioteca Pandas Python?
# Importando a biblioteca pandas import pandas as pd
Depois de importar a biblioteca pandas, faremos a leitura dos dados. Para isso vamos utilizar a base de dados de exemplo da imagem abaixo. Assim, começamos com o arquivo CSV.

Como ler um arquivo CSV com o Pandas Python?
# Lendo dados de um arquivo CSV df = pd.read_csv('example.csv', delimiter=';') df.head(3)
Com a utilização da função read_csv, fazemos a importação dos dados e exibimos com a função head conforme a imagem abaixo.

Utilizando o mesmo conjunto de dados porém desta vez no formato xlsx.

Ler arquivo XLSX com o Pandas Python?
# Lendo dados de um arquivo Excel df = pd.read_excel('example.xlsx') df.head(3)
Agora utilizamos a função read_excel, realizando a importação dos dados e exibindo também com a função head conforme a imagem abaixo.

Para concluir a importação faremos a leitura desses dados a partir de um banco de dados do tipo sqlite. Na imagem abaixo é possível ver o select realizado no banco de dados, apresentando o dataset que será importado.

Fazer leitura de uma tabela do banco de dados SQLITE com o Pandas Python?
# Lendo dados de um banco de dados SQL import sqlite3 con = sqlite3.connect('example.db') df = pd.read_sql_query('SELECT * FROM clientes', con) df.head(3)
Aqui primeiramente, criamos a conexão com o sqlite3 e sua função connect e em seguida, utilizamos a função read_sql_query, fazendo a importação dos dados através de uma consulta SQL simples e exibimos mais uma vez com a função head conforme a imagem abaixo.

Agora que já temos os dados importados, veremos algumas funções para fazer a manipulação dos mesmos
Manipulação de Dados com Pandas Python
Após importar os dados, é comum precisar manipulá-los de alguma forma. A biblioteca pandas oferece diversas funções para manipulação de dados. Confere na sequencia, algumas das principais funções para manipulação de dados.
Selecionar somente uma coluna do dataframe Pandas?
# Selecionando uma coluna coluna = df['nm_cliente']
Como selecionar várias colunas do dataframe Pandas?
# Selecionando várias colunas colunas = df[['cd_cliente','nm_cliente']]
Filtrar linhas do dataframe Pandas?
# Filtrando linhas filtrado = df[df['cd_cliente'] > 14]
Como ordenar dados do dataframe Pandas?
# Ordenando os dados ordenado = df.sort_values('cd_cliente',ascending=False)
Aplicar uma função em uma coluna do dataframe Pandas?
# Aplicando uma função a uma coluna df['cd_cliente_new'] = df['cd_cliente'].apply(lambda x: x+1000)
Então, manipulações simples de dados apresentadas, uma introdução da análise de dados utilizando pandas.
Análise de Dados com Pandas Python
Uma vez que os dados estejam manipulados, é possível realizar a análise de dados propriamente dita. A biblioteca pandas oferece diversas funções para análise de dados. Portanto, conferimos algumas delas.
Gerar um resumo estatístico com o Pandas com a função describe?
# Resumo estatístico dos dados resumo = df.describe()
Realizar uma contagem de ocorrências com o Pandas?
# Contando o número de ocorrências de um valor contagem = df['nm_cliente'].value_counts()
Calcular a correlação entre as colunas com o Pandas?
# Calculando a correlação entre colunas correlacao = df.corr()
Realizar agrupamentos de dados com o Pandas?
# Agrupando dados agrupado = df.groupby('cd_cliente').mean()
E não pense que para por aí, o pandas permite também criar algumas visualizações de dados.
Visualização de Dados com Pandas Python
Por fim, é possível visualizar os dados de forma mais clara e intuitiva. A biblioteca pandas oferece algumas funções para visualização de dados, mas a biblioteca mais comumente utilizada é a matplotlib. Em seguida algumas visualização de dados da biblioteca pandas.
Criar um gráfico de barras com o Pandas?
# Gráfico de barras df.plot.bar(x='nm_cliente', y='cd_cliente');

Fazer um gráfico de dispersão com o Pandas?
# Gráfico de dispersão df.plot.scatter(x='cd_cliente', y='cd_cliente_new');

Plotar um gráfico de linha com o Pandas?
# Gráfico de linha df.plot.line(x='nm_cliente', y='cd_cliente')

Essa é uma pequena demonstração da análise de dados com Pandas.
Pandas Python ao Cubo
A biblioteca pandas Python é uma ferramenta poderosa para análise de dados. Neste post, apresentamos as principais funções da biblioteca pandas com exemplos de código e uma explicação detalhada. Com essas funções, é possível importar, manipular, analisar e visualizar dados de forma eficiente e produtiva. Para mais conteúdo sobre a biblioteca Pandas, confere aqui no Dados ao Cubo a Análise Exploratória de Dados com Python Parte I, Análise Exploratória de Dados com Python Parte II e Manipular Dados no MySQL com Pandas.
E então, está é uma das diversas bibliotecas Python para análise de dados. Na sequência, o Dados ao Cubo trará algumas outras bibliotecas para você que está começando no mundo de análise de dados com Python. Então, fica ligado aqui nas novidades com a nossa Newsletter. Um abraço e até a próxima!!!
Conteúdos ao Cubo
Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode encontrar. Sempre falando sobre o mundo dos dados!
- Time de Dados na Prática
- Etapas para Análise de Dados
- Tipos de Análise de Dados
- Dicas para Visualização de Dados
- Análise de Dados com Airbyte e Metabase
- Importar CSV no PostgreSQL com o DBeaver
- O Guia do XGBoost com Python
- Como Criar um Chatbot com Rasa Open Source
Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados.

Baiano, apaixonado por dados e tecnologia, amante das inovações tecnológicas que facilitam a vida humana! Formado em Engenharia da Computação e com MBA em Gestão da Informação e Business Intelligence e especialização em Data Science. Atualmente atua como Data Tech Lead na Lopes, além de Professor na área de dados e nas horas vagas cria uns modelos de Machine Learning com Python e soluções diversas com dados!
1 Comment
José Hilário Alves Neto
17 de julho de 2023Excelente resumo sobre Pandas