Fala galera do mundo dos dados! Se o Descartes dizia, “Penso, logo existo.”, podemos dizer… Pensamos em análise de dados, logo Python existe. Brincadeiras à parte, o Python é a linguagem de programação atualmente mais utilizada para análise de dados. E uma biblioteca que faz toda a diferença nesse universo é o Pandas. Então, nosso assunto de hoje é análise de dados com Pandas Python. Será que dá para fazer muita coisa com esse tal de Pandas? Ou só estamos falando de um bichinho fofo? 🐼? Chega mais e confere aqui o Pandas ao cubo. 🐼🚀🎲3️⃣!!!
O Pandas é uma das bibliotecas Python mais populares para análise de dados. Essa ferramenta robusta permite importar, manipular e analisar dados de diversas fontes. Neste post, vamos explorar as principais funções da biblioteca Pandas Python com exemplos de código e explicações detalhadas.
O Pandas oferece uma estrutura poderosa para lidar com dados tabulares, destacando-se pelas “Series” e “DataFrames”.
Uma “Series” é uma estrutura unidimensional que lembra uma coluna em uma planilha ou uma matriz em linguagens tradicionais. Composta por elementos de dados e rótulos de índice associados, as “Series” armazenam e manipulam dados unidimensionais eficientemente, aceitando diversos tipos, como números, texto e datas.
O “DataFrame” é a estrela do Pandas, assemelhando-se a uma tabela de banco de dados ou planilha. Cada coluna em um “DataFrame” é uma “Series”, proporcionando um rótulo de índice exclusivo. Ideal para armazenar e analisar dados bidimensionais, o “DataFrame” oferece funcionalidades poderosas para limpeza, transformação, agregação e visualização de dados.
Em resumo, o Pandas fornece um ambiente robusto para trabalhar com dados, permitindo a você organizar, manipular e analisar informações de maneira eficaz. Sendo assim, faremos a importação dos dados nesse formato de dados da biblioteca pandas.
A primeira etapa da análise de dados é importar os dados para a sua análise. A biblioteca pandas oferece diversas funções para a importação de dados. Vamos conferir como executar algumas dessas funções.
Como importar a biblioteca Pandas Python?
# Importando a biblioteca pandas import pandas as pd
Depois de importar a biblioteca pandas, faremos a leitura dos dados de diversas fontes. Para isso vamos utilizar a base de dados de exemplo da imagem abaixo. Assim, começamos com o arquivo CSV.
Como ler um arquivo CSV com o Pandas Python?
# Lendo dados de um arquivo CSV df = pd.read_csv('example.csv', delimiter=';') df.head(3)
Com a utilização da função read_csv, fazemos a importação dos dados e exibimos com a função head conforme a imagem abaixo.
Utilizando o mesmo conjunto de dados porém desta vez no formato xlsx.
Ler arquivo XLSX com o Pandas Python?
# Lendo dados de um arquivo Excel df = pd.read_excel('example.xlsx') df.head(3)
Agora utilizamos a função read_excel, realizando a importação dos dados e exibindo também com a função head conforme a imagem abaixo.
Para concluir a importação faremos a leitura desses dados a partir de um banco de dados do tipo sqlite. Na imagem abaixo é possível ver o select realizado no banco de dados, apresentando o dataset que será importado.
Fazer leitura de uma tabela do banco de dados SQLITE com o Pandas Python?
# Lendo dados de um banco de dados SQL import sqlite3 con = sqlite3.connect('example.db') df = pd.read_sql_query('SELECT * FROM clientes', con) df.head(3)
Aqui primeiramente, criamos a conexão com o sqlite3 e sua função connect e em seguida, utilizamos a função read_sql_query, fazendo a importação dos dados através de uma consulta SQL simples e exibimos mais uma vez com a função head conforme a imagem abaixo.
Agora que já temos os dados importados, veremos algumas funções para fazer a manipulação dos mesmos
Após importar os dados, é comum precisar manipulá-los de alguma forma. A biblioteca pandas oferece diversas funções para manipulação de dados. Confere na sequencia, algumas das principais funções para manipulação de dados.
Selecionar somente uma coluna do DataFrame Pandas?
Apenas informando o DataFrame e o nome da coluna.
# Selecionando uma coluna coluna = df['nm_cliente']
Como selecionar várias colunas do DataFrame Pandas?
Aqui informamos o DataFrame e os nomes das colunas.
# Selecionando várias colunas colunas = df[['cd_cliente','nm_cliente']]
Filtrar linhas do DataFrame Pandas?
Para filtrar linhas, informamos o DataFrame com a coluna e a condição de filtro, também é possível fazer de outras formas.
# Filtrando linhas filtrado = df[df['cd_cliente'] > 14]
Como ordenar dados do DataFrame Pandas?
Temos a função sort_values que recebe a coluna para ordenação e o tipo (crescente ou decrescente).
# Ordenando os dados ordenado = df.sort_values('cd_cliente',ascending=False)
Aplicar uma função em uma coluna do DataFrame Pandas?
Para funções temos o método apply, que permite aplicar funções em uma coluna ou em todo o DataFrame.
# Aplicando uma função a uma coluna df['cd_cliente_new'] = df['cd_cliente'].apply(lambda x: x+1000)
Então, manipulações simples de dados apresentadas, podemos dar um passo adiante na análise de dados utilizando pandas.
Uma vez que os dados estejam manipulados, é possível realizar a análise de dados propriamente dita. A biblioteca pandas oferece diversas funções para análise de dados. Portanto, conferimos algumas delas.
Gerar um resumo estatístico com o Pandas com a função describe?
Podemos visualizar um conjunto de métricas estatísticas no DataFrame com a função describe.
# Resumo estatístico dos dados resumo = df.describe()
Realizar uma contagem de ocorrências com o Pandas?
Existe algumas formas para contar ocorrências, uma delas é com o value_counts.
# Contando o número de ocorrências de um valor contagem = df['nm_cliente'].value_counts()
Calcular a correlação entre as colunas com o Pandas?
Dá para calcular a correlações entre as variáveis numéricas do DataFrame através da função corr.
# Calculando a correlação entre colunas correlacao = df.corr()
Realizar agrupamentos de dados com o Pandas?
Também podemos agrupar os dados utilizando a função groupby.
# Agrupando dados agrupado = df.groupby('cd_cliente').mean()
E não pense que para por aí, o pandas permite também criar algumas visualizações de dados simples.
Por fim, é possível visualizar os dados de forma mais clara e intuitiva. A biblioteca pandas oferece algumas funções para visualização de dados, mas a biblioteca mais comumente utilizada é a matplotlib. Em seguida algumas visualização de dados da biblioteca pandas.
Criar um gráfico de barras com o Pandas?
A função bar, gera um gráfico de barras no Pandas informando as variáveis x e y.
# Gráfico de barras df.plot.bar(x='nm_cliente', y='cd_cliente');
Fazer um gráfico de dispersão com o Pandas?
Aqui usamos a função scatter, para um gráfico de dispersão no Pandas também informando as variáveis x e y.
# Gráfico de dispersão df.plot.scatter(x='cd_cliente', y='cd_cliente_new');
Plotar um gráfico de linha com o Pandas?
Para fechar, o gráfico de linhas com a função line.
# Gráfico de linha df.plot.line(x='nm_cliente', y='cd_cliente')
E assim, temos uma visão geral da análise de dados com Pandas.
A biblioteca pandas Python é uma ferramenta poderosa para análise de dados. Sendo assim, apresentamos as principais funções da biblioteca pandas com exemplos de código e uma explicação detalhada. Com Pandas, você pode importar, manipular, analisar e visualizar dados de forma eficiente e produtiva. Para mais conteúdo sobre a biblioteca Pandas, confere aqui no Dados ao Cubo a Análise Exploratória de Dados com Python Parte I, Análise Exploratória de Dados com Python Parte II e Manipular Dados no MySQL com Pandas.
E então, está é uma das diversas bibliotecas Python para análise de dados. Na sequência, o Dados ao Cubo trará algumas outras bibliotecas para você que está começando no mundo de análise de dados com Python. Então, fica ligado aqui nas novidades com a nossa Newsletter. Um abraço e até a próxima!!!
Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode encontrar. Sempre falando sobre o mundo dos dados!
Portanto, finalizo com um convite para você se tornar um expert em análise de dados seja Parceiro de Publicação Dados ao Cubo e escreva o próximo artigo, compartilhando conhecimento para toda a comunidade de dados.
Apaixonado por dados e tecnologia ❤️ , criando soluções com dados 📊 📈 , desde 2015, sempre buscando tornar os processos orientados! Com formação em Engenharia da Computação 💾 , MBA Gestão da Informação e Business Intelligence e Especialização em Data Science.
Também atuo como professor na área de dados. Nas horas vagas crio modelos de Machine Learning 🤖 com Python em desafios do Kaggle e escrevo no Dados ao Cubo sobre o mundo dos dados 🎲 !
Compartilhando conhecimentos sempre 🚀
Fala Galera do mundo dos dados, hora de manipular dados no MongoDB com Python. Dessa…
Fala Galera do mundo dos dados, hora de manipular dados no Cassandra com Python. Dessa…
Fala galera do mundo dos dados, hoje é dia de aprender a função Select do Spark.…
Fala galera do mundo dos dados, hoje é dia de transformar consultas SQL em visualizações…
Fala galera do mundo dos dados, dando continuidade às consultas de banco de dados com…
Fala galera do mundo dos dados, hora de conhecer os bancos de dados NoSQL com…
View Comments
Excelente resumo sobre Pandas