Business Intelligence Data Analytics Data Science Estatística Python

Visualização de Dados com Matplotlib Python

visualização de dados com Matplotlib

Fala galera do mundo dos dados! A linguagem Python é muito utilizada para análise de dados. 📊🚀🎲3️⃣📈. Aqui vou mostrar como criar visualização de dados com Matplotlib Python, umas das 5 libs apresentadas no artigo bibliotecas para visualização de dados em Python.

Você vai aprender a gerar os principais gráficos para visualização de dados com Matplotlib:

  1. Gráfico de Barra
  2. Gráfico de Linha
  3. Gráfico de Área
  4. Gráfico de Pizza
  5. Gráfico de Dispersão
  6. Gráfico de Caixa
  7. Gráfico Histograma

E então chegou a hora de criar as visualizações de dados ao cubo. Para começar faremos a carga das bases de dados para utilizar nas visualizações.

Bases de Dados para Visualização

Primeiramente precisamos da base de dados, e utilizaremos conjuntos de dados disponíveis na biblioteca Seaborn. O ideal para você praticar, é utilizar também outros conjuntos de dados. Você pode conseguir conjuntos de dados facilmente em plataformas como o Kaggle ou o Dados Abertos.

Aqui utilizaremos duas bases de dados, o primeiro é o conjunto de dados mpg. Que contém informações sobre carros. A importação é feita com o código Python abaixo.

# base de dados de carros
mpg = sns.load_dataset('mpg')
mpg.head(2)

Na imagem abaixo um exemplo dos dados carregados.

O segundo é o conjunto de dados flights. Que contém informações sobre voos ao longo dos anos. O código Python abaixo fará a importação.

# base de dados de voos
flights = sns.load_dataset('flights')
flights.head(2)

Confere os primeiros registros dos dados na imagem abaixo.

Com os dados carregados podemos partir para a construção dos gráficos.

Gráfico de Barra Matplotlib

O primeiro exemplo com o Matplotlip é com o gráfico mais tradicional e conhecido por todos, o gráfico de barras. O código Python abaixo mostra como criar um gráfico de barras com o Matplotlib.

xbar = mpg['origin'].value_counts().index
ybar = mpg['origin'].value_counts().values
plt.bar(xbar,ybar)
plt.show()

A função bar é responsável pela criação e a função show pela exibição em tela. Confere o gráfico de barras gerado na imagem abaixo.

Do gráfico de barras, vamos ao gráfico de linhas.

Gráfico de Linha Matplotlib

É hora do gráfico de linha com o Matplotlip, utilizado para analisar dados ao longo do tempo. Antes de gerar o gráfico fazermos um pivot dos dados com o código abaixo.

flights_pivot = flights.pivot('year', 'month', 'passengers')

O código Python abaixo mostra como criar um gráfico de linha com o Matplotlib.

xline = flights_pivot.index
yline = flights_pivot.Jan
plt.plot(xline, yline)
plt.show()

Plot é a função que cria o gráfico de linha. Confere o resultado na imagem abaixo.

Na sequência algumas dicas para gráficos de linhas com o Matplotlib.

Dicas Gráfico de Linha Matplotlib

Essas dicas podem te ajudar a evoluir a sua visualização de dados:

  • Como colocar várias linhas em um mesmo gráfico? Basta executar a função plot para cada linha necessária, e ao final utilizar a função show para exibir.
  • Como colocar legenda no gráfico? Incluir o parâmetro label e utilizar a função legend.

Foram aplicadas essas dicas no código Python abaixo.

for m in flights.month.unique():
  xline = flights_pivot[m].index
  yline = flights_pivot[m].values
  plt.plot(xline, yline, label=m)
plt.legend()
plt.show()

Olha o resultado do gráfico de linhas.

Ficou bem interessante em?! Agora vamos transformar as linhas em áreas.

Gráfico de Área Matplotlib

Similar ao gráfico de linha, o gráfico de área traz além da evolução ao longo do tempo, a proporção de cada elemento em relação ao todo. Com o código a seguir será produzido o gráfico de área.

plt.stackplot(flights_pivot.index,
             flights_pivot['Jan'],
             flights_pivot['Feb'],
             flights_pivot['Mar'],
             flights_pivot['Apr'],
             flights_pivot['May'],
             flights_pivot['Jun'],
             flights_pivot['Jul'],
             flights_pivot['Aug'],
             flights_pivot['Sep'],
             flights_pivot['Oct'],
             flights_pivot['Nov'],
             flights_pivot['Dec'],
             labels=['Jan','Feb','Mar','Apr','May','Jun',
                     'Jul','Aug','Sep','Oct','Nov','Dec'])
plt.legend(title='month')
plt.show()

A imagem abaixo é o resultado do gráfico de área, onde a função stackplot gera esse tipo de gráfico.

Seguimos da área até uma pizza!!! 

Gráfico de Pizza Matplotlib

Agora o gráfico mais amado e odiado. Alguns repudiam a utilização desse tipo de gráfico, eu prefiro o bom senso de quando utilizar (caso não tenha outro jeito 😁), então use com moderação. Mas caso precise, o código Python abaixo irá te auxiliar.

valores_pie = mpg['origin'].value_counts().values
sabores_pie = mpg['origin'].value_counts().index
plt.pie(valores_pie, labels=sabores_pie)
plt.show()

E esse é o seu resultado! A pizza é toda sua.

Algumas dicas para a pizza  ficar mais gostosa com o Matplotlib.

Dicas Gráfico de Pizza Matplotlib

Para evoluir a sua visualização de dados segue algumas dicas:

  • Como colocar rótulos no gráfico de pizza? Basta adicionar o parâmetro autopct com a formatação desejada.

A pizza com a dica no código Python abaixo.

valores_pie = mpg['origin'].value_counts().values
sabores_pie = mpg['origin'].value_counts().index
plt.pie(valores_pie, labels=sabores_pie, autopct='%1.1f%%')
plt.show()

Observe como já temos uma melhor visualização das informações da pizza.

Da pizza à dispersão! 🎲 

Gráfico de Dispersão Matplotlib

Aqui vamos a uma análise bivariada, ou seja, analisando duas variáveis. A ideia é entender como as variáveis se relacionam, e se existe uma correlação entre elas. Para tal visual temos o código abaixo.

xscatter = mpg['horsepower']
yscatter = mpg.acceleration
plt.scatter(xscatter, yscatter)
plt.show()

Na sequência o resultado da função scatter, com o visual do gráfico de dispersão.

Da dispersão dos dados aos outliers com gráfico de caixa.

Gráfico de Caixa Matplotlib

Além de apontar os outliers, é importante para entender a distribuição dos dados através dos quartis representados no gráfico de caixa. Com o código Python a seguir temos o gráfico de caixa.

plt.boxplot(mpg.dropna().horsepower, vert=False)
plt.show()

A imagem do gráfico de caixa abaixo é gerado com a função boxplot.

Da distribuição da caixa, para a distribuição do histograma.

Gráfico de Histograma Matplotlib

Em busca da distribuição normal! É uma curva simétrica, unimodal com forma de sino. Ela é a principal distribuição e mais utilizada para modelar fenômenos naturais. O histograma ajuda o analista a entender o comportamento da distribuição dos dados. Para gerar esse tipo de gráfico temos o código Python abaixo.

plt.hist(mpg['acceleration'])
plt.show()

Na imagem abaixo temos um exemplo do gráfico de histograma gerado pelo código acima.

E então, estes são os principais gráficos para visualização de dados com Matplotlib Python que vão ajudar e muito na construção do seu dataviz. Na sequência, teremos outras bibliotecas para visualização de dados em Python. Não perca os próximos conteúdos! Então, fica ligado aqui nas novidades com a nossa Newsletter. Um abraço e até a próxima!!!

Conteúdos ao Cubo

Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode gostar. Sempre falando sobre o mundo dos dados!

Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados.

Gostou? Compartilhe!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *