Data Science

Boas Práticas de Visualização de Dados Parte I

Como começar com Python: Isso a globo não mostra! Esse artigo foi dividido em duas partes para que você possa ter uma melhor experiência de leitura e não fique cansativo. Logo, na primeira parte será vista uma introdução sobre visualização de dados e como construir uma boa visualização, respeitando as três regras que toda visualização gráfica precisa ter. Ademais, mostrar que não é tão simples quanto parece e que muita das vezes pode ser usada até para manipular quem está visualizado o gráfico.

Por outro lado, após termos entendido um pouco sobre visualização de dados, vamos na segunda parte buscar aplicar na prática com a linguagem Python o que aprendemos sobre visualização de dados. Esse será um outro post, então esteja sempre acompanhando as novidades do Dados ao Cubo.

1. A visualização de dados

Antes de tudo, vamos definir e facilitar o entendimento sobre o que é uma visualização de dados. Então, quem ainda não conhece essa pirâmide?

Essa pirâmide aborda os primeiros conceitos que devem ser entendidos por todo especialista em dados e quem vai trabalhar com eles. Entenda que antes dos dados se tornarem conhecimento explícito e útil, eles primeiro precisam ser transformados em informação e essa informação precisa ser transformada em conhecimento. Mas como isso deve ser feito? Na ciência de dados, a principal forma dos dados deixarem de ser meros materiais e se tornarem informação é através da análise exploratória. É na análise onde acontecem hipóteses, visualização de dados e ao seu decorrer tomamos mais conhecimento sobre os dados. Logo, retirando informações sobre os dados e consequentemente transformando os dados em informação.

Após os dados serem transformados em informação na análise exploratória de dados, a informação ainda precisa ser transformada em conhecimento explícito para poder ser utilizada por outras pessoas. A melhor forma para isso é com a visualização de dados. A visualização de dados que também acontece e se trata de uma das etapas mais importantes da análise exploratória. Então, na ciência de dados, a pirâmide DIC (dados, informação e conhecimento) acontecem em sua maioria na análise exploratórias de dados, sendo a visualização de dados um dos principais fatores para que os dados ganhem significado e deixem de ser materiais, tornando-se conhecimento explícito.

Por fim, a visualização de dados pode ser definida dentro da ciência de dados como: “A formação de imagens visuais mentais para transmitir informações através de representações gráficas de dados”.

Quando se fala em visualização de dados, em sua maioria as pessoas já se consideram entendedoras o suficiente para dizer que, visualização de dados se trata de algo simples e não de um assunto complexo, onde acreditam que a visualização de dados se trata apenas de se construir um gráfico de barras, inserir legendas, rótulos e ponto final. Porém, a visualização de dados é tão complexa a ponto de ser responsável por transmitir uma boa informação e que seja de entendimento de todos a partir de um grande volume de dados, sem que sua complexidade seja notada.

Uma boa visualização de dados não se trata apenas de inserir rótulos e legendas, mas precisa se comunicar com quem visualiza o gráfico, principalmente quem está vendo pela primeira vez. Um bom exemplo são os mapa existentes nas estação de trem, de modo que seu entendimento se torna tão fácil que nem notamos a complexidade que se tem para construí-lo, transformar um grande volume de dados em informação e se torne compressível por qualquer pessoa. Veja esse exemplo:

Esse gráfico é de 1933, quando Harry Beck apresentou um novo design para o mapa do metrô de Londres. O mapa tinha o objetivo de direcionar a população que precisava ir de uma estação para outra e onde trocar de trem. Se observamos o mapa, cada cor representa uma linha do metrô e mostra suas conexões com outras linhas. As visualizações de dados são bastante úteis para transmitir informações e assim como o mapa dos metros também podem ser usadas para explicar ideias complexas de uma maneira mais interpretável.


2. O que não te contaram sobre visualização de dados

Nem tudo são flores, já deu para perceber que visualização de dados não é tão simples quanto parece, porém os problemas não acabam aí. Com o surgimento da pandemia do novo coronavírus, tornou-se rotina visualizar gráficos e mais gráficos, seja na web ou na televisão. Então, na mesma proporção que a pandemia evoluiu, também cresceu a quantidade de gráficos que circulam entre nós, trazendo o que nem sempre é visto ao olho nu daqueles que não conseguem interpretar um gráfico. Mas o que seria isso? Observe essa imagem do jornal local da cidade do Recife:

Você consegue enxergar? Ainda não?

Note que os valores dos gráficos em vermelho são os mesmos, porém as suas proporções além de serem diferentes, não fazem sentido quando comparadas ao gráfico em azul. No primeiro gráfico, o tamanho do gráfico em azul é pequeno para a quantidade de valores que a ele foi estabelecida, enquanto o gráfico em vermelho tem uma quantidade inferior ao gráfico em azul, porém ambos tem quase a mesma proporção, dando a ideia de igualdade. Por outro lado, no segundo gráfico, o grande tamanho do gráfico em vermelho nos faz pensar que existe uma grande quantidade de valores, por estar tão próximo ao gráfico em azul que se trata do maior gráfico. 

Isso mesmo, muita das vezes uma visualização pode ser enganosa e manipular quem não consegue interpretar os gráficos, principalmente gráficos comparativos como esse. Então você precisa estar atento para não cometer esse erro ao construir um gráfico e não cair em pegadinhas manipuladoras como essa ao visualizar um gráfico novo pela primeira vez. Assim como sempre devemos procurar analisar para saber se uma informação é verídica, para não cairmos nas famosas fake news. Também devemos interpretar os gráficos com mais cuidado, pois não é de hoje que é feito o uso da estatística para enganar indivíduos. Sendo, uma tática extremamente comum usada na política.

Uma prática que já foi bastante usada no passado pelos EUA, principalmente quando a população era presa as informações que recebiam das televisões, veja esse exemplo de distorção do eixo relacionada à perda de empregos dos EUA:

É notório que o gráfico não acompanha a crescente dos números, o que na verdade deveria ser assim:

Uma outra maneira pela qual as pessoas são enganadas no uso de visualizações de dados é pela omissão dos dados. Um bom exemplo que temos aqui no Brasil se trata do número de desmatamento da Amazônia que acontece aqui. Dessa forma não sabemos se os números são realmente confiáveis, se você não sabe, no ano passado ocorreu um caso onde o ex diretor do INPE (Instituto nacional de pesquisa espaciais, responsável pelos sistemas de monitoramento da Amazônia) Ricardo Galvão foi demitido do cargo após divulgar dados do desmatamento na Amazônia que apresentavam uma forte aceleração no desmatamento, sendo alegado pelo governo que os dados primeiro precisavam passar por uma vistoria, mas até os dias atuais não sabemos que vistoria seriam essas. 

Já acabou Jessica? Agora que você já sabe que nem tudo em visualização de dados é um conto de fadas, podemos falar em como construir uma boa visualização. 


3. Mas afinal, do que uma boa visualização de dados precisa?

Vamos levar em consideração as três regras eficazes para uma visualização. De acordo com o Edward Tufte que é pioneiro no campo do desenvolvimento de visualizações efetivas e escreveu vários livros sobre o assunto, sendo:

  • Integridade gráfica
  • Maximizar a proporção de dados e tinta
  • Evitar lixo gráfico.

3.1. Integridade gráfica

A integridade gráfica está relacionada a parte obscura da visualização de dados que aqui foi falada. Onde não devemos através da visualização de dados e estatística buscar enganar ou trapacear quem está visualizando o gráfico.

3.2. Maximizar a proporção de dados e tinta

Para a regra de maximizar a proporção de dados e tintas, deve ser levado em conta que quanto mais simples e claro um gráfico for, melhor, o famoso “menos é mais”. Um dos problemas principais que envolvem a regra de maximização são os famosos gráficos de pizza e 3D. O principal problema de um gráfico de pizza é a sua análise ser de difícil entendimento, veja esse exemplo:

Com exceção da variável Usinagem, se tentarmos tirar qualquer outra informação vamos ter dificuldades. É difícil comparar as outras variáveis, isso porque não somos bons em fazer comparação entre áreas. Uma solução possível, mas ainda não seria o ideal, é por valores do gráfico:

O gráfico 3D assim como o gráfico de pizza apresenta os mesmos problemas. Por isso o ideal é descartar os dois da sua lista de visualização de dados. Veja por último um exemplo comparativo de um gráfico realizado em 3D e em Barra:

Os gráficos de Pizza e 3D não tornam as comparações claras e podem se tornar até mesmo enganosos. Por isso é uma má ideia.

3.3. Evitar lixo gráfico

A terceira regra se trata de evitar elementos visuais estranhos ou que não tenham nenhum objetivo. Isso pode acabar distraindo quem está visualizando o gráfico, por mais que pareça algo simples, é essencial.

Como bônus, a dica de ouro é evitar o uso de mapas de cores do arco-íris. Além do gráfico ficar mais difícil de ser interpretado por não fazer sentido atribuir uma cor a um valor quantitativo, pessoas daltônicas podem ter problemas para diferenciar muitas cores. Uma solução para esse problema usar apenas duas cores e usar uma mudança linear na cor para representar valores quantitativos. Dessa forma, o gráfico pode ser colorido, mas a natureza quantitativa do gráfico é descrita pelo brilho da cor, estabelecendo regiões mais escuras para valores mais altos. Já adiantando o que vamos ver mais na frente, a biblioteca Seaborn possui ótimas funções para cobrir esse problema. Veja esse bom exemplo de gráfico por mapa dos votos dos EUA após a eleição presidencial de 2016:


4. Conclusões

Após tudo isso que foi visto na parte I do artigo, tenho certeza que ao olhar e construir um gráfico, você não vai mais lembrar apenas do Excel muito menos que precisa apenas de rótulos, cores e legendas.  A partir de agora, você irá lembrar que não se trata apenas de um gráfico, mas sim de uma visualização de dados que precisa se comunicar com quem está visualizando. Dessa forma o entendimento do gráfico deve ficar claro para todos, sempre transmitindo uma boa informação, de forma clara e objetiva.  

Os seus primeiros passos foram dados, na parte II você verá como começar a aplicar isso na prática. Até lá! E conte sempre comigo se precisar de ajuda nesse mundão da ciência de dados.


Referências

Gostou? Compartilhe!

Você pode gostar:

Comentários: