Chegamos a mais uma etapa do Business Intelligence – Do Problema Ao Dashboard. Agora vamos fazer as definições necessárias em projetos de Business Intelligence. Se esse é o seu primeiro post de Business Intelligence que está lendo no Dados ao Cubo, confere a Introdução ao Business Intelligence – Do Problema ao Dashboard e a preparação do Ambiente de Desenvolvimento para Business Intelligence. Dito isto, vamos ver o que nos aguarda neste artigo.
Primeiramente entenderemos a definição do problema, para fechar o escopo de entrega do projeto. Dessa forma, podemos mapear as fontes de dados necessárias para resolução do problema. Assim, possibilitando identificar as fatos e dimensões (que veremos em detalhes na modelagem dos dados). Vamos precisar também estimar o esforço para execução do projeto. E por fim, vamos conhecer o projeto de Business Intelligence do Dados ao Cubo, que desenvolveremos ao longo das próximas etapas. Sem mais enrolação, vamos ao problema.
1. Definindo o Problema
Na definição, deve estar bem claro para todos os envolvidos qual é o problema que precisa ser resolvido. Problema identificado, precisa ser feita algumas perguntas e ter respostas positivas para dar continuidade.
- É um problema possível de ser resolvido com BI?
- Temos pessoal para desenvolver ou vamos precisar de uma consultoria?
- Como vai ficar a sustentação do projeto? Cargas, manutenções e melhorias?
- Temos os dados suficientes para o projeto de BI?
- Temos verbas para um projeto de BI?
Dada as perguntas acima, vamos detalhar um pouco mais.
2. Mapeando as Fontes de Dados
Precisamos levantar todas as fontes de dados que temos (ou que vamos precisar ter) para resolver o problema. As fontes podem ser as mais diversas possíveis, desde um banco de dados da empresa até dados públicos (por exemplo, dados do IBGE).
Essas fontes de dados precisam ser relevantes para a solução do problema, por isso nosso problema deve estar muito bem definido para saber o que precisamos de dados, e dessa forma, encontrar as possíveis respostas para ele.
3. Identificando Dimensões e Fatos
Com as fontes de dados mapeadas, precisamos identificar as fatos e dimensões. Essa informação vai ser útil para estimar o esforço necessário do projeto, juntamente com algumas informações da visualização de dados.
Essa identificação de fatos e dimensões vai ser utilizada também na modelagem do modelo multidimensional. Então precisamos sempre identificar baseado nos problemas que vamos resolver.
4. Calculadora de Projetos Business Intelligence
Estimar o esforço em projetos de BI pode ser algo um tanto complicado, devido a peculiaridade de cada projeto. Mas pensando em ter um ponto de partida, vou mostrar meu ponto de partida para estimar esforço em projetos de BI.
4.1. Esforço para ETL
Pensando na parte de ETL, podemos dividir as atividades por tipos, listar as atividades de cada tipo e atribuir uma quantidade de horas para cada atividade. Vamos observar a imagem da tabela abaixo.

Caso identifique mais alguma atividade, pode incluir no seu modelo. Da mesma forma, pode excluir alguma atividade que não seja necessária no seu projeto.
Com seu modelo pronto, é só calcular de acordo com a quantidade de DIMENSÕES E FATOS do seu projeto. Vejamos um exemplo com 3 dimensões e 1 fato.
Para cada dimensão temos 5h, se temos 3, então 15h para as dimensões. Para cada fato um total de 12h, só temos 1 fato, logo somamos mais 12h. Adicionamos mais 5h para job de cargas e ajustes após homologação. Totalizando 32h até aqui, para finalizar vamos incluir 10% de gestão, 3,2h e 5% de risco 1,6h. Portanto, precisamos de aproximadamente 37h para execução da etapa de ETL do projeto.
4.2. Esforço para DataViz
Para a visualização de dados seguimos a mesma metodologia. Vamos observar a imagem da tabela abaixo.

Assim, é só calcular de acordo com a quantidade de TELAS, FILTROS, GRÁFICOS, TABELAS e BOTÕES nos dashboards do seu projeto. Vejamos um exemplo com 1 tela, com 2 filtros, 3 gráficos, 1 tabela e sem botões.
Para a tela somamos 4h, cada filtro 1h, cada gráfico 4h e cada tabela 6h. Então temos até aqui, 24h. Acrescentamos 7h de ajustes e para finalizar vamos incluir 10% de gestão, 3,1h e 5% de risco 1,5h. Portanto, precisamos de aproximadamente 36h para execução da etapa de DataViz do projeto.
Preciso deixar claro que não existe um padrão para isso, e pode variar de acordo com cada projeto de BI e suas particularidades. Esse é o meu ponto de partida e em breve vou automatizar ele, criando uma calculadora em python para projetos de BI, mas deixo isso para outro post.
É notável que essa etapa de definição vai impactar diretamente em todo o projeto. Qualquer mudança seja por parte do cliente, limitação da ferramenta ou outro motivo é possível que seja preciso revisar algumas etapas do projeto.
5. Projeto de Business Intelligence do Dados ao Cubo
Agora que já entendemos o que é preciso definir, vamos ao projeto de BI do Dados ao Cubo. Por questões da Lei Geral de Proteção de Dados Pessoais (LGPD), devemos saber como tratar os dados que trabalhamos. Então, para o nosso projeto vamos utilizar dados do Portal Brasileiro de Dados Abertos.

O portal é a ferramenta disponibilizada pelo governo. Para consulta de informações públicas, onde todos podem encontrar e utilizar os dados. Selecionamos informações do Sistema Nacional de Informações Florestais (SNIF).

O SNIF tem como objetivo, colecionar e produzir, organizar, armazenar, processar e disseminar dados, informações e conhecimentos sobre as florestas e o setor florestal brasileiro. Selecionamos a base de dados Florestas Plantadas – IBGE – 2014-2016 que tem informação da área de floresta plantada no Brasil por região, estados, municípios e espécie florestal.
5.1. Definições do Projeto
Sendo assim, a Florestas ao Cubo, uma empresa parceira, solicitou uma consultoria para ter controle sobre as informações relacionadas a essa base de dados. Então, coletamos quais os principais indicadores de controles que precisamos produzir, são eles:
- Qual o total de florestas plantadas?
- Qual o total de florestas plantadas por ano?
- Quais são os estados que mais plantaram? E os municípios?
- Qual a proporção das espécies de florestas plantadas?
- Qual a proporção por região das florestas plantadas?
Guarda com carinho todas essas perguntas, que elas serão fundamentais na modelagem de dados e construção das visualizações.
Portanto, agora que já temos essas informações sobre o problema da Florestas ao Cubo, delimitamos o escopo do que vai ser entregue, podemos seguir para as próximas etapas.
E então, vamos começar a utilizar o ambiente de desenvolvimento que construímos na etapa anterior. Faremos uma introdução a banco de dados relacionais e linguagem SQL. Em seguida faremos o mapeamento dos dados para iniciar a modelagem. Espero que tenham entendido todos os conceitos até aqui, pois é uma escada e se faltar algum degrau vai ficar mais difícil de chegar ao topo. Vamos juntos, BI ao Cubo e até a próxima.
Conteúdos ao Cubo
Por fim, deixo algumas sugestões de conteúdos que você pode encontrar no Dados ao Cubo, sempre falando sobre o mundo dos dados.
- Agrupamento com scikit-learn
- Álgebra Linear com NumPy
- Geometria Analítica com SymPy
- Ciência de Dados para Mercado de Ações Parte I
- Utilizando Python no Portal Brasileiro de Dados Abertos Parte I
- Trabalhar com Arquivo de Texto em Python
- Análise de Dados com Scikit Learn Python
Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.

Baiano, apaixonado por dados e tecnologia, amante das inovações tecnológicas que facilitam a vida humana! Formado em Engenharia da Computação e com MBA em Gestão da Informação e Business Intelligence e especialização em Data Science. Atualmente atua como Data Tech Lead na Lopes, além de Professor na área de dados e nas horas vagas cria uns modelos de Machine Learning com Python e soluções diversas com dados!