Data Science

Profissão: Cientista de Dados Parte I

Como dissemos no nosso primeiro post  (Bem Vindos ao D³), a Ciência de Dados (Data Science – DS) é uma área relativamente nova, totalmente interdisciplinar e que se difundiu em diversas profissões: Cientista de Dados, Analista de Dados, Engenheiros de Dados, Engenheiro de Aprendizagem de Máquina, Analista de Big Data, etc. Além de diversas outras profissões ligadas a dados que vêm surgindo ao longo do tempo, como o Data Product Manager, Marketing Analyst, Analista de Business Intelligence (BI), Arquiteto de Dados, Data Warehouse DeveloperBig Data DevOps e Citizen Data Scientist. E o já famoso Unicórnio, que detém todas essas habilidades juntas e ainda passa um bom café (Quase impossível né?).

o que é Unicórnio a ciência de dados

Mas DS é BI?

Não, BI faz a análise descritiva dos dados, enquanto DS faz as análises preditivas e prescritivas. Análise descritiva é quando você pega os dados e analisa o que aconteceu.  Entre as análises descritiva e preditiva temos a diagnóstica, explicando porque aconteceu, que fica no meio do caminho então ajuda as duas áreas. Serve de informações para entender o que aconteceu em BI e prever o que pode acontecer em DS. Já a análise preditiva e prescritiva, você faz uma projeção desses dados para o futuro, enquanto a análise preditiva analisa o que pode acontecer, a análise prescritiva analisa como se pode fazer para isso acontecer. A figura abaixo mostra melhor essa relação:

Do business intelligence a ciência de dados

DS é Estatística? 


Não, estatística é uma área da matemática, enquanto DS é uma área interdisciplinar que utiliza a estatística como uma de suas ferramentas.

O que eu preciso dominar para atuar como DS?

Tudo! …. Brincadeira, é só quase tudo. A ciência de dados tem 3 grandes pilares: a Ciência da computação, a Matemática e Estatística e o Conhecimento do negócio. Da computação vem o domínio de programação e manipulação de dados (principalmente com SQL). Da matemática e estatística é necessário ter conhecimento de cálculo, álgebra linear, probabilidade e estatística. Enquanto o conhecimento do negócio é necessário entender como funciona o negócio, as dificuldades do negócio e como a ciência de dados pode alavancar esse negócio.

Abaixo temos um no diagrama de Venn mostrando esse relacionamento entre as áreas em que a ciência de dados está inserida.

Ciência de Dados

Vamos exemplificar algumas das habilidades que o profissional Cientista de dados precisa ter para se tornar um Unicórnio e obter uma vaga nesse mercado tão disputado:

Conhecimento do negócio: 

Significa exatamente isso, conhecer o negócio que se irá analisar, as dores que ele propõe resolver e como resolve essas dores. Vamos criar uma situação hipotética para exemplificar isso.

“Joãozinho é um cientista de dados e foi contratado pela dona Ana para analisar o que fazer para ganhar mais clientes para sua fábrica de salgados, a Dona Ana Salgados. Joãozinho não entende nada de salgados, só de comer nas festinhas, então fez uma reunião com a dona Ana e descobriu que seus clientes são lanchonetes e pessoas físicas que irão fazer alguma celebração.”

Probabilidade: 

É a área da matemática que estuda a chance de um evento ocorrer. Existem duas principais abordagens, a frequentista e a bayesiana, onde a frequentista faz análises principalmente por meio de contagens, enquanto a bayesiana faz segundo o teorema de Bayes. Segundo a equação abaixo, onde P(A) e P(B) são probabilidades a priori e P(A|B) e P(B|A) são prioridades condicionais (a posteriori). Que significam que A está condicionado a B  e B está condicionado a A, respectivamente. Calma, na trilha de Matemática Aplicada vamos explicar isso com mais detalhes.

Probabilidade

“Joãozinho continuou entrevistando dona Ana e ela informou que durante o período escolar suas vendas são melhores para as lanchonetes e, durante o período de festas de final de ano e formaturas suas vendas são melhores para pessoas físicas e alguns buffets. Essa é a sua hipótese H¹. A probabilidade de vender para uma lanchonete dado que o mês é julho, escrito como p(‘vender para lanchonete’ |  ‘julho”) é menor do que a probabilidade de vender para uma lanchonete nos outros meses, escrito como p(“vender para lanchonete” | “outros meses”). Isso é chamado probabilidade binomial.”

Análise exploratória de dados:

A exploração dos dados é fundamental e como o próprio nome sugere, é explorar os dados, através de técnicas tanto de programação quanto de matemática. Encontrar o que os dados têm para mostrar, e identificar se é possível aplicar técnicas de machine learning sobre eles.

“Em uma das reuniões entre Joãozinho e dona Ana, ela informou que alimentava uma planilha em excel com as informações dos pedidos dos seus clientes, Joãozinho prontamente solicitou o envio para explorar os dados e descobriu logo de cara do que 80% dos pedidos era para os finais de semana”.

Análise exploratória de dados

Estatística:

É uma ciência que estuda os dados através de amostras, fazendo sua coleta, organização, análise e registro. A estatística descritiva envolve a organização, resumo e representação dos dados. As ferramentas utilizadas para isso são as bem conhecidas tabelas de frequência; gráficos; cálculo de medidas de tendência central como média, mediana e moda; e cálculo de medidas de variação como variância e desvio padrão. Já na estatística inferencial estamos sempre interessados em utilizar as informações de uma amostra para chegar a conclusões sobre um grupo maior, ao qual não temos acesso. Nesse sentido, uma ferramenta muito utilizada na estatística inferencial é a probabilidade.

“Agora nosso cientista vai pegar a planilha em excel fornecida por dona Ana e vai aplicar técnicas estatísticas como histogramas para avaliar os dados e saber se eles seguem uma distribuição normal, estão mais achatados (kurtosis) ou inclinados (skewness), a correlação entre os dados e diversas outras características. A distribuição normal é uma das distribuições de probabilidade mais utilizadas para modelar fenômenos naturais. Uma distribuição normal pode servir por exemplo para calcular se você foi melhor em português ou matemática de acordo com a distribuição de notas da turma e a quantidade de desvios padrões. O desvio padrão é uma medida de dispersão que calcula o quanto uma distribuição é uniforme. Tudo isso vai ser explicado com mais calma na trilha de Matemática Aplicada no momento certo. “

Álgebra linear:

É a área da matemática que estuda as equações lineares através de vetores e matrizes.

“Com os dados em mãos e análise feita, é a hora de transformar esses dados em uma linguagem que o computador entenda, porque infelizmente ele ainda não fala português (até pode falar, mas alguém foi lá e traduziu para números pra ele). Para isso foi criado uma matriz onde os dados categóricos e booleanos foram transformados em numéricos e foi aplicada alguma forma de padronização ou normalização nesses dados. Na trilha de pré-processamento vamos entrar em detalhes de como alcançar isso.”

Como a postagem já está ficando muito extensa, vamos dar uma pausa para os comerciais e postamos a Profissão: Cientista de Dados Parte II na quarta-feira (08/07/2020) não percam! Como vocês podem perceber, o caminho é longo e se prepare para estudar muuiiitaaa matemática e programação claro, pois sem base ninguém chega a lugar nenhum.

Referências

Conteúdos ao Cubo

Por fim, deixo algumas sugestões de conteúdos que você pode encontrar no Dados ao Cubo, sempre falando sobre o mundo dos dados.

Gostou? Compartilhe!

Você pode gostar:

Comentários: