Data Science 1

Pipeline dos Projetos de Ciência de Dados

On 10 de julho de 2020, by Dados ao Cubo

Fala galera do mundo dos dados! O nosso tema de hoje é o pipeline dos projetos de Ciência de Dados. Assunto tão relevante que é necessário uma atenção especial antes de começarmos qualquer projeto de Ciência de Dados. Sendo assim, quando iniciamos um novo projeto, algumas etapas básicas são essenciais para atingir o êxito na solução do problema. E algumas dessas etapas muitas vezes são ignoradas, mesmo sendo cruciais para a entrega de um projeto bem elaborado.

Vamos passar pelas 8 etapas básicas para projetos de Ciência de Dados. Mas saibam que não é uma receita de bolo, cada projeto tem suas peculiaridades e particularidades que devem ser levadas em conta na construção de um fluxo do processo. Essas não são as únicas etapas e nem devem ser seguidas à risca em cada projeto de Ciência de Dados, mostraremos aqui apenas uma das diversas possibilidades. Lembrem-se cada problema é único, então é necessário adequar-se às peculiaridades de cada caso.

Os projetos de Ciência de Dados são processos contínuos, por isso as etapas estão representadas em uma imagem circular, e vocês deve retornar a cada uma das etapas quantas vezes forem necessário. Vamos ver agora os detalhes de cada etapa.

1 – Definição do Problema

Definição do Problema em projetos de ciência de dados

Todos precisam ter uma compreensão clara de qual é o problema que precisamos resolver. Devemos avaliar se é realmente um problema e se existe demanda para a solução que vamos criar.

Essa etapa desempenha um papel crucial nos projetos de ciência de dados. Cada passo tem sua importância, mas se não definirmos bem o problema, não adiantará seguir em frente.

2 – Coleta de Dados

Coleta de dados em projetos de ciência de dados

Na coleta de dados precisamos levantar todas as fontes de dados que temos (ou que vamos precisar ter) para resolver o problema, essa coleta pode ser de diversas fontes, desde um dado público (dados do IBGE) até uma planilha em excel.

Os dados coletados precisam ser relevantes para a solução do problema, por isso nosso problema deve estar bem definido para saber o que precisamos para encontrar as possíveis respostas para ele.

3 – Pré-Processamento

Pré-Processamento em projetos de ciência de dados

O pré-processamento é um etapa onde precisamos trabalhar os dados para que os mesmos fiquem de forma a atender as necessidades dos modelos que vamos aplicar, deixá-los em um formato mais coerente, tratar os dados faltantes (missing), trabalhar os valores discrepantes (outliers). Para isso, vamos utilizar técnicas de Feature Engineering (Engenharia de atributos) e Feature Selection (Seleção de atributos) para pré-processar nossos dados. Buscamos sempre alcançar os melhores resultados.

Até chegarmos aqui e sairmos com esses dados preparados para as próximas etapas, estimamos que gastamos 80% de todo o projeto nessas etapas. Sendo que a maior parte desse percentual está nessa parte específica. O pré-processamento é uma das etapas mais trabalhosas e importantes no projeto de Ciência de Dados.

4 – Solução do Problema

Solução do problema em projetos de ciência de dados

Para chegar a solução do problema (na verdade, é uma hipótese), que será validada ou não, já percorremos um longo caminho. Já aplicamos um modelo e realizamos uma avaliação, então conhecemos bastante dos dados que estamos trabalhando. Chegou então a hora fazer esses dados falarem!

Devemos realizar uma exploração dos dados com técnicas de Matemática e Estatística aliadas a linguagens de programação (atualmente, as linguagens mais comuns em Ciência de Dados são Python, R, Scala e Julia), a fim de saber ainda mais sobre esses dados e as possibilidades que podemos encontrar neles.

Então com todas as ferramentas a disposição do cientista de dados, ele vai escolher as melhores técnicas para aplicar sobre esses dados. Podendo para rejeitar ou não as hipóteses levantadas.

5 – Modelo

Um modelo é uma função que vai melhor descrever os dados que você tem. Chegando nesta etapa, existem uma infinidade de modelos possíveis de aplicar, vai depender do problema e as informações que possuímos para resolvê-lo.

É necessário que esteja bem claro com que tipo de problema estamos lidando, se é uma regressão, uma classificação ou outro tipo, se os dados estão rotulados ou não, pois de acordo com cada detalhe desse, o cientista de dados vai apontar o melhor ou os melhores modelos para começar.

6 – Avaliação

Avaliação em projetos de ciência de dados

Avaliar projetos de ciência de dados quantifica a qualidade de uma solução. Essa etapa é bem subjetiva, pois a forma de avaliar varia muito de acordo com o problema e com as métricas utilizadas, além do próprio cientista de dados.

7 – Protótipo

Protótipo em projetos de ciência de dados

Após validar com sucesso a hipótese da solução do problema, podemos avançar para um protótipo da solução, que nada mais é que uma ideia funcional da solução final para o projeto.

Desde algum rascunhado no papel até um software funcional com as funcionalidades básicas da solução, o protótipo pode variar, dependendo da complexidade e do nível de exigência do projeto.

8 – Melhoria

Melhoria em projetos de ciência de dados

As melhorias são fundamentais em qualquer tipo de projeto, desde o projeto pessoal até os projetos de ciência de dados. As melhoria deve ser contínua, seja do que já foi entregue e está funcionando ou melhorias a serem implementadas.

Projetos de Ciência de Dados ao Cubo

Bem, por hoje foi isso! Chegamos ao fim de mais uma postagem, esperamos que tenham gostado e aprendido algo com ela. Deixe seu feedback, ele é muito importante pra nós. Até a próxima!

Conteúdos ao Cubo

Por fim, deixo algumas sugestões de conteúdos que você pode encontrar no Dados ao Cubo, sempre falando sobre o mundo dos dados.

Encerro com um convite para que você seja um Parceiro de Publicação Dados ao Cubo e escreva o próximo artigo, compartilhando conhecimento com toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.

Dados ao Cubo

Tudo sobre o universo Data Science!

Gostou? Compartilhe!

1 Comment

Silvio
11 de julho de 2020

Excelente artigo sobre o ciclo de vida de um projeto de machine learning.
O primeiro passo, o entendimento do problema é vital pra que no final seja entregue algo que corresponda a expectativa do cliente e resolva o problema proposto.