Fala galera do mundo dos dados, sejam bem vindos a introdução a ciência de dados do Dados ao Cubo! O Dados ao Cubo surgiu durante um Bootcamp online de Machine Learning, em uma conversa entre amigos de turma. Três estudantes dedicados e apaixonados por dados, um pouco insatisfeitos com a metodologia e a forma como era passada o conteúdo decidiram se movimentar. Dessa forma, tiveram a ideia de compartilhar o conhecimento adquirido com toda a comunidade de uma forma mais clara e totalmente gratuita. E aqui damos inicio com uma Introdução a Ciência de Dados!
Sendo assim, precisamos começar com alguns conceitos importantes. Vamos entender um pouquinho do que é a ciência de dados e o que se espera dos profissionais com essa missão.
O que é ciência de dados? Segundo o Wikipedia:
“Ciência de dados é uma área interdisciplinar voltada para o estudo e a análise de dados econômicos, financeiros e sociais, estruturados e não-estruturados, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão.”
Mas o que isso quer dizer? Que a partir dos dados que sua empresa forneceu você tem que extrair deles algum valor. É um trabalho que envolve muita estatística, programação e conhecimento do negócio, por isso é uma “área interdisciplinar”.
É uma área bem nova, ou pelo menos o nome “Ciência de dados”. Se desenvolveu a partir de estudos de diversas áreas correlacionadas e da necessidade de tratar enormes quantidades de dados que são geradas diariamente.
Diversos profissionais de áreas afins vem migrando para ciência de dados, como a galera da Inteligência Artificial, Engenharia, Estatística, Matemática e outras áreas que detém o domínio do negócio mas não a habilidade técnica. Então temos cada vez mais profissionais se qualificando para atuar com ciência de dados. Abaixo uma figura que ilustra como a ciência de dados é uma área interdisciplinar e como as áreas se relacionam.
Mas o que um cientista de dados precisa saber?
Hoje em dia, a profissão de cientista de dados se difundiu entre diversas outras especializações. Temos o Data Analyst (faz a análise dos dados), o Data Engineer (cuida dos dados em si, a infra como os dados são armazenados, e de seu pré-processamento) e o Machine Learning Engineer (faz a seleção e treinamento de modelos de predição e o deploy (em alguns casos, ele prepara apenas uma API para ser consumida por outras aplicações). Vamos resumir algumas das habilidades que o profissional Data Scientist precisa ter para obter uma vaga nesse mercado tão disputado:
- Estatística (descritiva e inferencial)
- Programação (sendo as principais linguagens Python e R)
- Probabilidade
- Análise exploratória de dados
- Algebra linear
- SQL (Structured Query Language) e NoSQL
- Aprendizagem de máquina
- Deep Learning(Aprendizado Profundo)
- Sistemas de recomendação
- Processamento de linguagem natural
- Processamento de imagens
Bastante, né? E cada tópico desse se desmembra em mais um mundo de possibilidades (Vamos ver em detalhes cada um desses pontos em outro post que estamos preparando!). Mas “palma palma não priemos cânico”, tem muito conteúdo gratuito de qualidade na internet e nós vamos ajudá-los tentando facilitar e organizar cada uma dessas subáreas. Sendo assim, vamos trazer artigos e vídeos para descomplicar o acesso a essas informações, além de indicações de conteúdos para se aprofundar nos assuntos.
Mas afinal, o que queremos?
A ideia do Dados ao Cubo, ou D³ para os mais íntimos, é trazer conteúdo de qualidade para a comunidade de dados. Tudo isso de forma totalmente gratuita para contribuir com a evolução da comunidade e também a nossa. A falta de uma segunda língua dificulta o acesso a muitos conteúdos que normalmente são encontrados em inglês, então queremos trazer conteúdo de qualidade e acessível a todos em nossa língua, o português. Aqui foi somente uma Introdução a Ciência de Dados e vamos aprofundar muito mais.
Pretendemos trazer toda semana novidades para nossos seguidores, além de interagir com a comunidade, respondendo dúvidas, aceitando sugestões de publicações e até uma consultoria se assim precisar. Vamos ver alguns spoilers do que você vai encontrar por aqui.
Portanto, teremos algumas trilhas de conhecimentos. A Trilha Pré-processamento onde vamos tratar de temas sobre Feature engineering (Engenharia de atributos) e Feature Selection (Seleção de atributos). Bem como, a Trilha Exploração de Dados vamos falar de Estatística, Visualização de Dados e Data Storytelling. Assim como, a Trilha de Modelos de Machine Learning onde vamos publicar sobre Modelos de Regressão, Modelos de Classificação, Modelos de NLP (Natural Language Processing)entre outros. E por fim, a Trilha de Matemática Aplicada, onde vamos ter os principais conteúdos de matemática para ciência de dados como Estatística Frequentista e Bayesiana, PCA (Principal Component Analysis), Probabilidade e muito mais.
Introdução a Ciência de Dados ao Cubo
Portanto, essa foi uma Introdução a Ciência de Dados! Então, não deixe de visitar o Dados ao Cubo a sua nova fonte de informações sobre Ciência de Dados, toda semana uma novidade para você! Comentem, mandem dúvidas e sugestões para que possamos melhorar sempre o nosso conteúdo para você.
Conteúdos ao Cubo
Se você curtiu o conteúdo, aqui no Dados ao Cubo tem muito mais. Então, deixo algumas sugestões de conteúdos que você pode encontrar. Sempre falando sobre o mundo dos dados!
- Velocidade da Internet com a Biblioteca SpeedTest Python
- Reconhecimento de Voz com a Biblioteca SpeechRecognition Python
- Analisando Dados do Brasileirão Série A
- Google Analytics e o Dados ao Cubo
- Ingestão de Dados via API com Python
- Conceitos Iniciais do Python
- Bases de Dados Gratuitas para Impulsionar suas Análises de Dados
- Geração de Relatórios em PDF com Python
Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.
Tudo sobre o universo Data Science!