Data Science Machine Learning Python 1

Ciência de Dados para Mercado de Ações Parte I

Desde sempre, o mercado de ações vem chamando a atenção da humanidade pelos mais variados motivos. Seja pelas possibilidades de enriquecimento acelerado (mas nunca fácil) ou pela possibilidade de participar como “sócio” de alguma empresa pertencente a algum segmento, que seja do interesse do investidor, que de outra forma seria impossível…Ninguém monta uma empresa como a Tesla todos os dias, mas qualquer investidor, pequeno ou grande, pode ser dono, todos os dias, de um pedaço desse sonho, simplesmente comprando uma ação dessa uma empresa na bolsa.

Independente de qual seja o seu motivo, ou se você está no início ou mais avançado na sua jornada de investidor, uma coisa é certa. VOCÊ VAI PRECISAR DE DADOS. Esse será o assunto central desse primeiro artigo.

Você pode não concordar com essa afirmação inicialmente, e continuar se apoiando nos palpites e indicações de pessoas, amigos ou canais de youtube de onde colocar seu precioso capital. Mas talvez venha a mudar de ideia assim que tomar o seu primeiro stop-loss em um dia que estava esperando uma grande alta na bolsa e ficar se perguntando, WTF? Nesse momento, você pode se deparar com a necessidade de estudar mais a fundo antes de fazer sua próxima operação.

Nesse artigo e nos próximos vamos explorar formas de você extrair informações públicas da web usando Python. Vamos também te ajudar a montar seu próprio “painel de controle” para tomar decisões mais conscientes. Esperamos que após a leitura desse material, você possa saber explicar melhor os motivos da queda ou da alta no preço das ações, ou pelo menos, tenha conhecimento para buscar essas informações de forma mais fácil e rápida.

Importante deixar claro que todas as dicas aqui servem para te orientar a buscar mais dados disponíveis na web e usar algoritmos para fazer estes dados trabalharem a seu favor, mas nem de longe estamos aqui fazendo indicações de formas ou estratégias de investimento. Estas serão criadas por você.

1. Dois conceitos importantes: Crawling x Scraping

Web Crawling: em tradução simples, rastreamento da web é a forma que os grandes portais, tipo Google e Yahoo, usam para buscar informações, geralmente de forma indiscriminada e em alta escala, em todo e qualquer link que apareça no seu radar. Existe um robô que acessa cada link de uma página e faz uma cópia de todos esses dados nos seus servidores. Após isso esses dados são então indexados e usados de acordo com a necessidade.

Web Scraping: a “raspagem” de dados, é um processo mais específico onde uma rotina de extração de dados é construída de maneira quase exclusiva para cada página de interesse e os dados são extraídos de forma mais estruturada e normalmente com objetivo já definido, seja para comparar dados atuais com histórico ou até mesmo simplesmente para identificar que houve mudança no dado. 

Você pode ler à respeito nesse artigo .

Além dessas duas técnicas existe uma terceira forma de extrair dados da web que é o uso de APIs disponibilizadas pelo portal (fonte de dados) ou por qualquer desenvolvedor que tenha feito esse trabalho anteriormente e disponibilizado o uso para o público. A vantagem desta técnica é que você tem nesse caso, acesso direto aos dados de seu interesse e isso pode facilitar muito sua vida de investidor programador.

IMPORTANTE: O uso de qualquer uma dessas técnicas não é ilegal, mas vale ressaltar que pode ser imoral… Não é bacana você sair buscando informações de maneira indiscriminada na web para usar em benefício próprio sem nem citar a fonte ou pesquisando minimamente se o portal possui políticas para uso desses dados, e segui-las 😉

2. Bibliotecas

Existem hoje uma infinidade de bibliotecas (APIs ou não), que facilitam muito o seu trabalho. Antes de você alguém já precisou fazer este trabalho e teve a generosidade de disponibilizar esse código para que outras pessoas utilizassem. 

Algumas bibliotecas fazem funções muito parecidas, porém com vantagens e desvantagens sobre as outras, portanto, antes de sair “codando”, faça uma boa pesquisa sobre quais bibliotecas poderiam te ajudar no seu projeto. Certamente vai existir uma ou várias que lhe ajudarão no todo ou em parte do seu projeto.

Abaixo descrevemos algumas bibliotecas para ilustrar os conceitos descritos anteriormente.

  • Beautiful Soup: Essa é uma biblioteca em Python para fazer todo o trabalho de resgatar dados de páginas e documentos em html e xml. Você pode saber mais sobre a BSoup nesse link.

exemplo simples de utilização da BSoup

# Anchor extraction from HTML document
from bs4 import BeautifulSoup
from urllib.request import urlopen

with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
    soup = BeautifulSoup(response, 'html.parser')
    for anchor in soup.find_all('a'):
        print(anchor.get('href', '/'))

(fonte: wikipedia)

  • Scrapy: a scrapy é uma outra biblioteca com funcionalidades parecidas com a Bsoup com algumas vantagens sobretudo em performance, porém a curva de aprendizado um pouco mais íngreme que a anterior.  Para saber mais sobre Scrapy nesse link

*No link abaixo você poderá ver com maiores detalhes as vantagens e desvantagens sobre as duas bibliotecas: 

Scrapy VS Beautiful Soup

  • Yahoo finance: O Yahoo Finance é um portal que concentra dentre várias informações relacionadas ao mercado de ações, também as séries históricas das principais ações do mundo (inclusive da nossa BOVESPA). A boa notícia é que ele disponibiliza uma API, que pode ser incorporada facilmente ao seu código como no exemplo abaixo.
# Instalando o yahoo finance
!pip install yfinance --upgrade --no-cache-dir
import yfinance as yf #Instalando e importando a API no código

# escolhendo uma carteira fictícia para exemplificarmos conceitos
codigo = ['OIBR3.SA']
# carregando dados do valor de uma ação qualquer no mês de julho
oibr3 = yf.Ticker(codigo[0])
oibr3.history(start='2020-01-01', end='2020-07-31') #carregando os dados de uma ação qualquer

Viu como é fácil?

Nos demais artigos vamos abordar os principais algoritmos de machine learning com suas respectivas bibliotecas, assim como para a fase de visualização de dados. Nesse artigo vamos somente coletar dados usando para isso a API do portal yahoo finance e algumas funções da biblioteca urllib.request para buscar as informações de séries históricas de um ou mais papéis.

3. Onde buscar meus dados?

Como vamos trabalhar com dados de bolsa de valores e de mercado, qual a melhor fonte de dados para estas duas finalidades?

Bom, felizmente essa é a parte mais fácil, pois dados não faltarão para o seu projeto. Existem várias fontes que podem ser exploradas usando as bibliotecas apresentadas aqui.

A seguir listamos aqui as fontes que utilizaremos inicialmente nesse nosso projeto. Digo inicialmente pois podemos acrescentar mais informações a qualquer momento. A cotação de uma ação pode ser influenciada por um post no twitter por exemplo. Para podermos desenvolver um projeto completo precisamos estar preparados para várias situações.

4. Onde armazenar meus dados?

Essa é uma decisão importante e que tem que ser pensada bem no início do projeto. Não adianta você começar a baixar dados e começar a trabalhar com estes para depois, lá na frente, decidir armazenar seus dados em um local diferente. Essa situação queremos evitar pois só vai te trazer retrabalho e te forçar a testar novamente sua aplicação toda a cada mudança que você vai ter que fazer em rotinas que já estavam funcionando.

O ideal é que você possua um banco de dados mínimo para trabalhar. Existem várias opções free no mercado e que podem ser utilizadas com total confiança. Assim você pode baixar seus dados e criar rotinas específicas de pré-processamento para limpeza e tratamento dos dados antes de carregar no seu banco de dados. 

Por outro lado para manter um banco de dados na nuvem pode gerar custos que você não esteja disposto a pagar. Por isso essa é uma decisão a ser tomada no início.

Como nosso foco aqui é simplesmente educativo vamos manter nossos dados em arquivos do tipo CSV. Oportunamente vamos mostrar como migrar esses dados para um servidor de banco de dados.

Quais informações devo buscar? Essa pergunta é mais complicada…

Cada investidor tem um perfil de investimento diferente do outro. Assim como as decisões de como investir variam de um investidor para outro, também as informações necessárias para tomada de decisão também variam de pessoa para pessoa.

Ok, existem informações que são úteis para a maioria dos perfis de investimento e são essas que vamos demonstrar aqui como coletar, tratar e exibir insights importantes, mas cada investidor tem que se perguntar quais são as informações importantes para sua tomada de decisão e usar as ferramentas descritas aqui neste artigo para conseguir obtê-las.

Basicamente vamos buscar informações histórica do valor de cotação das ações e também informações da empresa em si. Além disso vamos buscar informações de mercado que possam dar suporte às nossas análises e resultados.

5. Mão na massa

Depois de tanta teoria, vamos ao que interessa…

Todos os exemplos que vamos mostrar aqui serão desenvolvidos no Google Colab, para não gastarmos tempo falando de ambiente de desenvolvimento. Porém todo código que for exibido aqui pode ser executado também no ambiente Jupyter local na sua máquina, com os devidos ajustes.

Vamos fazer tudo isso em 3 passos:

5.1. Buscando dados históricos de uma ação e guardando em um arquivo .CSV

Como informamos anteriormente, vamos usar a API do portal Yahoo Finance para baixar os dados históricos com as cotações de um determinado papel e guardar em nossa base para utilizarmos futuramente.

Antes de mais nada, vamos criar uma estrutura de pastas para que nossos dados fiquem mais organizados. Na figura a seguir faço uma sugestão de estrutura de pastas para o nosso projeto, porém você pode criar e usar uma estrutura que já esteja acostumado.

Essa estrutura começa com a pasta stocks4all que é o nome do nosso projeto, seguida da pasta code que é onde ficarão todos os códigos do projeto e da pasta data que é onde ficarão nossos arquivos de dados e que descrevo os detalhes abaixo:

Segue uma breve descrição do que cada pasta representa.

Raw: A pasta raw é a pasta onde serão armazenados todos os arquivos originais que ainda não foram trabalhados no projeto. Os arquivos contidos nesta pasta não sofrerão alterações, assim temos a garantia da origem de cada dado que vamos utilizar em nossa aplicação.

Clean: A pasta clean possui os arquivos dos dados que já passaram pela etapa de pré-processamento, ou seja, já foram limpos e possivelmente já sofreram algum tipo de transformação. Podem ou não estar na mesma estrutura de armazenamento na qual foram baixados da web.

Output: Essa pasta contém todos os arquivos que iremos gerar como saída da aplicação, seja para exportar dados para outro sistema, seja para compartilhar com algum usuário que solicitou alguma informação.

5.2. Gravando no Google Drive via código

Antes de gravar no Google Drive é necessário fazer a conexão do sua aplicação ao Drive. A sequência de comandos a seguir vai permitir que você informe um token que vai habilitar seu código a executar comandos de manipulação de arquivos no Drive da conta google que você informar.

# para que possamos manipular os arquivos no google colab
# precisamos antes preparar o drive para estar disponível 
# durante o processo
# esta parte do código é específica para o ambiente do google colab
# para o ambiente jupyter algumas alterações são necessárias
 
from google.colab import drive
drive.mount('drive')

Habilitando o Drive

Escolhendo a conta Google

Token para ser informado no seu código
# agora que já temos nosso drive disponível podemos exportar nosso dataset
# pra a pasta raw que deve conter somente os arquivos originais
 
folder = "drive/My Drive/stocks4all/data/raw/"
filename = codigo[0]+'.csv'
path = folder+filename
 
df_bolsa.to_csv(path, index=False, sep=';') #Gravando nosso primeiro arquivo

Pronto… olha nosso arquivo lá.

5.3. Buscando Informações Financeiras da nossa ação

Conforme informado antes, vamos usar o portal Oceans14 que possui informações financeiras bem relevantes acerca das empresas que estão na BOVESPA e em um formato que facilita a extração. 

Os passos seguintes demonstram como podemos coletar todos os dados que são importantes para nossas análises e também como salvar em arquivos no nosso Drive de maneira organizada.

Como escolhemos a ação da empresa Oi Telecomunicações, os dados dessa empresa estão no link abaixo. Acesse para ver como estão dispostos e aproveite para navegar no portal como um todo pois tem muita informação interessante lá.

https://www.oceans14.com.br/acoes/oi/oibr/balanco-dividendos
página da Oi no portal Oceans14

A seguir vamos buscar essas informações no nosso código. Pra isso vamos usar a biblioteca urllib do próprio python.

from urllib.request import Request, urlopen

Basicamente, dessa biblioteca, vamos precisar da classe Request e da função urlopen.

  • Classe Request: Essa classe vai fazer as funções de uma consulta a uma URL qualquer, como se você estivesse consultando essa mesma página no seu browser. Através dessa classe vamos criar o objeto que representa a nossa página e que vamos utilizar a seguir.
  • Função urlopen: Esta função carrega o conteúdo da página em forma de uma lista de dataframes, ou seja, como nossos dados estão em formato de tabelas, é tudo o que precisamos.

As figuras seguintes mostram o uso dessas duas funções e posterior exploração dos dados recebidos. Aproveitando que já estamos podendo gravar no Drive, vamos salvar os dados financeiros da nossa ação de maneira organizada conforme abaixo.

#vamos criar uma consulta para cada um desses blocos de informação
#e vamos salvar em pastas separadas no drive
 
Tick_url='https://www.oceans14.com.br/acoes/oi/oibr/balanco-dividendos'
tick_page = Request(tick_url, headers={'User-Agent': 'Mozilla/5.0'})   
tick_page = urlopen(tick_page).read()
#quando executamos o próximo comando, todas as informações da página   #são carregadas, na sequência temos que separar cada parte que #representa cada bloco de informação.
tick_data=pd.read_html(tick_page, decimal=",", thousands=".", header=0)
# 1) Histórico de resultados
performance_hist = tick_data[3]
path = folder+'performance_hist_OIBR3.csv'
performance_hist.to_csv(path, index=False, sep=';')
 
# 2) Histórico de indicadores
kpis_hist = tick_data[4]
path = folder+'kpis_hist_OIBR3.csv'
kpis_hist.to_csv(path, index=False, sep=';')
 
# 3) Dívida
obligation_hist = tick_data[5]
path = folder+'obligation_hist_OIBR3.csv'
obligation_hist.to_csv(path, index=False, sep=';')
# 4) Fluxo de Caixa
cashflow_hist = tick_data[6]
path = folder+'cashflow_hist_OIBR3.csv'
cashflow_hist.to_csv(path, index=False, sep=';')
 
# 5) Balanço Patrimonial
balancesheet_hist = tick_data[7]
path = folder+'balancesheet_hist_OIBR3.csv'
balancesheet_hist.to_csv(path, index=False, sep=';')
 
# 6) Liquidez
liquidity = tick_data[8]
path = folder+'liquidity_OIBR3.csv'
liquidity.to_csv(path, index=False, sep=';')

Finalmente, podemos conferir no Drive os arquivos resultantes do nosso código. Conforme organizamos, os dados foram gravados na pasta raw criada para os arquivos originais.

6. Conclusões

Nesse primeiro artigo mostramos como buscar os dados que precisamos na web para nossas análises de ações na BOVESPA. Nos próximos artigos vamos começar a manipular esses dados avançando para a fase de pré-processamento, que é uma das fases mais importantes em projeto de dados.

Até lá…

Gostou? Compartilhe!

Você pode gostar:

1 Comment

  • Reply
    Maykow
    5 de agosto de 2020

    Excelente artigo Rodrigo!!! Claro nos comentários e muito útil nesse período de grande valorização das ações! Esperando pelos próximos artigos!

Comentários:

%d blogueiros gostam disto: