Análise de Dados para Detecção de Fraude

On 10 de abril de 2021, by Jaqueline Dias

Como sabemos, a análise de dados beneficia diversas áreas de negócio. Nos próximos artigos vamos explorar a análise de fraude, aplicando técnicas descritivas e prescritivas. Mas antes de mergulharmos nos dados e técnicas, vamos compreender melhor a fraude e quais os impactos dela nos negócios.

O que é fraude? Quais suas características e tipos? Como podemos usar os dados nas análises? Qual a diferença entre detecção e prevenção de fraude? Quais as características desses dados? Quais pressupostos e métricas devemos ter em mente? Qual os estágios do modelo de análise de fraude? Como avaliar um modelo gerado? Essas e outras perguntas surgem quando começamos a nos aprofundar nesse campo. Ao longo do texto vamos responder cada uma delas.

O que é fraude?

Em uma pesquisa rápida no Google, encontramos a seguinte definição para fraude:

“qualquer ato ardiloso, enganoso, de má-fé, com o intuito de lesar ou ludibriar outrem, ou de não cumprir determinado dever; logro.”

A definição apresenta a essência da fraude, mas não detalha a sua natureza e características. A definição apresentada por Van Vlasselaer et al. (2015) caracteriza de forma mais completa a fraude, um fenômeno multifacetado: “A fraude é um crime incomum, bem considerado, imperceptivelmente oculto, que evolui com o tempo e, muitas vezes, cuidadosamente organizado, que aparece em muitos tipos de formas .”

Assim são apresentados as principais características da fraude:

Incomum, os casos legítimos encobrem os casos de fraude, além de apenas uma parte deles serem identificados.
Anonimato, os casos de fraude passam despercebidos entre os casos não fraudulentos, buscam sempre manter um comportamento próximo ao esperado, contido e planejado.
Dinâmica, os métodos são aprimorados e adaptados constantemente, evoluem à frente dos sistemas de fraude.
Organizada, os fraudadores se comunicam, trocam informações e podem atuar em conjunto.

Os principais tipos de fraude são de cartão de crédito, seguro, plano de saúde, garantia do produto, identidade, cliques, evasão fiscal, lavagem de dinheiro e corrupção. Em nosso artigo prático, vamos analisar fraudes de cartão de crédito. Onde em geral temos menos de 0,05% de transações fraudulentas, ou seja, um conjunto de dados extremamente desbalanceados. Além disso, o tempo para detecção de fraude deve ser inferior a oito segundos. Esses fatores devem ser considerados na escolha do modelo analítico e nos critérios de escolha do modelo.

Donald R. Cressey (1953) em seu livro “Other People ‘s Money: A Study of the Social Psychology of Embezzlement” apresenta o triângulo da fraude. A partir de uma hipótese, em que mesmos pessoas confiáveis podem se tornar fraudulentas, diante de um problema financeiro, quando acreditam que não serão descobertas e usam da confiança já adquirida. As três motivações que veremos a seguir nos ajudam a entender a fraude ocupacional, cometida por pessoas sem histórico de crimes, adicionando complexidade a identificação de padrões na detecção da fraude:

Pressão: indivíduo sob alguma pressão, pode se tornar fraudador.
Oportunidade: indivíduo tem a oportunidade para resolver algum problema de forma irregular, não autorizada.
Racionalização: fator psicológico que explica porque o indivíduo comete a fraude.

No entanto, não podemos resumir as motivações para a fraude apenas a fatores psicológicos e oportunidades. É um evento complexo, que também engloba o aspecto social. Quanto maior o percentual da economia informal de um país, mais propenso está a fraudes.

Qual o impacto para o negócio?

Impacto da fraude para o negócio — Criado por Freepik Storyset

Como podemos imaginar pelo senso comum, as fraudes são eventos indesejados para qualquer negócio. Certo? Não é tão simples assim, mas vamos entender melhor os custos envolvidos.

Em compras realizadas pela internet, em que o cliente não está presente, a responsabilidade sobre a compra é do varejista, não do banco emissor ou instituição do cartão. Sendo assim, o vendedor está sujeito a perder mercadorias mais custos de taxas bancárias e frete, em transações fraudulentas. O que pode levar ao lojista optar por romper convênios com operadoras de cartão.

Somos levados a pensar que os varejistas e operadoras de cartão, precisam de sistemas antifraude rígidos. Porém, um sistema rigoroso pode representar uma barreira para clientes legítimos, grande parte das operações. Em alguns casos, avaliando o ticket médio, reprovar indevidamente um bom cliente pode ser um prejuízo ainda maior. Considere uma marca pequena que trabalha com uma margem apertada de lucro. Reprovar um cliente por medo de fraude pode representar um custo maior. O cliente pode preferir nas próximas oportunidades, comprar com grandes marcas.

Trabalhamos com um tempo curto para a análise da transação, não queremos criar barreiras para a conversão do visitante em comprador. Considere o ticket médio da transação, onde trabalhar com um tempo maior pode ser preferível. É importante ter em mente no momento da análise, alguns indicadores saudáveis como parâmetro. Buscamos aumentar a taxa de aprovação, no geral ela fica acima de 97%, consulte sempre os indicadores de referência do setor em específico.

Sistema Antifraude

Diante deste cenário complexo, as empresas recorrem aos sistemas antifraude, próprios ou de terceiros. Eles tem como objetivo identificar informações fraudulentas com o menor número de alarmes falsos. Uma transação legítima classificada como uma fraude se caracteriza como um alarme falso (falso positivo). Como destacado anteriormente, para transações financeiras o custo de não detectar uma fraude pode ser alto, mas alarmes falsos podem gerar insatisfação dos clientes legítimos, então, temos um trade-off.

O sistema antifraude tem o objetivo também de viabilizar a venda, não é apenas proteção. Transformar em ROI todo o investimento depositado no negócio, através de investimento em marketing e funcionários. Não devemos olhar para os clientes como possíveis fraudadores, sempre mantenha o princípio que todos são bons, afinal a fraude é um evento raro.

Qual a diferença entre a detecção e prevenção de fraude?

A detecção e prevenção de fraude, são formas complementares para reduzir a fraude. A Prevenção de fraude consiste em medidas realizadas para evitar que ocorra fraude antes do término de uma transação, atuação proativa. Ocorre durante a fase de autenticação do usuário, através de senhas, frases secretas, dispositivos de geração de código (tokens). Já a Detecção de fraude ocorre quando a prevenção não consegue evitar a fraude, atuação reativa. Busca identificar a fraude o mais rápido possível, assim que ocorrer.

São áreas em constante evolução, pois a fraude é um evento dinâmico que está sempre em evolução. Criminosos estão constantemente desenvolvendo novos métodos e adaptando suas estratégias. Dessa forma, os métodos de detecção também precisam se renovar e adaptar constantemente, uma tarefa cada vez mais complexa e desafiadora. Após detectar a fraude, duas medidas são tomadas, corretivas e preventivas. Medidas corretivas envolvem a reconstituição e compensação. Medidas preventivas são ações tomadas para evitar fraudes do mesmo tipo, incorporando novas regras/padrões.

Quanto antes forem tomadas melhor, mais rápido a fraude será detectada, no entanto a fraude se torna mais fácil de ser detectada à medida que o tempo passa. Porque haverá um maior número de ocorrências do evento com o tempo (efeito big data, maior volume de dados), tornando a fraude mais aparente e estatisticamente mais fácil de ser detectada. Além da reincidência do fraudador, temos o efeito viral entre os fraudadores. Outro fator é o avanço da tecnologia, com o passar do tempo para a detecção de fraudes.

Análise de Fraude

Como visto, as fraudes podem ter um alto impacto sob o negócio. Os varejistas precisam entender o perfil da fraude no seu estabelecimento. Analisar casos de fraude e reprovados, envolve buscar explicações ou indícios que ajudem a entender o comportamento desses clientes. Antes de iniciar a análise tenha em mente as premissas de negócio, pois elas ajudam a guiar as decisões de análise. Por exemplo, ter como princípio que todos os clientes são bons. Sendo a fraude um evento raro e sabendo que é um risco esperado no varejo, o objetivo final não é ter fraude igual a zero. O negócio pode ter uma margem para ampliar sua aprovação, valorizando a confiança nos clientes e processo.

Dados e fraude

Atualmente, além dos dados transacionais das operadoras de cartão de crédito. Busca-se cada vez mais agregar novas fontes de dados como dados de redes sociais e streaming de dados, ajudando a ter uma visão em tempo real, para comprovar ações. O setor vem trabalhando para mudar a mentalidade com relação ao compartilhamento de dados de fraude entre os diversos setores. Conhecido como “efeito de rede”, reunir dados de fraude diversas, possibilita que tanto clientes como varejistas não tenham perdas. Sendo a fraude um evento raro e organizado, com o efeito de rede, crescemos o número de exemplos de fraude. Alimentando e retroalimentando os modelos analíticos com mais exemplos, sua precisão será cada vez maior. Beneficiando clientes e varejistas. Expande a capacidade estatística ao utilizar dados históricos e em maior volume, abrangendo diversos segmentos. Proporciona o aumento do número de clientes conhecidos, levando ao aumento da taxa de aprovação. Esses dados devem somente ser usados com o objetivo de proteção.

Com relação às características dos dados, estamos trabalhando com dados, em geral significa lidar com um problema de aprendizado supervisionado de classificação binária com um conjunto de dados extremamente desbalanceado. Devemos considerar essas particularidades, ao escolher os métodos de aprendizado.

Etapas da Análise de Fraude

A construção do modelo ocorre de forma iterativa, as etapas seguidas podem ser avaliadas a qualquer momento.

Definir bem o problema é o ponto de partida para qualquer projeto de análise.
Identifique os dados relevantes para resolver o problema colocado.
A análise exploratória auxilia nessa etapa que irá impactar na fase de construção dos modelos.
Avaliar tratamentos possíveis para inconsistências dos dados, como valores ausente e duplicações.
Avaliar as transformações necessárias para os atributos como por exemplo agregação e binarização.
Construção do modelo de detecção de fraude a partir dos dados tratados nas fases anteriores.
Avaliação e interpretação do modelo, não apenas pela área analítica como pelos especialistas de fraude. Caso aprovado, o modelo pode ser colocado em produção como uma aplicação analítica de apoio à decisão ou mecanismo de pontuação.
Assegurar o monitoramento e teste contínuo do modelo.

O processo de implementação de modelos de detecção de fraude envolve alguns desafios, acarretando em dificuldades para cumprir os objetivos colocados. Entre eles a característica dinâmica da fraude, novas estratégias surgem constantemente. Sistemas e modelos devem ser adaptativos e resolver a fraude o mais rápido possível. O modelo deve ser avaliado de forma cuidadosa, seguem algumas características chaves:

Precisão estatística: Garantir significância estatística, o modelo deve generalizar bem.
Interpretabilidade: Preferir modelos interpretáveis de caixa branca, precisamos compreender como o resultado foi obtido, para confiar na avaliação.
Eficiência Operacional: O tempo de avaliação do modelo é crucial em muitos casos. Geralmente o tempo de decisão é limitado. A preparação dos dados e modelo devem ser rápidos.
Custo: Custo de coletar, analisar, processar os dados e colocar o modelo em produção. Deve ser analisado ao iniciar o projeto, analisando o retorno sobre o investimento.
Compliance: Está alinhado com as regulamentações, legislação interna e externa do setor.

Especialistas ou Algoritmos

O uso apenas de um modelo analítico sozinho não é eficaz para definir todos os aspectos subjetivos que diferenciam uma compra legítima de uma fraude. Restringir a avaliação a inteligência estatística, pode levar a reprovação de compras legítimas e aprovação de fraudes. Os algoritmos podem encontrar vários problemas, dentre eles diferenciar transação legítimas das fraudulentas, uma vez que, uma transação não normal para um cliente pode ser típica para outro. E um usuário legítimo pode ocasionalmente fazer uma transação que pode parecer suspeita. Especialistas olham o cenário como um todo, buscando ser o mais assertivo possível. Podemos unir as duas abordagens, onde o sistema de avaliação de fraude baseado em especialista depende de insumos e avaliação, requer muita intervenção humana, já a abordagem automatizada pode trazer eficiência e eficácia para detectar fraude. Temos então dois tipos de aprovação:

Manual: A análise humana possibilita retroalimentar o modelo instantâneamente, ao classificar a transação como fraude ou não. Sendo assim mais uma fonte de informação para a variável resposta. Esse tipo de análise pode ocorrer de várias formas, não apenas ligando para o cliente. A ligação é uma das últimas opções, antes utiliza-se de aplicativos, fator de autenticação, identificação de dispositivo e outras soluções embarcadas.
Automática: Proporciona uma melhor experiência para o usuário ao obter uma resposta mais rápida, mas há o risco de uma maior reprovação por ter menos informações para avaliar. Ter um maior percentual de aprovação automática é um diferencial competitivo almejado pelas empresas.

Os fraudadores por outro lado, podem também adotar novas técnicas de fraude resultando em novos padrões de comportamento, dificultando mais a tarefa de detecção além dos dois problemas apresentados. Como solução, o sistema detecta essas evidências e combiná-las, gerando um score total de suspeita com a menor taxa de alarmes falsos. É desejável que os sistemas possam aprender novos padrões de comportamento, mais recentes dos usuários, e se adaptar a eles. O desafio surge com a necessidade de detectar fraudes em tempo real, transações financeiras na internet . Ou seja, antes de terminar a execução da transação, pois o custo associado com a fraude de uma transação financeira pode ser bastante elevado.

Como vimos, a análise de fraude é um trabalho em conjunto e em constante evolução. Requer uma boa compreensão das regras de negócio e dos métodos analíticos disponíveis. No próximo artigo, iremos abordar os aspectos técnicos para ajustar os modelos aos dados extremamente desbalanceados e quais métricas de avaliação utilizar.

Referências

Conteúdos ao Cubo

Por fim, deixo algumas sugestões de conteúdos que você pode encontrar no Dados ao Cubo, sempre falando sobre o mundo dos dados.

Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.

Jaqueline Dias

Uma pessoa curiosa, que gosta de sempre aprender algo novo. Mestra em Demografia, Estaticista, Mestranda em Ciências no momento.

Data Science Machine Learning

Gostou? Compartilhe!