Acessibilidade / Reportar erro

SMOTE_EASY: UM ALGORITMO PARA TRATAR O PROBLEMA DE CLASSIFICAÇÃO EM BASES DE DADOS REAIS

SOMOTE_EASY: AN ALGORITHM TO TREAT THE CLASSIFICATION ISSUE IN REAL DATABASES

RESUMO

A maioria das ferramentas de classificação assume que a distribuição dos dados seja balanceada ou com custos iguais, quando classificados incorretamente. Mas, na prática, é muito comum a ocorrência de bases de dados onde existam classes desbalanceadas, como no diagnóstico de doenças, no qual os casos confirmados são geralmente raros quando comparados com a população sadia. Outros exemplos são detecção de chamadas fraudulentas, detecção de intrusos em redes. Nestes casos, a classificação incorreta de uma classe minoritária (ex. diagnosticar uma pessoa portadora de câncer como sadia) pode resultar em consequências mais graves que classificar de forma incorreta uma classe majoritária. Por isso, é importante o tratamento de bases de dados em que ocorram classes desbalanceadas. Este artigo apresenta o algoritmo SMOTE_Easy, que é capaz de efetuar a classificação de dados, mesmo com uma alta taxa de desbalanceamento entre as diferentes classes. Para provar sua eficácia, foi feita uma comparação com os principais algoritmos para tratar problemas de classificação onde existam dados desbalanceados. Obteve-se êxito em praticamente todas as bases de dados testadas.

Palavras-Chave:
Aprendizado de Máquina; Classificação de Dados; Máquinas de Vetores de Suporte; Comitê de Máquinas; Classes Desbalanceadas

TECSI Laboratório de Tecnologia e Sistemas de Informação - FEA/USP Av. Prof. Luciano Gualberto, 908 FEA 3, 05508-900 - São Paulo/SP Brasil, Tel.: +55 11 2648 6389, +55 11 2648 6364 - São Paulo - SP - Brazil
E-mail: jistemusp@gmail.com