Algoritmos de aprendizado tradicionais induzidos por conjuntos de treinamento complexos e altamente desbalanceados têm apresentado dificuldade em diferenciar entre os grupos. A tendência é produzir modelos (ou regras) de classificação que favorecem a classe com maior probabilidade de ocorrência (majoritária), resultando em uma baixa taxa de reconhecimento para o grupo minoritário. O objetivo desse artigo é fornecer uma investigação sobre esse problema, que tem atraído o interesse de muitos pesquisadores nos últimos anos. No escopo de tarefas de classificação binária, são apresentados conceitos associados à natureza do problema de classes desbalanceadas e métricas de avaliação, incluindo os fundamentos da análise ROC (Receiver Operating Characteristic); além do estado da arte das soluções propostas na literatura. Uma breve discussão a respeito de como os tópicos abordados no artigo podem ser estendidos para o aprendizado multiclasse é também fornecida.
classes desbalanceadas; aprendizado supervisionado; métricas de avaliação; análise ROC; métodos de reamostragem; abordagem sensível ao custo