RESUMO
Contexto:
nos últimos anos, a análise de clusters tem estimulado os pesquisadores a explorar novas maneiras para entender o comportamento dos dados. A facilidade computacional desse método e sua habilidade de gerar resultados consistentes, mesmo em bases de dados pequenas, explicam isso em certa medida. Entretanto, os pesquisadores frequentemente se equivocam ao sustentar que a clusterização é um território no qual vale tudo. A literatura mostra o oposto: eles têm que ser cuidadosos, especialmente em relação ao efeito dos outliers na formação dos clusters.
Objetivo:
neste artigo tutorial, nós contribuímos para essa discussão ao apresentarmos quatro técnicas de clusterização com suas respectivas vantagens e desvantagens no tratamento dos outliers.
Métodos:
para isso, nós trabalhamos com uma base de dados gerenciais, analisando-a por meio das técnicas k-means, PAM, DBSCAN e FCM.
Resultados:
nossas análises indicam que os pesquisadores têm diferentes técnicas de clusterização ao seu dispor para tratar os outliers adequadamente.
Conclusão:
nós concluímos que os pesquisadores precisam ter um repertório mais diversificado de técnicas de clusterização. Afinal, isso daria a eles duas alternativas empíricas relevantes: escolher a técnica mais apropriada para os objetivos das suas pesquisas ou adotar uma abordagem multimétodo.
Palavras-chave:
análise de clusters; outliers; k-means; DBSCAN; clusterização difusa