Relatório Técnico: Agrupamento de Dados com K-Means
Autor: Bruno Assis
Data: 19 de setembro de 2025
Projeto: Análise de Agrupamento com K-Means
1. Exploração dos Dados
O objetivo deste projeto é aplicar o algoritmo de agrupamento não supervisionado K-Means para identificar clusters distintos em um conjunto de dados. Para esta análise, foi utilizado um dataset sintético de 300 amostras e 2 características, gerado através da função make_blobs da biblioteca Scikit-learn. Este dataset simula um cenário onde se busca agrupar corpos celestes com base em duas medições, como luminosidade e temperatura, sem conhecimento prévio de suas classificações.
As estatísticas descritivas não revelam uma estrutura óbvia, mas a análise visual inicial dos dados em um gráfico de dispersão sugere a presença de agrupamentos naturais.
2. Pré-processamento
O pré-processamento é uma etapa crítica para algoritmos baseados em distância, como o K-Means. A presença de características em escalas distintas pode enviesar o modelo, atribuindo uma importância desproporcional à característica com maior variância.
Para mitigar este efeito, foi aplicada a técnica de padronização utilizando o StandardScaler do Scikit-learn. Este processo transforma os dados para que cada característica tenha uma média de 0 e um desvio padrão de 1, garantindo que todas as features contribuam de forma equitativa para o cálculo da distância euclidiana. Nenhuma amostra com valor ausente foi identificada.
3. Divisão dos Dados
Em problemas de aprendizado não supervisionado, como o agrupamento, o objetivo não é treinar um modelo para prever valores em dados futuros, mas sim descobrir a estrutura latente no conjunto de dados completo. Por essa razão metodológica, a separação tradicional dos dados em conjuntos de treino e teste não foi aplicada. Todo o dataset foi utilizado para a identificação dos clusters, o que é uma prática padrão para este tipo de análise.
4. Treinamento do Modelo
A implementação do K-Means requer a definição prévia do número de clusters (k). Para determinar o valor ótimo de k de forma empírica, foi utilizado o Método do Cotovelo (Elbow Method). Este método consiste em executar o algoritmo K-Means para um intervalo de valores de k (neste caso, de 1 a 10) e calcular a Soma dos Quadrados Intra-Cluster (WCSS) para cada iteração.
O gráfico resultante da WCSS versus o número de clusters é então analisado. O "cotovelo" – ponto onde a taxa de diminuição da WCSS se torna marcadamente mais lenta – indica o valor de k que representa o melhor equilíbrio entre o número de clusters e a compactação intra-cluster.
5. Avaliação do Modelo
A avaliação do modelo foi realizada por meio de análise visual e quantitativa.
Primeiramente, os clusters identificados pelo algoritmo foram plotados, com cada grupo recebendo uma cor distinta e seus respectivos centroides marcados em vermelho.
Para uma avaliação quantitativa, foi calculado o Score de Silhueta (Silhouette Score), que mede a qualidade do agrupamento. O score varia de -1 a 1, onde valores mais próximos de 1 indicam que os clusters são densos e bem definidos. O modelo treinado alcançou um Score de Silhueta de aproximadamente 0.7132, o que corrobora a alta qualidade do agrupamento e a boa separação entre os clusters.
6. Conclusão
Este projeto demonstrou com sucesso a aplicação do algoritmo K-Means para identificar estruturas latentes em um conjunto de dados não rotulado. Através de uma metodologia rigorosa, que incluiu a normalização dos dados e a seleção empírica do número de clusters via Método do Cotovelo, foi possível treinar um modelo que agrupou os dados em 4 clusters distintos e coesos.
A avaliação, tanto visual quanto quantitativa (Score de Silhueta), confirmou a eficácia do modelo. Como possíveis melhorias futuras, sugere-se a aplicação de outros algoritmos de agrupamento, como o DBSCAN ou o Agrupamento Hierárquico, para comparar os resultados e validar a estrutura de cluster encontrada.