Agrupamento de Conjuntos de Instâncias: Uma Aplicação ao ENEM
Autores
5690 |
Victor Marinho Furtado
|
2615,2489
|
5691 |
2615,2489
|
Informações:
Publicações do PESC
O agrupamento de conjuntos de instâncias (observações) é um problema cujo objetivo é agrupar objetos que são representados por uma amostra. A abordagem adotada nesses casos é calcular alguma estatística dessas amostras, geralmente a média, e utilizá-la para representar o objeto. Assim, um algoritmo de agrupamento tradicional pode ser aplicado para resolver o problema, calculando a distância entre as estatísticas. Esta dissertação apresenta uma nova abordagem para este tipo de problema utilizando os conjuntos originais. A comparação entre os objetos para calcular a similaridade é feita a partir do teste de Kolmogorov-Smirnov para duas amostras. Este teste é utilizado quando se deseja decidir se duas amostras foram geradas da mesma população, a partir do cálculo do p-valor. Esta dissertação apresenta um estudo que indica ser viável a utilização do p-valor como uma medida de similaridade na aplicação de um método de agrupamento. Por fim, experimentos foram conduzidos para comparar os resultados obtidos entre o método proposto e a abordagem que calcula uma estatística das amostras. O problema abordado foi o agrupamento dos municípios do estado do Rio de Janeiro baseado nas notas de matemáticas do ENEM de 2011 e o experimento mostrou que o método proposto é viável e em alguns casos mais eficiente do que calcular alguma estatística.
Sets of instances (observations) clustering is a problem whose goal is to cluster objects that are represented by a sample. In these cases, the approach adopted is to calculate a statistical measure, usually the average, and use it to represent the object. Thus, a traditional clustering algorithm can be applied to solve the problem by calculating the distance between the statistical measures. This paper presents a new approach to solve this problem using the originals sets of instances (observations). We use the two-sample Kolmogorov-Smirnov test to estimate the similarity between the objects. This paper shows that the p-value from the Kolmogorov-Smirnov test can be used as a similarity measure in a clustering algorithm. Finally, an experiment was conducted to compare the results obtained by the proposed method and the statistical measure approach. The problem addressed was to cluster the cities of Rio de Janeiro, based on the math grades in ENEM of 2011. The result showed that the proposed method is feasible and in some cases more efficient than the statistical measure approach.