Autores

6074
2780,2489
6075
2780,2489

Informações:

Publicações do PESC

Título
Missing Data Analysis in Classification and Regression Problems
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
9/11/2016
Resumo

Em bancos de dados reais a falta de dados é um problema inerente. Vários estudos forneceram ferramentas para melhorar a imputar tais dados com melhor qualidade. Algoritmos de classificação e regressão geralmente esperam que os dados fornecidos a eles estejam completos, o que não é o caso de vários bancos de dados atuais. Por isso este estudo investigou o efeito de dados faltantes na estimação de dados. Para realizar esta pesquisa dezoito bancos disponíveis publicamente foram escolhidos. Cada um teve parte de seus dados retirados artificialmente. Eles foram posteriormente tratados de quatro maneiras diferentes: com imputação por k vizinhos mais próximos, imputação ingênua, e remoção de linhas ou colunas com dados faltantes. Depois disso cada base tratada foi estimada com quatro algoritmos diferentes. Os resultados das estimações depois do tratamento de dados faltantes foram comparados com os da estimação utilizando a base de dados original. Esses mostraram que qual tratamento escolher depende de uma série de fatores como quantidade de dados faltantes, quais atributos tem dados faltantes e se o objetivo da estimação de classificação ou regressão. Em mais de 50% dos casos os métodos mais simples (que removem dados) desempenharam melhor do que os computacionalmente mais complexos. Outro objeto de estudo foi como os dados estão faltando tinham efeito na classificação ou regressão. Os dados foram simulados em estar faltando de duas maneiras, uma enviesada e outra completamente randômica. Os resultados mostraram que, ainda que houvesse um grande vi es introduzido nas bases de dados, as diferenças entre os resultados das estimações desses bancos foram menores que 3% em mais da metade dos casos. Este estudo então conclui com um passo-a-passo sugerido em como abordar dados faltantes em bases de dados a serem utilizadas para regressão ou classificação, baseado nos resultados aqui encontrados.

Abstract

Incomplete databases with missing data is a problem inherent to real world databases. A large set of studies has provided tools to better input data with better quality. Regression and classification algorithms usually expect data to be be fully filled which is not often the case in many of nowadays databases. Therefore this study investigates the e ects of missing data in data estimation. To perform such research eighteen publicly available databases were chosen. Each had data artificially missing. The missing data was then treated in four di erent manners: with k nearest neighbors imputation, nave imputation, row with missing data removal and columns with missing data removal. After treatment each of the database was estimated with four estimation algorithms 3 decision tree based ones and k nearest neighbor estimator. The results of the estimations after missing data treatment were compared to the results of estimation with the full database. Results show that the treatment method of choice depends on a series of factors as amount of data missing, which attributes have missing data and if the goal is classification or regression. In more than 50% of the cases simplest methods (data removal ones) were prefered than the more computationally expensive one (k nearest neighbors imputation). Another object of study is the di erence of how data is missing had on classification or regression. Data was simulated to be missing in a biased and completely random way and results showed that even though great bias was introduced in the training dataset the di erence in estimation between both was in more than half the cases lower than 3%. The study then concludes with a suggested step by step approach in how to handle missing data for estimation based on the results presented and suggests further analysis on the topic.

Arquivo
Topo