Corpo Docente
D.Sc., 1993, COPPE/UFRJ
Áreas de Interesse
- Scientific Data Management in High Performance Computing
- Data Science
- Provenance Data
A área de ciência de dados caracteriza-se pelo uso de métodos científicos para validar hipóteses. Dados de diversos tipos e formatos são gerados e analisados por meio de algoritmos e sistemas específicos, voltados para a natureza dos dados em questão. Com o aumento do volume e da necessidade de análises específicas sobre dados de todos os tipos e formatos, surgiram diversos sistemas com processamento paralelo de alto desempenho voltados para essas especificidades que geram dados em arquivos e isolados entre si. Como resultado, temos hoje vários sistemas geradores de dados separados de sistemas de análise de dados que funcionam sem nenhum tipo de integração. Os resultados a serem usados na validação de hipóteses e tornam muitas vezes caixas-pretas de difícil investigação. Tentar buscar e relacionar fontes de dados envolvidas na obtenção do resultado após o processamento, além de custoso, pode não ser possível. Este projeto visa ao desenvolvimento de uma solução centrada em dados para facilitar análises de resultados de ciência de dados. A contribuição original desta pesquisa está em se antecipar às análises, visando à interpretação de resultados. Pretende-se realizar a captura e representação de dados de proveniência ao longo de programas paralelos de ciência de dados, com ênfase no domínio de dados científicos. Essa captura deve funcionar como um serviço a ser invocado por sistemas de gerência de dados de proveniência. Esses serviços de captura e registro não interferem na geração em si dos dados, são opcionais e a granularidade da captura e registro deve ser flexível. Como resultado, pretende-se gerar uma visão global, reduzida, do grande volume de dados distribuídos sendo gerado, junto à sua proveniência. Por meio desta visão global, dados podem ser analisados e monitorados durante e após a geração do resultado de validação da hipótese a ser verificada com a ciência de dados.