Gerência de Proveniência em Workflows Científicos Paralelos e Distribuídos
Autores
5293 |
Luiz Manoel Rocha Gadelha Júnior
|
2392,51
|
5294 |
2392,51
|
Informações:
Publicações do PESC
A pesquisa científica é cada vez mais apoiada por experimentos computacionais, que são frequentemente dados por um grande número de tarefas computacionais (MTC, em many-task computing) que são especificadas e automatizadas como workflows científicos. Nesta tese, abordamos o problema do gerência de informações de proveniência sobre computações que envolvam muitas tarefas (MTC), implementadas através de workflows científicos, e que sejam realizadas em ambientes paralelos e distribuídos de alto desempenho. Neste contexto de larga escala, as questões envolvidas no gerenciamento de proveniência tornam-se mais complexas pois os mecanismos utilizados na coleta e armazenamento dessas informações podem ter um impacto que prejudique a escalabilidade do experimento computacional. Por outro lado, o nível de detalhe das informações capturadas deve ser suficiente para permitir a análise do experimento de maneira satisfatória. Além de permitir a análise do processo de derivação de dados de um experimento, a proveniência pode apoiar a depuração e otimização de estratégias de execução e de manuseio de dados de workflows, se as respectivas informações relativas a consumo de recursos computacionais forem adicionadas. Desenvolvemos o MTCProv, um arcabouço para consultas de proveniência que captura os detalhes do tempo de execução em sistemas paralelos e distribuídos, além da proveniência prospectiva e retrospectiva padrões. Uma interface de consulta esconde as complexidades da consulta relacional, mas permite associar proveniência com detalhes do paralelismo e acesso aos dados do domínio da aplicação. Avaliamos o MTCProv utilizando uma aplicação de modelagem de proteínas e descrevemos como os padrões de consulta consulta identificados neste trabalho são expressos de forma simples. Resultados de desempenho mostram escalabilidade com excelente relação custo-beneficio ao coletar a proveniência.
Scientific research is increasingly assisted by computer-based experiments. Such experiments are often composed of a vast number of computational tasks that are specified and automated as scientific workflows. This large scale is also characteristic of the data that flows within such ``many-task'' computations (MTC). Provenance information can record the behavior of such computational experiments via the lineage of process and data artifacts. In this thesis, we address the problem of managing provenance information of MTC, implemented as scientific workflows, and carried out in high performance parallel and distributed environments. In this large scale context, the issues involved in managing provenance become more complex since the mechanisms used to collect and store this information may have a detrimental impact on the scalability of the computational experiment. However, the level of detail of the captured information should be enough to enable adequate experiment analysis. In addition to allowing the analysis of the data derivation process of an experiment, provenance can support debugging and optimization of execution strategies and workflow data management, if information on computational resource consumption is added. We developed MTCProv, a provenance query framework that captures runtime details in parallel and distributed systems, and standard prospective and retrospective provenance. A query interface hides the complexities of relational querying, but allows for associating provenance with details of parallelism and access to application domain data. We evaluate MTCProv using a protein modeling application and describe how the query patterns of identified in this work are expressed in a simple way. Performance results show scalability with excellent cost-benefit while collecting provenance.