Uma Abordagem Distribuída e Adaptativa para a Gerência dos Dados de Proveniência de Experimentos Científicos Executados em Nuvens Computacionais
Autores
6060 |
2375,51,2396
|
|
6069 |
2375,51,2396
|
|
6070 |
2375,51,2396
|
Informações:
Publicações do PESC
A ciência baseada em simulação computacional é fortemente dependente dos avanços tecnológicos. Muitos workflows científicos são formados por milhares de atividades (invocações de programas) e, em apenas uma execução, estas atividades podem ser executadas milhares de vezes, para que o resultado final seja gerado. Neste contexto, a computação de alto desempenho é uma alternativa importante e, em especial, as nuvens de computadores. As nuvens podem oferecer um alto poder de processamento com baixa complexidade na sua utilização a um custo flexível, o que as tornam uma alternativa viável para a ciência baseada em simulação. Entretanto, mesmo executando em ambientes de nuvem com diversos nós computacionais, o volume de dados (dados de execução dos experimentos e dados de proveniência – que representam o histórico da execução do workflow) produzido e consumido e que deve ser gerenciado, pode se tornar um problema. Essa gerência se for realizada de forma centralizada, pode impactar no desempenho da própria execução do workflow, uma vez que os sistemas atuais são responsáveis tanto por executar o workflow quanto gerenciar os dados de proveniência. Aproveitando-nos da característica elástica dos recursos da nuvem, apresentamos nessa tese estratégias que buscam melhorar a gerência dos dados de proveniência ao mesmo tempo em que melhoram a eficiência dos experimentos executados, tendo como principal norte duas vertentes: redução do tempo de consultas e de despesas.
Science based on computational simulation is highly based on advances in computer software and hardware solutions. Many workflows are composed by thousands of activities (program calls) and in just one execution, these activities can be executed thousands of times to generate the expected result. In this context, high-performance computing is an important alternative, in particular cloud computing. Clouds provide high processing power at a flexible cost, which can match the scientist budget and present low complexity involved in its use. However, even when executing these experiments in the elastic cloud environment, the amount of data (domain specific and provenance – that represent the historic of workflow past executions) produced and consumed that needs be handled, can be a problem. If the centralized management strategy is adopted, the execution of the workflow can be impacted, as the actual systems are responsible for the workflow execution and for the provenance management too. In this scenario, we have many opportunities to bring more efficiency to the experiments in terms of reduction of time and money expended. In our thesis, we address these problems and based on strategies that use the elasticity cloud properties, we reach some good results.