Informações:

Publicações do PESC

Título
SGPROV: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
29/9/2015
Resumo

Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos computacionais. Várias execuções de workflows são necessárias em um experimento. SGWfC geram rastros das execuções dos workflows por meio de dados de proveniência. Os dados de proveniência contêm o histórico da derivação do resultado do workflow, assim, pode ser representado sob a forma de um grafo direcionado e acíclico. A proveniência é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Cada execução de um workflow gera um grafo de proveniência. Após várias execuções, por exemplo, explorando parâmetros, inúmeros grafos são gerados. A base de dados de proveniência, portanto, requer um espaço de armazenamento considerável e consultá-la envolve a manipulação de um grande volume de grafos. Consultas típicas de proveniência percorrem os diversos grafos para obter o caminho de derivação (linhagem) dos dados da consulta. Esta tese apresenta um mecanismo de sumarização para grafos de proveniência (SGProv), usando um banco de dados de grafos para armazenar e consultar esses grafos. O objetivo é gerar um único grafo sumário que represente todos os grafos de proveniência gerados durante um experimento, mas com tamanho reduzido e eliminando dados repetidos. Esta abordagem de sumarização tem como objetivo reduzir o tempo de processamento de consultas de proveniência utilizando apenas o grafo sumário para respondê-las sem precisar reconstruir os grafos originais. Resultados obtidos com consultas de proveniência feitas no grafo sumário mostraram o potencial da nossa solução.

Abstract

Scientific workflow management systems (SWfMS) are powerful tools in the automation of scientific experiments. Several workflow executions are necessary to accomplish one scientific experiment. SWfMS generate workflows executions traces through data provenance. Data provenance is about workflow results derivation, thus it is typically represented in the form of a directed acyclic graph. Data provenance is important for scientists to understand, reproduce and analyze their experiments. For each workflow execution, a provenance graph is generated. Numerous graphs are generated after several workflow runs, exploring different parameters. The resulting provenance database requires considerable storage space and querying it involves handling a large volume of graphs. Typical provenance queries process many graphs to get data derivation paths (lineage). This thesis presents SGProv, a summarization mechanism for provenance graphs, using a graph database to store and query them. The goal is to generate a single small summary graph that represents all provenance graphs generated during an experiment, eliminating redundant data. This summarization approach aims to reduce the processing time of provenance queries by using only the summary graph to answer them without the need for rebuilding the original graphs. Experimental results of provenance queries on the summary graph show performance improvements without data loss on query results.

Arquivo
Topo