Informações:

Publicações do PESC

Título
Paralelismo Intra-Consulta em Clusters de Banco de Dados
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
21/12/2004
Resumo

Consultas de alto custo estão presentes em vários tipos de aplicações como, por exemplo, as aplicações OLAP (On-Line Analytical Processfng). Elas demandam grande capacidade de armazenamento e poder de processamento dos sistemas de bancos de dados que as suportam. Nesta tese, propomos uma solução para essa demanda implementando paralelismo intra-consulta em um cluster de bancos de dados com SGBDs utilizados como componentes do tipo "caixa-preta". Nossa proposta emprega uma técnica simples e eficiente denominada fragmentação virtual adaptativa, que não requer nenhum conhecimento prévio a respeito do banco de dados ou do SGBD: Ela inclui ainda uma técnica distribuída para balanceamento dinâmico de carga a fim de lidar com problemas causados por distorção na distribuição de dados. Para validar nossa solução, implementamos um protótipo de um cluster de bancos de dados utilizando a linguagem Java e o SGBD PostgreSQL em um cluster com 64 nós e realizamos experimentos com o benchmark TPC-H. Os resultados mostram que nossa solução é capaz de obter aceleração linear e, diversas vezes, superlinear durante o processamento de consultas. Utilizando dados com distribuição uniforme, ela apresenta melhor desempenho do que a fragmentação virtual simples na maioria dos casos e é superior em todos os casos com distribuição não uniforme. Finalmente, resultados com múltiplas submissões de consultas também apontam a superioridade de nossa solução intra-consulta sobre a solução que utiliza exclusivamente paralelismo inter-consultas.

Abstract

Heavy-weight queries are found in many applications, e.g., OLAP (On-Line Analytical Processing) applications. They typically require high storage capacity and processing power from the underlining database system. In this thesis, mddrewthis problem implem.e n, ting intra-query parallelism in a database cluster with black-box DBMSs, Our solution to keavyweight query processing uses a simple, yet efficient, adaptive virtual partitioning techque, without requiring any howledge about the database and the DBMS. It includes a distributed load balancing techmque to deal with attribute data skew. To validate our solution, we implemented a Java database cluster prototype using PostgreSQL DBMS on a 64-node cluster and ran experiments with the TPC-H benchmark. The results show that our solution yields linear, and often super-linear, speedup. It outperfoms traditional virtual partitioning in most situations with unifom data distribution and in a11 cases with data skew. Finally, multi-qríery experirnents çhow our intra-query solution is superior to those that employ only inter-query parallelism.

Topo