Calendário de Eventos
|
Quarta-feira, 12 Fevereiro 2025, 14:00 - 16:30
Dissertação de Mestrado
"Mecanismo de Tolerância a Falhas para Aplicações Mestre-Trabalhador em Computação de Alto Desempenho"
Rodrigo Coacci
Data: 12 de fevereiro de 2025, quarta-feira
Horário: 14h00
Sala presencial: H-304A
Sala virtual: https://www.youtube.com/watch?v=X391zZ_Z7-w
Banca Examinadora:
Prof. Diego Leonel Cadette Dutra - PESC/COPPE/UFRJ (presidente da banca e orientador)
Prof. Claudio Luis de Amorim - PESC/COPPE/UFRJ (orientador)
Profa. Priscila Machado Vieira Lima - PESC/COPPE/UFRJ
Profa. Maria Clicia Stelling de Castro - UERJ
Prof. Eugene Francis Vinod Rebello - IC/UFF
Prof. Claudio Luis de Amorim - PESC/COPPE/UFRJ (orientador)
Profa. Priscila Machado Vieira Lima - PESC/COPPE/UFRJ
Profa. Maria Clicia Stelling de Castro - UERJ
Prof. Eugene Francis Vinod Rebello - IC/UFF
Resumo:
As falhas aumentaram significativamente nos sistemas de computação de alto desempenho recentes, tornando a tolerância a falhas crucial para a eficiência e confiabilidade das aplicações. Falhas transitórias podem gerar atrasos consideráveis na execução das tarefas, comprometendo a eficiência do sistema. Soluções tradicionais podem ser ineficazes no tratamento de falhas frequentes, gerando uma sobrecarga significativa.
Este trabalho propõe e avalia a replicação parcial de tarefas com especulação em um framework genérico de mestre-trabalhador para mitigar os efeitos de falhas transitórias em ambientes de computação de alto desempenho (HPC). A proposta combina replicação parcial de tarefas com especulação para explorar o paralelismo inerente e reduzir o tempo ocioso em caso de falhas. A solução é implementada em um framework genérico e avaliada em dois programas paralelos, um real e outro sintético, em um ambiente HPC.
Os resultados dos experimentos mostram que a especulação de tarefas pode reduzir significativamente a variância dos tempos de execução das tarefas na presença de falhas transitórias, diminuindo o tempo total de execução em até 4 vezes e aumentando a previsibilidade do tempo de execução.
Instruções:
- Fazer sign in usando email @cos.ufrj.br, preferencialmente.
- A defesa é um ato público e estão todos convidados a participar.
- Todos da audiência devem manter suas câmeras e microfones desligados.
- A defesa será gravada, conforme recomendação da COPPE/UFRJ.