Autores

5721
2102,131,2103,2631,2632
5722
2102,131,2103,2631,2632
5723
2102,131,2103,2631,2632
5724
Henk Corporaal
(Co-orientador)
2102,131,2103,2631,2632
5725
Lech Jozwiak
(Co-orientador)
2102,131,2103,2631,2632

Informações:

Publicações do PESC

Título
Automatic Complex Instruction Identification for Efficient Application Mapping onto ASIPs
Linha de pesquisa
Arquitetura e Sistemas Operacionais
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
12/12/2014
Resumo

Esta tese propõe e discute um novo método eficiente de customização de instruções, juntamente com uma ferramenta que é capaz de automaticamente identificar instruções complexas promissoras para um conjunto relevante de aplicativos de benchmark. O método proposto formula o problema de enumeração de subgrafos como um problema de enumeração de cliques máximos, com duas novas contribuições: uma no aspecto da conectividade; e a outra no que diz respeito à detecção de (re)-associatividade dos grafos. Os resultados de desempenho da ferramenta proposta para um processador VLIW-ASIP são fornecidos, alcançando um aumento de velocidade de até 54% para a aplicação ray-tracing. Também são apresentados resultados de área do circuito e de consumo de energia das instruções complexas, baseados na tecnologia de 65nm da TSMC. Além disso, esta tese analisa e discute o problema do compartilhamento de hardware no contexto do conjunto de instruções complexas. Embora ferramentas de síntese de hardware disponíveis no mercado sejam capazes de explorar algumas oportunidades de compartilhamento de hardware, esta tese mostra que o resultado é geralmente insatisfatório. Assim, são implementadas e analisadas técnicas de fusão de caminho de dados, atingindo, em média, uma economia de 30% na área de circuito e consumo de energia, para os conjuntos de instruções complexas identificadas nesta tese. Finalmente, arquiteturas multi-core são propostas, com base nos processadores extensíveis (ASIPs) usados nesta tese, enriquecidos com o conjunto identificado de instruções complexas e com compartilhamento de hardware. Utilizando até oito ASIPs em paralelo com instruções complexas, uma implementação paralela do algoritmo de ray-tracing é proposta, alcançando até 12x de aceleração em comparação a um único ASIP. As instruções complexas identificadas automaticamente reduzem o tempo de execução em cerca de 36% para a aplicação ray-tracing.

Abstract

Custom instruction identification is an essential part in designing efficient Application-Specific Instruction Set Processors (ASIPs). This thesis proposes and discusses a novel efficient instruction set customization method together with an automatic tool that is able to identify promising custom instruction candidates for a set of relevant benchmark applications. The proposed method formulates the common subgraph enumeration problem as a maximum clique-enumeration problem, with a two-fold novel contribution: one on the connectivity aspect; and the other with respect to the graph (re)-associativity detection. The performance results from the proposed tool for a configurable VLIW-ASIP are provided, achieving a speedup of up to 54% for the ray-tracing application. Circuit area and energy consumption results based on TSMC 65nm technology are also presented. Moreover, this thesis analyzes and discusses the problem of hardware sharing in the context of instruction set customization. Although commercially available hardware synthesis tools are capable of exploiting some hardware sharing opportunities, this thesis shows that the result is usually unsatisfactory. Thus, datapath merging techniques are implemented and analyzed, achieving, on average, substantial circuit-area and energy consumption savings of 30% for the sets of custom instructions identified in this thesis. Finally, multi-core architectures are proposed, based on commercially available extensible ASIPs, augmented with the identified set of custom instructions and with hardware sharing optimizations. Using up to eight ASIPs in parallel with complex instructions, a ray-tracer parallel algorithm implementation is proposed, achieving up to 12x speedup in comparison to a single ASIP design. The automatically identified custom instructions provided around 36% execution time reduction for the ray-tracing application.

Topo