Autores

6583
2679,385
6584
2679,385

Informações:

Publicações do PESC

Título
The Protein Family Classification in Protein Databases via Entropy Measures
Linha de pesquisa
Otimização
Tipo de publicação
Relatório Técnico
Número de registro
ES-755/18
Data
6/2018
Resumo

Métodos estatísticos desenvolvidos nos últimos anos para classificar distribuições de aminoácidos em bancos de dados de proteínas em famílias e clãs, são revistos no presente texto. Isto é feito pela introdução de funções de variáveis aleatórias, as medidas de entropia das probabilidades de ocorrência dos aminoácidos. É feito um estudo intensivo do banco de dados Pfam, com restrição a famílias a serem representadas por blocos retangulares de m linhas (domínios de proteína) e n colunas (aminoácidos). A presente contribuição é também um convite a grupos de pesquisa de todo o mundo a empreender análises estatísticas com blocos de diferentes números de linhas e colunas. A expectativa é de que a caracterização matemática das distribuições de aminoácidos seja a motivação fundamental para a previsão da estrutura e evolução das proteínas.

Abstract

In the present work, we review the statistical methods which have been developed in the last few years for classifying into families and clans the distribution of amino acids in protein databases. This is done through functions of random variables, the Entropy Measures of probabilities of the occurrence of the amino acids. An intensive study of the Pfam database is presented with restriction to families which could be represented by rectangular arrays of amino acids with m rows (protein domains) and n columns (amino acids). This work is also an invitation to scientific research groups worldwide to undertake this statistical analysis with arrays of different numbers of rows and columns. We then expect that the mathematical characterization of the distributions of amino acids will be a fundamental insight on the determination of protein structure and evolution.

Arquivo
Topo