The Protein Family Classification in Protein Databases via Entropy Measures
Autores
6583 |
2679,385
|
|
6584 |
2679,385
|
Informações:
Publicações do PESC
Métodos estatísticos desenvolvidos nos últimos anos para classificar distribuições de aminoácidos em bancos de dados de proteínas em famílias e clãs, são revistos no presente texto. Isto é feito pela introdução de funções de variáveis aleatórias, as medidas de entropia das probabilidades de ocorrência dos aminoácidos. É feito um estudo intensivo do banco de dados Pfam, com restrição a famílias a serem representadas por blocos retangulares de m linhas (domínios de proteína) e n colunas (aminoácidos). A presente contribuição é também um convite a grupos de pesquisa de todo o mundo a empreender análises estatísticas com blocos de diferentes números de linhas e colunas. A expectativa é de que a caracterização matemática das distribuições de aminoácidos seja a motivação fundamental para a previsão da estrutura e evolução das proteínas.
In the present work, we review the statistical methods which have been developed in the last few years for classifying into families and clans the distribution of amino acids in protein databases. This is done through functions of random variables, the Entropy Measures of probabilities of the occurrence of the amino acids. An intensive study of the Pfam database is presented with restriction to families which could be represented by rectangular arrays of amino acids with m rows (protein domains) and n columns (amino acids). This work is also an invitation to scientific research groups worldwide to undertake this statistical analysis with arrays of different numbers of rows and columns. We then expect that the mathematical characterization of the distributions of amino acids will be a fundamental insight on the determination of protein structure and evolution.