Acessibilidade / Reportar erro

Análise de componentes principais em características de produção de aves de postura

Principal component analysis in laying hen production traits

Resumos

Para avaliar a possibilidade de descarte de variáveis de produção em 942 aves de postura por meio de componentes principais, visando eliminar características redundantes e de difícil mensuração, foram utilizados os dados obtidos de linhagens de aves de postura do Programa de Melhoramento Genético da Universidade Federal de Viçosa. As características analisadas foram: taxa de postura da 26ª à 58ª semana de idade (TP); peso médio individual na 34ª (PMI1), na 42ª (PMI2), na 50ª (PMI3), na 58ª (PMI4) e na 66ª semana (PMI5); e peso médio do ovo na 34ª (PMO1), na 42ª (PMO2), na 50ª (PMO3), na 58ª (PMO4) e na 66ª semana de idade (PMO5). Dos 11 componentes principais, oito apresentaram variância inferior a 0,7 (autovalor inferior a 0,7), o que sugere oito variáveis para descarte. As variáveis descartadas foram aquelas com maiores coeficientes, em valor absoluto, a partir do último componente principal, uma vez que variáveis altamente correlacionadas aos componentes principais de menor variância representam variação praticamente insignificante. As variáveis descartadas apresentaram correlação linear simples significativa com as demais, ou seja, foram redundantes. Com base nesses resultados, recomendam-se as seguintes variáveis para utilização em experimentos futuros: TP, PMI1 e PMO4.

análise multivariada; correlação; descarte de variáveis; Legorne


To assess the possibility of discarding production variables in 942 laying hens by principle component analysis to eliminate unnecessary and difficult to measure characteristics, data were obtained from laying hen lines of the genetic breeding program of the Universidade Federal de Viçosa. The traits analyzed were egg production rate (TP) from the 26th to the 58th week, individual mean weight at the 34th (PMI1), 42th (PMI2), 50th (PMI3), 58th (PMI4) and 66th week (PMI5); egg mean weight at the the 34th (PMO1), 42nd (PMO2), 50th (PMO3), 58th (PMO4) and 66th weeks of age (PMO5). Eight of the 11 principal components showed variance lower than 0.7 (eigenvalue lower than 0.7), suggesting 8 variables to discard. The discarded variables were those that showed the highest coefficients, in absolute value, from the last principal component because variables highly correlated with the principal components of smaller variance represent practically insignificant variation. The discarded variables presented significant simple linear correlation with the others, therefore, they were redundant. Based on these results, the following variables are recommended for use in future experiments: TP, PMI1, PMO4.

correlations; discarding of variables; Leghorn; multivariate analysis


MELHORAMENTO, GENÉTICA E REPRODUÇÃO

Análise de componentes principais em características de produção de aves de postura

Principal component analysis in laying hen production traits

André Luis da Costa Paiva; Rafael Bastos Teixeira; Marcos Yamaki; Gilberto Romeiro de Oliveira Menezes; Carla Daniela Suguimoto Leite; Robledo de Almeida Torres

Universidade Federal de Viçosa-MG

RESUMO

Para avaliar a possibilidade de descarte de variáveis de produção em 942 aves de postura por meio de componentes principais, visando eliminar características redundantes e de difícil mensuração, foram utilizados os dados obtidos de linhagens de aves de postura do Programa de Melhoramento Genético da Universidade Federal de Viçosa. As características analisadas foram: taxa de postura da 26a à 58a semana de idade (TP); peso médio individual na 34a (PMI1), na 42a (PMI2), na 50a (PMI3), na 58a (PMI4) e na 66a semana (PMI5); e peso médio do ovo na 34a (PMO1), na 42a (PMO2), na 50a (PMO3), na 58a (PMO4) e na 66a semana de idade (PMO5). Dos 11 componentes principais, oito apresentaram variância inferior a 0,7 (autovalor inferior a 0,7), o que sugere oito variáveis para descarte. As variáveis descartadas foram aquelas com maiores coeficientes, em valor absoluto, a partir do último componente principal, uma vez que variáveis altamente correlacionadas aos componentes principais de menor variância representam variação praticamente insignificante. As variáveis descartadas apresentaram correlação linear simples significativa com as demais, ou seja, foram redundantes. Com base nesses resultados, recomendam-se as seguintes variáveis para utilização em experimentos futuros: TP, PMI1 e PMO4.

Palavras-chave: análise multivariada, correlação, descarte de variáveis, Legorne

ABSTRACT

To assess the possibility of discarding production variables in 942 laying hens by principle component analysis to eliminate unnecessary and difficult to measure characteristics, data were obtained from laying hen lines of the genetic breeding program of the Universidade Federal de Viçosa. The traits analyzed were egg production rate (TP) from the 26th to the 58th week, individual mean weight at the 34th (PMI1), 42th (PMI2), 50th (PMI3), 58th (PMI4) and 66th week (PMI5); egg mean weight at the the 34th (PMO1), 42nd (PMO2), 50th (PMO3), 58th (PMO4) and 66th weeks of age (PMO5). Eight of the 11 principal components showed variance lower than 0.7 (eigenvalue lower than 0.7), suggesting 8 variables to discard. The discarded variables were those that showed the highest coefficients, in absolute value, from the last principal component because variables highly correlated with the principal components of smaller variance represent practically insignificant variation. The discarded variables presented significant simple linear correlation with the others, therefore, they were redundant. Based on these results, the following variables are recommended for use in future experiments: TP, PMI1, PMO4.

Key words: correlations, discarding of variables, Leghorn, multivariate analysis

Introdução

A técnica de componentes principais, segundo Cruz & Regazzi (1994), foi originalmente descrita por Pearson (1901) e posteriormente aplicada por Hotelling (1933) em diversas áreas da ciência. De acordo com Manly (1986), o uso desta técnica só foi acentuado quando houve disponibilidade de recursos na área computacional. O método consiste na transformação do conjunto original de variáveis em outro, os componentes principais (CP), de dimensões equivalentes, porém com a vantagem de que cada componente retém porcentagem da variância original e que as variâncias decrescem do primeiro ao último componente principal (Morrison, 1976).

Segundo Baker et al. (1988), a análise dos componentes principais pode revelar relações não-identificadas previamente, contribuindo para melhor interpretação dos dados.

Decisões acerca da seleção de animais para determinada característica podem ser tomadas de forma intuitiva, negligenciando seus componentes e as ligações entre eles (Roso & Fries 1995). Nesse contexto, a análise de componentes principais deve contribuir na interpretação das relações entre as variáveis e consequentemente nas decisões (Baker et al., 1988; Roso & Fries, 1995).

A correlação entre as variáveis e as informações obtidas por análises univariadas pode ser incompleta, principalmente quando há correlação entre as variáveis. Nesses casos, é de grande interesse o uso de análise multivariada, pois essa análise combina as informações múltiplas provenientes da unidade experimental. Em muitas situações, os pesquisadores tendem a avaliar maior número de características, gerando, com isso, acréscimo considerável de trabalho. Quando o número de características é elevado, muitas delas podem contribuir pouco para a discriminação dos indivíduos avaliados. Essa situação aumenta o trabalho de caracterização, mas não melhora a precisão, além de tornar mais complexa a análise e interpretação dos dados. Assim, podem-se eliminar aquelas características redundantes e de difícil mensuração, o que reduziria o tempo e os custos de experimentos.

Este trabalho foi realizado com o objetivo de reduzir a dimensionalidade, por meio da análise de componentes principais, do conjunto original de variáveis com a menor perda de informação possível, eliminando as informações redundantes e reduzindo o custo e tempo das pesquisas.

Material e Métodos

Os dados utilizados foram provenientes de linhagens de postura de Legorne do Programa de Melhoramento Genético da Universidade Federal de Viçosa (UFV) totalizando 942 animais avaliados. As aves foram alojadas em gaiolas individuais às 24 semanas de idade. Inicialmente, foi realizado o teste para diagnóstico do efeito da multicolinearidade ou dependência linear entre as variáveis, que pode levar à formação de matrizes singulares ou mal condicionadas. Após essa análise, não foi diagnosticado efeito problemático de multicolinearidade.

As características analisadas foram: taxa de postura da 26a à 58a semana de idade (TP), peso médio individual na 34a (PMI1), na 42a (PMI2), na 50a (PMI3), na 58a (PMI4) e na 66a semana (PMI5); peso médio do ovo na 34a (PMO1), na 42a (PMO2), na 50a (PMO3), na 58a (PMO4) e na 66a semana de idade (PMO5).

O método de análise de componentes principais, a partir da matriz de correlação, consiste em transformar um conjunto de variáveis Z1, Z2, ... , Zp em um novo conjunto de variáveis Y1 (CP1), Y2 (CP2), ..... , Yp (CPp) (Regazzi, 2002). Dessa forma, um novo conjunto de p variáveis não-correlacionadas entre si e arranjadas numa ordem decrescente de variâncias é definido. A ideia principal com esse procedimento é de que poucos, entre os primeiros componentes principais, contenham a maior variabilidade dos dados originais; contudo, pode-se racionalmente descartar os demais componentes, reduzindo o número de variáveis.

Tendo em vista o grande número de variáveis medidas em unidades diferentes, foi necessária a padronização das variáveis originais Xj (j = 1, 2, ....., p) em Zj. Após essa transformação, todas as variáveis originais têm a mesma variância unitária e, dessa maneira, a base para extração dos componentes principais se torna a matriz de correlação R. Neste caso, os coeficientes dos componentes principais são indicadores da magnitude da correlação entre as variáveis padronizadas e os componentes principais, pois a correlação pode ser obtida pela seguinte expressão:

em que λi = autovalor associado ao CPi, que é uma constante; aij = coeficiente do CPi relacionado à variável Zj.

O critério para descarte de variáveis utilizado foi recomendado por Jolliffe (1973) para situações em que se trabalha com dados simulados e reais, com a análise de componentes principais a partir da matriz de correlação (Regazzi, 2002). Esse critério estabelece que o número de variáveis descartadas deve ser igual ao número de componentes cuja variância (autovalor) é inferior a 0,7.

No descarte de variáveis, a variável que apresenta o maior coeficiente (valor absoluto) no componente principal de menor autovalor (menor variância) deve ser menos importante para explicar a variância total e, portanto, passível de descarte (Regazzi, 2002). Assim, o processo de descarte consiste em considerar o autovetor (coeficientes do CP) correspondente ao menor autovalor e rejeitar a variável associada ao maior coeficiente (valor absoluto). Então, o próximo menor autovetor é avaliado. Esse processo continua até que o autovetor associado ao autovalor inferior a 0,7 seja considerado. A razão para isso é que variáveis altamente correlacionadas aos componentes principais de menor variância representam variação praticamente insignificante (Mardia et al., 1997).

Todas as análises foram feitas utilizando-se o programa SAS versão 8.0, licenciado pela Universidade Federal de Viçosa.

Resultados e Discussão

Com base nos resultados obtidos para os componentes principais, seus respectivos autovalores e porcentagens da variância explicada por cada um (Tabela 1), dos 11 componentes principais, oito (72,2%) apresentaram variância inferior a 0,7 (autovalor inferior a 0,7).

As oito variáveis que apresentaram maiores coeficientes, em valor absoluto, a partir do último componente principal, são passíveis de descarte (Tabela 2). As variáveis sugeridas para descarte são, respectivamente, em ordem de menor importância para explicar a variação total: PMI2, PMO3, PMI5, PMI4, PMI3, PMO2, PMO5, PMO1.

Em estudo de divergência genética entre acessos de capim-elefante, Daher et al. (1997) utilizaram a técnica de componentes principais e observaram que, de um total de 22 caracteres avaliados em três anos, apenas oito (36,4%) foram selecionados como os mais importantes para determinação da divergência genética. Strapasson et al. (2000), selecionando descritores na caracterização de germoplasma de Paspalum sp. por meio de componentes principais com o intuito de descartar os descritores considerados redundantes ou não-discriminantes, selecionaram oito descritores, considerados mais importantes na descrição da variabilidade presente na coleção de acessos do germoplasma estudado.

Neste trabalho, as características sugeridas para descarte apresentaram correlação linear simples significativa com as demais, ou seja, são redundantes; por outro lado, as variáveis selecionadas apresentaram menor correlação entre si (Tabela 3).

Com base nesses resultados, recomendam-se, para serem mantidas em experimentos futuros, as variáveis taxa de postura da 26a a 58a semana, peso médio individual na 34a semana, e peso médio do ovo na 58a semana. A variável taxa de postura * semana sempre foi uma característica importante nos programas de melhoramento de aves de postura por ter relação com a produção de ovos. A importância da característica PMI1 pode ser justificada pela coincidência em corresponder ao mesmo período do pico de produção de ovos. Nesta fase a exigência das aves é muito alta, em decorrência da produção de ovos, e ao mesmo tempo é um período em que as aves não alcançaram sua maturidade física. Já a PMO4 relaciona-se à capacidade das aves de manterem a produção de ovos com pesos de bom valor comercial até o final do primeiro ciclo de postura.

Barbosa et al. (2005), avaliando 11 características de desempenho em suínos, concluíram que seis variáveis (54,5%) analisadas foram redundantes e podem ser descartadas em experimentos futuros. Abreu et al. (1999), trabalhando com produção de ovos de matrizes de frango de corte, utilizando componentes principais, observaram que os dois primeiros componentes principais explicaram mais de 98% da variação total disponível entre as médias de cruzamentos disponíveis.

Mascioli et al. (2000) analisaram componentes principais para características de crescimento na raça Canchim e observaram que os dois primeiros foram responsáveis por mais de 75% da variação total, tanto para os ganhos como para os pesos, e concluíram que a variância fenotípica pode ser utilizada para o estudo dos componentes principais.

Conclusões

Características relacionadas à taxa de postura, ao peso médio individual e ao peso médio do ovo medidas em diferentes idades podem ser restritas a três componentes principais. Há possibilidade de redução do número de variáveis avaliadas em experimentos com aves de postura. Recomendam-se as seguintes variáveis para serem mantidas em estudos futuros: taxa de postura, peso médio individual na 34a semana de idade e peso médio do ovo na 58a semana de idade.

Recebido em 10/10/2008 e aprovado em 4/3/2009.

Correspondências devem ser enviadas para: andrezoo@gmail.com

  • ABREU, N.M.V.; SILVA, M.A.; CRUZ, C.D. et al. Capacidade de combinação de características de produção de ovos de linhagens de matrizes de corte usando componentes principais. Revista Brasileira de Zootecnia, v.28, n.5, p.955-959, 1999.
  • BAKER, J.F.; STEWART, T.S.; LONG, C.R. et al. Multiple regression and principal componentes analysis of puberty and growth in cattle. Journal of Animal Science, v.66, n.9, p.2147-2158, 1988.
  • BARBOSA, L.; LOPES, P.S.; REGAZZI, A.J. et al. Seleção de variáveis de desempenho de suínos por meio da análise de componentes principais. Arquivo Brasileiro de Medicina Veterinária e Zootecnia, v.57, n.6, p.805-810, 2005.
  • CRUZ, C.D.; REGAZZI, A.J. Modelos biométricos aplicados ao melhoramento genético 1.ed. Viçosa, MG: UFV, Imprensa Universitária, 1994. 390p.
  • DAHER, R.F.; MORAES, C.F.; CRUZ, C.D. et al. Seleção de caracteres morfológicos discriminantes em capim-elefante (Pennisetum purpureum Schum.). Revista Brasileira de Zootecnia, v.26, n.2, p.247-254, 1997.
  • HOTELLING, H. Review of the triumph of mediocrity in business, by Horace Secrist. Journal of American Statistical Association, v.28, p.463-5, 1933.
  • JOLLIFFE, I.T. Discarding variables in a principal component analysis. II. Real data. Aplied Statistics, v.22, p.21-31, 1973.
  • MANLY, B.F.J. Multivariate statistical methods: a primer. London: Chapman & Hall, 1986. 159p.
  • MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis 6.ed. London: Academic Press, 1997. 518p.
  • MASCIOLI, A.S.; EL FARO, L.; ALENCAR, M.M. et al. Estimativas de parâmetros genéticos e fenotípicos e análise de componentes principais para características de crescimento na raça Canchim. Revista Brasileira de Zootecnia, v.29, n.6, p.1654-1660, 2000.
  • MORRISON, D.F. Multivariate statistical methods 2.ed. Singapore: McGraw Hill, 1976. 415p.
  • PEARSON, K. On lines and planes of closest fit to system of point in space. Philosophical Magazine, v.2, n.6, p.550-572, 1901. Disponível em: <http://pbil.univ-lyon1.fr/R/pearson190.pdf>. Acesso em: 28/7/2006.
  • REGAZZI, A.J. Análise multivariada Viçosa, MG: Universidade Federal de Viçosa, 2002. (INF-766 - notas de aula).
  • ROSO, V.M.; FRIES, L.A. Componentes principais em bovinos da raça Polled Hereford à desmama e sobreano. Revista da Sociedade Brasileira da Zootecnia, v.24, n.5, p.728-735, 1995.
  • STRAPASSON, E.; VENCOVSKY, R.; BATISTA, L.A.R. Seleção de descritores na caracterização de germoplasma de Paspalum sp. por meio de componentes principais. Revista Brasileira de Zootecnia, v.29, n.2, p.373-381, 2000.

Datas de Publicação

  • Publicação nesta coleção
    17 Mar 2010
  • Data do Fascículo
    Fev 2010

Histórico

  • Recebido
    10 Out 2008
  • Aceito
    04 Mar 2009
Sociedade Brasileira de Zootecnia Universidade Federal de Viçosa / Departamento de Zootecnia, 36570-900 Viçosa MG Brazil, Tel.: +55 31 3612-4602, +55 31 3612-4612 - Viçosa - MG - Brazil
E-mail: rbz@sbz.org.br