Resumos
Neste trabalho é apresentada a aplicação dos modelos AMMI com o propósito de analisar a interação entre genótipo e ambiente em experimentos agronômicos multiambientais com dados balanceados. São apresentados dois métodos de validação cruzada e o aperfeiçoamento desses métodos por meio da correção de autovalores, sendo estes ordenados por meio da regressão isotônica. É realizado um estudo comparativo entre esses métodos por meio de dados reais. Os resultados mostram para esse conjunto de dados que o método de EASTMENT & KRZANOWSKI (1982) seleciona um modelo mais parcimonioso. Além disso, quando esse método é aperfeiçoado com a correção dos autovalores, o número de componentes não se altera. O método de GABRIEL (2002) seleciona um maior número de termos no modelo, e, quando se aplica a correção de autovalores, o número de termos diminui. O aperfeiçoamento desses métodos por meio da correção de autovalores traz um grande benefício para o pesquisador do ponto de vista prático, uma vez que a seleção do número de termos multiplicativos representa um ganho do número de blocos (ou repetições), quando se utiliza o modelo AMMI em vez do modelo completo, sendo, portanto, melhor utilizar o modelo AMMI com correção dos autovalores e selecionar o número de componentes por meio do método de Eastment e Krzanowski.
interação genótipo × ambiente; experimentos agronômicos multiambientais; análise multivariada
This paper presents an application of AMMI models - Additive Main effects and Multiplicative Interaction model - for a thorough study about the effect of the interaction between genotype and environment in multi-environments experiments with balanced data. Two methods of crossed validation are presented and the improvement of these methods through the correction of eigenvalues, being these rearranged by the isotonic regression. A comparative study between these methods is made, with real data. The results show that the EASTMENT & KRZANOWSKI (1982) method selects a more parsimonious model and when this method is improved with the correction of the eigenvalues, the number of components are not modified. GABRIEL (2002) method selects a huge number of terms to hold back in the model, and when this method is improved by the correction of eigenvalue, the number of terms diminishes. Therefore, the improvement of these methods through the correction of eigenvalues brings a great benefit from the practical point of view for the analyst of data proceeding from multi-ambient, since the selection of numbers of multiplicative terms represents a profit of the number of blocks (or repetitions), when the model AMMI is used, instead of the complete model.
genotype × environment interaction; multi-environments experiments; multivariate analysis
ARTIGOS CIENTÍFICOS
FITOTECNIA
Validação cruzada com correção de autovalores e regressão isotônica nos modelos de efeitos principais aditivos e interação multiplicativa
Cross-validation with eigenvalue correction and isotonic regression in the additive main effect and multiplicative interaction model
Pamela PiovesanI; Lucio Borges de AraújoII; Carlos Tadeu dos Santos DiasIII,1 1 Autor para correspondência.
IDepartamento de Ciências Exatas (LCE), Escola Superior de Agricultura Luiz de Queiroz (ESALQ), Universidade de São Paulo (USP), Piracicaba, SP, Brasil
IIDepartamento de Bioestatística, Universidade Estadual Paulista Júlio e Mesquita Filho (UNESP), Botucatu, SP, Brasil. LCE, ESALQ, USP, Piracicaba, SP, Brasil
IIILCE, ESALQ, USP. Av. Pádua Dias, 11, 13418-900, Piracicaba, SP, Brasil. E-mail: ctsdias@esalq.usp.br
RESUMO
Neste trabalho é apresentada a aplicação dos modelos AMMI com o propósito de analisar a interação entre genótipo e ambiente em experimentos agronômicos multiambientais com dados balanceados. São apresentados dois métodos de validação cruzada e o aperfeiçoamento desses métodos por meio da correção de autovalores, sendo estes ordenados por meio da regressão isotônica. É realizado um estudo comparativo entre esses métodos por meio de dados reais. Os resultados mostram para esse conjunto de dados que o método de EASTMENT & KRZANOWSKI (1982) seleciona um modelo mais parcimonioso. Além disso, quando esse método é aperfeiçoado com a correção dos autovalores, o número de componentes não se altera. O método de GABRIEL (2002) seleciona um maior número de termos no modelo, e, quando se aplica a correção de autovalores, o número de termos diminui. O aperfeiçoamento desses métodos por meio da correção de autovalores traz um grande benefício para o pesquisador do ponto de vista prático, uma vez que a seleção do número de termos multiplicativos representa um ganho do número de blocos (ou repetições), quando se utiliza o modelo AMMI em vez do modelo completo, sendo, portanto, melhor utilizar o modelo AMMI com correção dos autovalores e selecionar o número de componentes por meio do método de Eastment e Krzanowski.
Palavras-chave: interação genótipo × ambiente, experimentos agronômicos multiambientais, análise multivariada.
ABSTRACT
This paper presents an application of AMMI models - Additive Main effects and Multiplicative Interaction model - for a thorough study about the effect of the interaction between genotype and environment in multi-environments experiments with balanced data. Two methods of crossed validation are presented and the improvement of these methods through the correction of eigenvalues, being these rearranged by the isotonic regression. A comparative study between these methods is made, with real data. The results show that the EASTMENT & KRZANOWSKI (1982) method selects a more parsimonious model and when this method is improved with the correction of the eigenvalues, the number of components are not modified. GABRIEL (2002) method selects a huge number of terms to hold back in the model, and when this method is improved by the correction of eigenvalue, the number of terms diminishes. Therefore, the improvement of these methods through the correction of eigenvalues brings a great benefit from the practical point of view for the analyst of data proceeding from multi-ambient, since the selection of numbers of multiplicative terms represents a profit of the number of blocks (or repetitions), when the model AMMI is used, instead of the complete model.
Key words: genotype × environment interaction, multi-environments experiments, multivariate analysis.
INTRODUÇÃO
Em experimentos agrícolas, os ensaios são realizados em vários ambientes para, por meio de uma análise estatística adequada, isolar o componente de variabilidade devido à interação entre genótipos e ambientes (G×E). Os programas de melhoramento têm como principal objetivo buscar técnicas capazes de detectar de maneira aprofundada essas interações para a seleção de genótipos consistentes e de elevada produtividade.
O método AMMI (Additive Main effects and Multiplicative Interaction model) surge, então, com a finalidade de estudar detalhadamente as interações (G×E) por meio da decomposição ortogonal da soma de quadrados dessas interações, fato que o torna vantajoso se comparado aos métodos tradicionais. Além disso, esse método apresenta uma boa capacidade preditiva. O AMMI é um procedimento uni-multivariado que vem ganhando destaque, pois combina num único modelo componentes aditivos para os efeitos principais e componentes multiplicativos para os efeitos da interação genótipo-ambiente, combinando seqüencialmente a análise de variância (técnica univariada) e a análise de componentes principais (técnica multivariada), respectivamente. Esse procedimento permite que a análise de componentes principais seja diretamente tratada por meio da decomposição por valores singulares (DVS). A interação (G×E) é representada pelos termos multiplicativos do modelo AMMI, e a seleção do número ótimo desses termos pode ser feita de duas maneiras: por meio de testes de hipóteses ou de formas de validação cruzada.
A validação cruzada é um procedimento estatístico livre de distribuição teórica que vem ganhando aplicação recente. GAUCH & ZOBEL (1988) introduziu a chamada validação preditiva por meio da validação cruzada a fim de selecionar o melhor modelo AMMI.
Assim, o presente trabalho tem como objetivos: 1) aplicar o modelo AMMI com o propósito de analisar a estrutura de interação entre genótipo e ambiente em experimentos agronômicos multiambientais com dados balanceados; 2) apresentar e aplicar técnicas de validação cruzada para a escolha do número de termos multiplicativos do modelo AMMI; 3) aperfeiçoar as técnicas de validação cruzada a partir de três métodos de correção de autovalores, ordenados por meio da regressão isotônica, e avaliar os métodos de validação cruzada aqui modificados por meio do estudo de dados reais, tendo em vista que há viés na estimação dos autovalores (ARAÚJO & DIAS, 2006).
MATERIAL E MÉTODOS
Os dados utilizados são referentes a ensaios internacionais multiambientais de cultivares obtidos pelo CIMMYT (Centro Internacional de Mejoramento de Maiz y Trigo). A variável resposta avaliada foi produção em kg. Os experimentos foram conduzidos em um delineamento aleatorizado em blocos e são referentes a 20 genótipos de trigo avaliados em 34 ambientes com quatro blocos.
O modelo AMMI postula componentes aditivos para os efeitos principais de genótipos e ambientes e componentes multiplicativos para a interação entre genótipo e ambiente. Esse modelo utiliza a matriz de médias de dados Y e é dado por: , em que é a resposta média do genótipo i no ambiente j, µ é a performance média geral, gi é o efeito fixo do genótipo i (i = 1, ..., g), ej é o efeito fixo do ambiente j (j = 1, ..., e), e (ge)ij é o efeito fixo da interação específica do genótipo i e o ambiente j, na qual (ge)ij é representada por: , sob as restrições, pois a estimativa da soma de quadrado de resíduos é feita por meio do método de mínimos quadrados.
O ajuste do modelo AMMI para dados balanceados é obtido em duas etapas (ZOBEL et al., 1988): a primeira etapa consiste na obtenção das estimativas dos efeitos principais (gi e ej) e da média geral µ, estimativas que formam a parte aditiva do modelo, sendo ajustadas por uma análise de variância comum (ANOVA) aplicada à matriz de médias Y. Com a aplicação da ANOVA, obtém-se um resíduo de não-aditividade , e o efeito de interação recai nesse resíduo, formando a matriz de interações GE. Cada elemento da matriz de interações GE é obtido por: , em que Yij é a média das repetições do genótipo i no ambiente j, com i = 1, 2, ..., g e j = 1, 2, ..., e é a média do genótipo i, é a média do ambiente j, e é a média geral do experimento. Essa matriz de interação GE é então analisada pela decomposição por valores singulares (DVS). A partir daí, a análise AMMI centra-se na decomposição da soma de quadrados dos elementos da matriz GE, obtida de forma direta por DVS. Assim, λk é o k-ésimo valor singular de GE, αik é o i-ésimo elemento do vetor singular coluna αk(g×1) associado a λk e γjk é o j-ésimo elemento do vetor singular linha γ'k(1×e) associado a λk (MANDEL, 1971; PIEPHO, 1995).
Os dois métodos de validação cruzada utilizam a decomposição por valores singulares e consistem em eliminar cada elemento geij da matriz GE com dimensão g×e, predizer o valor de geij para cada possível escolha de m (o número de componentes) e medir a discrepância entre o valor atual e o valor predito por . Como o objetivo é estimar cada elemento da matriz para evitar viés, os dados de geij não devem ser utilizados nos cálculos de para cada i e j.
O procedimento de validação cruzada de Eastment e Krzanowski é descrito como: Sejam GE(-i) a matriz resultante após deletar a i-ésima linha de GE e centralizá-la em torno das médias das linhas e GE(-j) a matriz resultante após deletar a j-ésima coluna de GE e centralizá-la em torno das médias das colunas. Por meio da decomposição por valores singulares, podemos escrever: GE(-i) = ; com , e , ; com , e .
O objetivo é estimar os elementos geij da matriz de interações dados por , em que uit e vtj são elementos das matrizes U e V, respectivamente, tal que GE = UDV'.
Para a estimação de , ao invés de utilizar a informação da i-ésima linha U e j-ésima coluna V, são utilizados e , respectivamente. Para a parte central D, é utilizada uma composição das duas matrizes e , sendo o valor predito dado por: , m = 0, 1, ..., p. O procedimento de GABRIEL (2002) toma uma mistura de regressão e aproximação de uma matriz de posto inferior como base para sua predição. O algoritmo é descrito a seguir: Seja a matriz GE de interação e considere a partição:.
A submatriz GE\11 de posto m, após aplicar a DVS, pode ser escrita como , em que U = [u1, ..., um], V = [v1, ..., vm] e D = diag (d1, ..., dm). A estimação do elemento ge11 utilizando o modelo de regressão é dada por: , em que o vetor é referente ao modelo de regressão relativo à submatriz GE\11 e utilizando ge*1 na estimativa desse parâmetro tem-se e como GE'\11 = UDV' segue que . Então, prediz-se ge11 por: . Analogamente, o valor ajustado da validação cruzada é obtido para todos os outros elementos geij, i = 1, ..., g; j = 1,..., m; (i,j)≠(1,1).
A qualidade do ajuste é dada pelas estatísticas: e , em que PRESS(m) (Predictive Sum of Squares) é a soma de quadrados da predição de um modelo ajustado com m componentes, e o PRECORR(m) (Precictive Correlation) é a correlação entre os valores observados e os valores preditos pelo modelo com m componentes e cada valor ajustado requer uma diferente partição de GE. Tanto para o procedimento de validação cruzada de EASTMENT & KRZANOWSKI (1982), quanto para o procedimento de GABRIEL (2002), a escolha do número de termos multiplicativos m pode ser baseada em alguma função apropriada de PRESS(m). Porém, o comportamento das estatísticas difere para os métodos. O método de GABRIEL (2002) produz valores que primeiro decrescem e depois (normalmente) crescem com m, sendo, então, sugerida a escolha do valor m que minimiza a função. O método de EASTMENT & KRZANOWSKI(1982) produz, geralmente, um conjunto de valores que é monotonicamente não-crescente. Devido a isso é sugerido o uso da estatística dada por: em que Dm é o número de graus de liberdade requerido para ajustar o m-ésimo componente e é dado por: Dm = g + e - 2m. Dr é o número de graus de liberdade remanescentes após ajustar o m-ésimo componente e é dado por: Dr = Dr-1 - [g + e -( m-1)2], r = 2, 3, ..., (g-1) e D1 = (g-1)e. A estatística Wm representa o aumento na informação preditiva média suprida pelo m-ésimo componente, dividido pela informação preditiva média em cada um dos componentes. Então, o número de componentes importantes m são aqueles em que m é o maior entre todos os m tal que Wm é maior que a unidade (EASTMENT & KRZANOWSKI, 1982).
Os três métodos apresentados por MUIRHEAD (1987) para a correção dos autovalores, utilizados nesse caso para a correção dos autovalores provenientes da matriz (GE)(GE)' ou (GE)'(GE) em (GE)(GE)' ~ Wg(e,∑), são dados a seguir:
i) O primeiro método de correção é dado por:
ii) O segundo método de correção é dado por:
iii) O terceiro método de correção é dado por:
em que: , e .
Nos três métodos de correção, temos que: g é o número de genótipos do experimento; e é o número de ambientes do experimento e λk2 é o k-ésimo autovalor da matriz (GE)(GE)' ou (GE)'(GE) com k = 1, 2,..., p, sendo p = min{g-1, e-1}. Porém, nem sempre os autovalores obtidos com os métodos de correção apresentados estão em ordem decrescente e para reordená-los será utilizada a regressão isotônica.
O algoritmo para ordenar os autovalores, obtidos pelos três métodos de correção, é apresentado por LIN & PERLMAN (1985) e é descrito como segue: os produtos (numerador dos métodos de correção (1) e (2) ou dk (denominador do método de correção (3)) são listados em uma coluna e em outra coluna é listado o denominador do método de correção (1),αk(1), ou o denominador do método de correção (2),αk(2), ou ainda o numerador do método de correção (3),αk(3), como segue:
Passo 1) Fazendo todos αk's positivos: a) Inicia-se pelo final da lista e procura-se para cima até que se encontre o primeiro par (,αk) com αk negativo; b) Soma-se esse par com o par imediatamente acima dele, substituindo-os pelo par ( + , αk + αk-1) para que na lista um par seja menor do que o próximo; c) Repetem-se (a) e (b) para a nova lista até que todos αk sejam positivos.
Passo 2) Re-ordenando as razões de forma que estejam em ordem decrescente: Listam-se as razões à direita de cada par (,αk) obtido no passo 1. Um par (, αk ) (exceto o par no final da lista) é chamado de par violado se a razão não é maior do que a razão . a) Inicia-se pelo final da lista encontrada no passo 1 e procede-se para cima até o primeiro par violado ser encontrado; b) Soma-se esse par violado com o par imediatamente acima dele, substituem-se esses dois pares e suas razões pelo par e sua razão , formando uma nova lista; c) Reinicia-se no par imediatamente após o par trocado em (b) e procede-se para cima até o próximo par violado ser encontrado e repete-se (b); d) Repete-se (c) até todas as razões estarem em ordem decrescente.
Passo 3) Cada razão no final da lista foi obtida por bloco acumulado de um ou mais pares consecutivos (,αk) na lista original.
Na maioria dos estudos, existe um grande interesse na comparação do Erro Médio Quadrático do modelo (QMEM(modelo)) selecionado com o Erro Médio Quadrático (QMEM) do experimento. Para NACHIT et al., (1992), uma aproximação para o número de blocos (ou repetições) que falta para o modelo AMMI completo apresentar uma performance igual ao modelo AMMI selecionado é uma forma de medir a eficiência da correção e validação cruzada por meio do número de blocos que se ganha ao analisar os dados com o modelo selecionado. Essa medida é obtida por: .
Para fazer uma estimativa do QMEM(modelo), PIEPHO (1994) sugere a seguinte expressão: QMEM(modelo) = (RMSPD)2 - (QMEM). A medida RMSPD (Root Mean Square Prediction Difference) apresentada por CORNÉLIUS et. al. (1993) refere-se ao poder de predição do modelo selecionado, podendo, assim, fazer uma comparação aproximada com outros RMSPDs provenientes de modelos ajustados por validação cruzada. O ajuste é feito por: sendo r o número de blocos em cada ambiente do experimento.
RESULTADOS E DISCUSSÃO
A tabela 1 mostra a análise de variância conjunta do experimento. Como pode ser observado, há efeito significativo entre blocos, genótipos, ambientes e também interação entre genótipos e ambientes. A análise AMMI focaliza-se no estudo dessas interações, que neste experimento corresponde a 9,97% da soma de quadrados total. Obtendo a matriz de interações, sabemos que a soma de quadrados dos autovalores dessa matriz, obtida por meio da DVS, fornece exatamente a soma de quadrados da interação. Porém, busca-se nessa análise descartar um ruído, deixando no modelo somente os componentes necessários para a explicação dessa interação.
Na tabela 2, são apresentados os resultados para o experimento quando são aplicados os procedimentos de EASTMENT & KRZANOWSKI (1982) e GABRIEL (2002). Observa-se que a estatística PRESS difere para os dois métodos. Para o método de Krzanowski, na medida em que o número de componentes aumenta, a estatística PRESS normalmente diminui. Para o método de Gabriel, os valores da estatística oscilam conforme aumenta o número de componentes. Devido a essa diferença, para o método de Krzanowski utiliza-se a estatística Wm, cujo número de componentes m a serem selecionados é aquele maior valor de m em que Wm é maior que um. Por meio dessa medida, observamos que o número de componentes a ser retido para esse experimento é três. Para o método de Gabriel, seleciona-se o número de termos em que a estatística PRESS minimiza a função, portanto, para esse experimento são selecionados cinco componentes. A estatística PRECORR para os dois métodos apresenta valores próximos conforme aumenta o número de componentes.
Os métodos de correção de autovalores 1 e 2 não se mostraram eficientes nos dois procedimentos de validação cruzada, fornecendo autovalores negativos em que o processo de regressão isotônica, por meio do algoritmo de isotonização de Stein, não conseguiu torná-lo positivo para posteriormente reordená-lo na ordem decrescente. Portanto, não foi possível utilizar esses dois métodos. O método 3, apresentado por MUIRHEAD (1987), foi o único que corrigiu com sucesso todos os autovalores utilizados para estimar cada valor da matriz de interações, tanto no método de validação cruzada dado por EASTMENT & KRZANOWSKI (1982), quanto naquele dado por GABRIEL (2002). Os resultados dos dois procedimentos de validação cruzada com o método 3 de correção de autovalores são apresentados na tabela 2.
Os autovalores corrigidos não alteraram o número de componentes a serem retidos no modelo quando se aplica o método de Eastment e Krzanowski. Já para o método de Gabriel, o número de componentes passou a ser 4, diminuindo um componente se comparado ao mesmo método sem a correção de autovalores.
A medida RAMMI foi calculada tanto para a validação cruzada de EASTMENT & KRZANOWSKI (1982), quanto para a validação cruzada de GABRIEL (2002), quando os autovalores são corrigidos pelo método 3 de correção. Essa medida representa o número de blocos que se ganha ao analisar os dados com o modelo AMMI selecionado em vez do modelo AMMI completo. De acordo com essa medida, ao selecionar o modelo AMMI pelo método de EASTMENT & KRZANOWSKI (1982), tem-se um ganho de aproximadamente cinco blocos (RAMMI = 4,91). Para o método de GABRIEL (2002), o ganho é de aproximadamente quatro blocos (RAMMI = 3,73). Logo esses valores podem ser utilizados como um indicativo de que o método proposto por Eastment e Krzanowski, combinado com a correção de autovalores, é melhor que o método proposto Gabriel juntamente com os autovalores corrigidos.
CONCLUSÕES
Quando são aplicados os métodos de validação cruzada e quando estes são aperfeiçoados, os resultados dos experimentos permitem afirmar que o método de EASTMENT & KRZANOWSKI (1982) seleciona modelos mais parcimoniosos. Quando esse método é aperfeiçoado por meio da correção de autovalores pelo método 3 e a regressão isotônica é utilizada para reordenar os autovalores corrigidos, observa-se que o número de componentes a ser retido no modelo não é alterado. Já o método de GABRIEL (2002) seleciona um maior número de termos para reter no modelo. Porém, quando são utilizadas a correção de autovalores pelo método 3 e a regressão isotônica para reordená-los, observa-se que o número de termos diminui.
A seleção de termos multiplicativos é de grande importância, pois, na prática, significa um ganho do número de blocos (ou repetições) quando o modelo AMMI é selecionado em vez do modelo completo. Portanto, o aperfeiçoamento desses métodos por meio da correção de autovalores traz um grande benefício do ponto de vista prático para o analista de dados provenientes de ensaios multi-ambientais.
AGRADECIMENTOS
Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pelo apoio financeiro a todos os autores
Recebido para publicação 07.05.08
Aprovado em 06.11.08
- ARAÚJO, L.B.; DIAS, C.T.S. Métodos de correção de autovalores e regressão isotônica nos modelos AMMI. Revista de Matemática e Estatística, Jaboticabal, v.24, n.2, p.71-89, 2006.
- CORNELIUS, P.L. et. al. Test and estimators of multiplicative models for variety trials. In: ANNUAL KANSAS STATE UNIVERSITY CONFERENCE ON APPLIED STATISTICS IN AGRICULTURE, 5., 1993, Manhattan. Proceedings Manhattan : KS, 1993. p.156-166.
- EASTMENT, H.T.; KRZANOWSKI, W.J. Cross-validatory choice of the number of components from a principal components analysis. Technometrics, Alexandria, v.24, p.73-77, 1982.
- GABRIEL, K.R. Le biplot- outil d'exploration de données multidimensionelles. Journal de la Societe Francaise de Statistique, Paris, v.143, p.5-55, 2002.
- GAUCH, H.G.; ZOBEL, R.W. Predictive and postdictive sucess of statistical analysis of yield trials. Theoretical and Applied Genetics, New York, v.76, p.1-10, 1988.
- LIN, S.P.; PERLMAN, M.D. A Monte Carlo comparison of four estimators of a covariance matrix. In: KRISHNAIAH, P.R. Multivariate analysis-VI Amsterdam: Elsevier, 1985. Cap.26, p.411-429.
- MANDEL, J. A new analysis of variance model for non-additive data. Technometrics, v.13, n.1, p.1-18, 1971.
- MUIRHEAD, R.J. Developments in eigenvalue estimation. In: GUPTA, A.K. Advances in Multivariate Statistical Boston: Reidel, 1987. p.277-288.
- NACHIT, M.M. et al. Use of AMMI and linear regression models to analyze genotype-environment interaction in durun eheat. Theoretical and Applied genetics, New York, v.83, p.597-601, 1992.
- PIEPHO, H.P. Best linear unbiased prediction (BLUP) for regional yield trials: a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theoretical and Applied Genetics, New York, v.89, p.647-654, 1994.
- PIEPHO, H.P. Robustness of statistical test for multiplicative terms in additive main effects and multiplicative interaction model for cultivar trial. Theoretical and Applied Genetics, New York, v.90, p.438-443, 1995.
- ZOBEL, R.W. et. al. Statistical analysis of a yield trial. Agronomy Journal, Madson, v.80, p.388-393, 1988.
Datas de Publicação
-
Publicação nesta coleção
24 Abr 2008 -
Data do Fascículo
Jul 2009
Histórico
-
Recebido
07 Maio 2008 -
Aceito
06 Nov 2008