Resumos
Utilizaram-se diferentes níveis de significância genômica na seleção assistida por marcadores para estimar o valor fenotípico, o número de marcadores usados na seleção e a porcentagem de alelos favoráveis e desfavoráveis fixados em uma característica quantitativa. Uma comparação entre os níveis de 0,5; 1; 2; 4; 6; 8; 10; 12; 14; 16; 18 e 20% foi realizada por meio do sistema computacional de simulação genética (GENESYS), utilizado na simulação de um genoma constituído de um caráter quantitativo de herdabilidade igual a 0,20. A partir da população inicial, procederam-se à avaliação dos doze níveis de significância, via seleção assistida por marcadores, por meio dos valores fenotípicos obtidos durante dez gerações. Aplicou-se o método de agrupamento por ligação composta adotando a distância Euclideana média como medida de dissimilaridade entre as significâncias genômicas. Há similaridade nos valores fenotípicos obtidos com os níveis de significância de 4 e 16%, que são superiores aos altamente significativos (0,5 a 2%) e aos extremamente sugestivos (18 e 20%), em razão dos ganhos fenotípicos obtidos ao longo das gerações sob seleção.
análise multivariada; seleção assistida por marcadores; significância genômica; simulação
Different levels of genomic significance were used in assisted selection by markers to estimate the phenotypic value, the number of markers used in the selection and the percentage of favorable and unfavorable alleles fixed in a quantitative characteristic. A comparison among the levels 0.5; 1; 2; 4; 6; 8; 10; 12; 14; 16; 18 and 20 was done by using the computer system of gene simulation (GENESYS), used for simulation of a genome consisted of a quantitative character with heritability equal to 0.20. From the initial population, the evaluation of the twelve levels of significance by selection assisted by markers was carried out using the phenotypic values obtained for 10 generations. The cluster method by composite link was applied by using the average Euclidean distance as dissimilarity measure among the genomic significances. There are similarities among the phenotypic values obtained with significance levels from 4 to 16%, which are superior to the highly significant (from 0.5 to 2%) and to the extremely suggestive levels (18 and 20%), because of the phenotypic gains obtained over generations under selections.
genomic significance; multivariate analysis; selection assisted by markers; simulation
MELHORAMENTO, GENÉTICA E REPRODUÇÃO
Níveis de significância na identificação de marcadores moleculares no mapeamento genômico1 1 Fonte de financiamento: CNPq
Levels of significance on the identification of molecular markers in genomic mapping
Marcelo JangarelliI; Ricardo Frederico EuclydesII; Paulo Roberto CeconIII
IPós-graduação em Genética e Melhoramento - UFV
IIDepartamento de Zootecnia, Universidade Federal de Viçosa, Viçosa, Minas Gerais, 36570-000
IIIDepartamento de Informática (Área de Estatística), Universidade Federal de Viçosa, Viçosa, Minas Gerais, 36570-000
RESUMO
Utilizaram-se diferentes níveis de significância genômica na seleção assistida por marcadores para estimar o valor fenotípico, o número de marcadores usados na seleção e a porcentagem de alelos favoráveis e desfavoráveis fixados em uma característica quantitativa. Uma comparação entre os níveis de 0,5; 1; 2; 4; 6; 8; 10; 12; 14; 16; 18 e 20% foi realizada por meio do sistema computacional de simulação genética (GENESYS), utilizado na simulação de um genoma constituído de um caráter quantitativo de herdabilidade igual a 0,20. A partir da população inicial, procederam-se à avaliação dos doze níveis de significância, via seleção assistida por marcadores, por meio dos valores fenotípicos obtidos durante dez gerações. Aplicou-se o método de agrupamento por ligação composta adotando a distância Euclideana média como medida de dissimilaridade entre as significâncias genômicas. Há similaridade nos valores fenotípicos obtidos com os níveis de significância de 4 e 16%, que são superiores aos altamente significativos (0,5 a 2%) e aos extremamente sugestivos (18 e 20%), em razão dos ganhos fenotípicos obtidos ao longo das gerações sob seleção.
Palavras-chave: análise multivariada, seleção assistida por marcadores, significância genômica, simulação
ABSTRACT
Different levels of genomic significance were used in assisted selection by markers to estimate the phenotypic value, the number of markers used in the selection and the percentage of favorable and unfavorable alleles fixed in a quantitative characteristic. A comparison among the levels 0.5; 1; 2; 4; 6; 8; 10; 12; 14; 16; 18 and 20 was done by using the computer system of gene simulation (GENESYS), used for simulation of a genome consisted of a quantitative character with heritability equal to 0.20. From the initial population, the evaluation of the twelve levels of significance by selection assisted by markers was carried out using the phenotypic values obtained for 10 generations. The cluster method by composite link was applied by using the average Euclidean distance as dissimilarity measure among the genomic significances. There are similarities among the phenotypic values obtained with significance levels from 4 to 16%, which are superior to the highly significant (from 0.5 to 2%) and to the extremely suggestive levels (18 and 20%), because of the phenotypic gains obtained over generations under selections.
Key Words: genomic significance, multivariate analysis, selection assisted by markers, simulation
Introdução
O melhoramento genético molecular visa integrar as metodologias e técnicas empregadas no melhoramento genético tradicional com as tecnologias e estratégias da biologia molecular (Dekkers & Hospital, 2002). Recentemente, passou a considerar e a utilizar diferentes ferramentas, também disponibilizadas pela ciência genômica (Borém et al., 2003).
Os marcadores moleculares são sequências de DNA que podem ser identificadas e mapeadas e são utilizados para identificar e localizar loci específicos nos cromossomos. A seleção assistida por marcadores (marker assisted selection - MAS) é condicionada pela significância genômica exigida nas associações entre os genótipos dos marcadores e os loci para características quantitativas (quantitative trait loci - QTL). Esses loci são regiões cromossômicas relacionadas à variação fenotípica das características quantitativas. O uso dos marcadores em modernos programas de melhoramento baseia-se no princípio de que, se um gene ou conjunto de genes está estreitamente associado a um marcador molecular de fácil identificação, então a seleção para esse marcador será mais eficiente que para a própria característica (Hayward et al., 1994).
A seleção assistida por marcadores consiste de dois passos principais: i) identificação de associações entre loci marcadores e QTL; e ii) o uso dessas associações para o desenvolvimento de populações melhoradas (Bulfield, 1997).
Como poucos loci economicamente importantes são conhecidos, e os QTL não têm suas bases moleculares bem definidas, atualmente esses loci têm sido referidos mais como uma associação estatística que como uma entidade biológica, e a herança tem sido acompanhada pelos marcadores (Liu, 1998; Guimarães, 2004). Os procedimentos para sua localização e estimação são tipicamente baseados em testes estatísticos, detectando-se alterações nas médias das características entre classes de indivíduos (Burrow & Blake, 1998).
A análise de agrupamento é uma metodologia numérica multivariada com o objetivo de propor uma estrutura classificatória ou o reconhecimento da existência de grupos similares; seu resultado final é um gráfico denominado dendrograma, útil para a classificação, comparação e discussão de agrupamentos de indivíduos e/ou tratamentos (Hair et al., 2005).
Objetivou-se com este trabalho avaliar diferentes níveis de significância genômica, utilizados na seleção assistida por marcadores, pela técnica multivariada de análise de agrupamento.
Material e Métodos
Os dados utilizados neste trabalho foram simulados via sistema computacional de simulação genética - GENESYS (Euclydes, 2007), escrito em linguagem de programação FORTRAN, o que permitiu a criação de genomas de certa complexidade, que podem ser utilizados para formação de populações de acordo com a estrutura desejada, sob influência de questionamentos propostos a serem analisados, inclusive por métodos de seleção, pressuposições estatísticas, sistemas de acasalamentos, entre outros fatores, dispensando, portanto, animais e laboratórios.
Para estudar os efeitos de diferentes níveis de significância admitidos na MAS, o genoma foi constituído de uma característica quantitativa com herdabilidade de 0,20, governada por 200 loci quantitativos (QTL). O genoma continha 191 marcadores do tipo microssatélite (SSR - simple sequence repeats) dispostos a cada cinco centimorgans (cM).
O genoma simulado é caracterizado geneticamente como: 958 cM de extensão; 40 cromossomos (38 autossomos e 2 sexuais) de tamanho aleatório; os efeitos aditivos dos loci quantitativos foram simulados seguindo a distribuição normal; os loci quantitativos foram dialélicos e não tiveram desvios de dominância nem epistasia; as frequências gênicas iniciais foram iguais em ambos os sexos; as frequências gênicas iniciais para os loci quantitativos e para os marcadores moleculares seguiram distribuição normal, com valores próximos a 0,5; os efeitos de ambiente foram simulados conforme a distribuição normal; os dados fenotípicos simulados apresentaram média de 10,00 unidades e desvio-padrão 2,00 unidades.
Para a estrutura genômica simulada, foi construída uma população-base composta de 500 machos e 500 fêmeas, não aparentados. Com os mil descendentes escolhidos aleatoriamente dessa população-base, obtidos do cruzamento de dez machos e dez fêmeas/macho (100 fêmeas), produzindo dez filhos/fêmea/macho (1.000 indivíduos), formou-se a população inicial, que, por sua vez, foi submetida à seleção assistida por marcadores moleculares por dez gerações consecutivas com dez repetições, visando reduzir os efeitos da flutuação genética. A cada geração, os 10 machos e as 100 fêmeas (10 fêmeas/macho) com melhor desempenho, selecionados com base nos genótipos de um número de marcadores moleculares que estariam estatisticamente associados aos loci quantitativos, foram acasalados ao acaso, produzindo 1.000 descendentes (dez descendentes por acasalamento), que, por sua vez, formavam a geração seguinte.
Foram praticadas 12 seleções assistidas por marcadores, todas partindo do mesmo valor fenotípico, nas quais a distinção estava no nível de significância genômica adotado para a detecção de marcadores associados aos QTL de interesse: 0,5; 1; 2; 4; 6; 8; 10; 12; 14; 16; 18 e 20%.
A identificação das associações entre marcadores e QTL deu-se por meio do método da marca simples, pelo qual se verifica a associação entre cada marcador e a característica de interesse, testando a hipótese nula de que não existe diferença entre as médias fenotípicas dos descendentes nas classes genotípicas dos marcadores. A análise de regressão linear entre os genótipos dos marcadores e os valores fenotípicos dos descendentes dos acasalamentos foi o teste estatístico utilizado no método. Adotaram-se diferentes níveis de significância na regressão linear simples, conforme mencionado.
A análise de associação entre o marcador e o QTL pode ser estimada pela regressão dos valores da característica quantitativa em função dos escores relativos ao genótipo do marcador. Nesse caso, é necessário codificar os três genótipos do marcador (MM, Mm e mm) para se fazer a análise de regressão. Em geral, são utilizados os códigos 1, 0 e -1 para efeito aditivo e 0, 1 e 0 para efeito de dominância, ou 2, 1 e 0 para efeito geral (quando se considera apenas o efeito aditivo), para os genótipos MM, Mm e mm, respectivamente (Schuster & Cruz, 2004).
Neste trabalho, os desvios de dominância foram desconsiderados, conforme relatado na caracterização genética do genoma simulado. Dessa forma, para realizar a regressão linear simples na população, o seguinte modelo aditivo foi utilizado:
em que: Yj = valor fenotípico da característica quantitativa avaliada no j-ésimo indivíduo da população; Xj = código do marcador (MM = 2, Mm = 1 e mm = 0); β0 = intercepto da regressão (média da característica); β1 = inclinação da reta para efeito aditivo; εj = erro aleatório manifestado na característica no j-ésimo indivíduo. Assim, na avaliação de N (N = 1.000) indivíduos em cada geração, os dados foram analisados conforme descrito na Tabela 1.
As matrizes utilizadas no modelo Yj = β0 + β1Xj + εj são as descritas a seguir:
Os níveis de significância que caracterizavam os 12 processos da MAS foram: i) níveis de significância entre 0.5 e 2%, considerados de alta significância, que detectam somente os marcadores mais fortemente relacionados ao genótipo dos QTL e, consequentemente, ao fenótipo da característica de interesse; eles apresentam maior precisão, contudo, resultam em menor número de marcadores identificados na seleção; ii) níveis de significância de 4 e 6% selecionam os marcadores-QTL altamente significativos (entre os níveis de 0,5 e 2%), assim como os significativos para maiores valores de significância genômica, ou seja, valores entre 3 e 6%; dessa forma, um número igual ou superior de marcadores será selecionado em analogia aos níveis altamente significativos, em razão da menor precisão exigida; iii) níveis de significância entre 8 e 14%, em que os marcadores-QTL selecionados nestes níveis são referidos como sugestivos, tornando-se indicadores de possíveis associações entre seu genótipo e as expressões fenotípicas nos indivíduos; maior número de marcadores será selecionado, compreendendo os altamente significa-tivos, os significativos e os sugestivos a esses níveis; e iv) níveis de significância entre 16 e 20%, nos quais os marcadores-QTL selecionados também serão referidos como sugestivos, porém são menos preferidos que os sugestivos entre os níveis de 8 e 14%, em virtude do maior erro a eles associado; nessas significâncias sugestivas mais extremas, um número igual ou mais elevado de marcadores será selecionado, em comparação aos níveis anteriores, pois representam a soma dos que foram significativos entre os níveis de magnitude inferior, disponibilizando maior número de informações, contudo, com menor precisão.
Para cada nível de significância, avaliou-se o valor fenotípico médio obtido ao longo das dez gerações. Na aplicação da técnica de agrupamento, cada geração representou uma variável, totalizando dez variáveis, as quais foram utilizadas com a finalidade de propor uma estrutura classificatória para formação de grupos similares entre os níveis de significância genômica. As médias dos valores fenotípicos obtidas entre os níveis em cada uma das gerações foram analisadas utilizando o Sistema para Análises Estatísticas - SAEG (SAEG, 2008). A técnica de agrupamento adotada foi o método hierárquico da ligação completa e a medida de dissimilaridade admitida entre os níveis foi a distância euclideana média.
Resultados e Discussão
Todas as doze seleções partiram do mesmo valor fenotípico, o que possibilitou comparações entre elas. A seleção visa aumentar o valor fenotípico, objetivo alcançado em maior magnitude para os níveis a partir de 4% de significância (Tabela 2).
De acordo com Lander & Kruglyak (1995), uma associação sugestiva entre marcador e QTL é evidência estatística esperada de encontrar um QTL aleatoriamente em uma varredura genômica, ao passo que uma associação significativa evidencia superioridade na probabilidade de os dados fenotípicos serem resultantes da presença de um QTL relacionado ao caráter, reduzindo o nível de erro. O nível de significância é um dos fatores relevantes na identificação de marcadores associados aos QTL, devido aos resultados diferenciados obtidos ao preestabelecer um limite de erro (nível de significância) na análise de regressão (Tabela 2).
Por meio dos níveis de alta significância (0,5; 1 e 2%), foi possível detectar somente os marcadores fortemente relacionados ao genótipo dos QTL, o que resultou em menor número médio de marcadores identificados, dos 191 marcadores disponibilizados na seleção, embora com maior precisão. Já os níveis de significância superiores a 4%, além de possibilitar selecionar os marcadores altamente significativos, também possibilitaram selecionar os significativos e os sugestivos. Dessa forma, um número igual ou maior de marcadores foi selecionado (Tabela 2).
Os níveis iguais ou superiores a 8% são referidos como sugestivos, tornando-se indicadores de possíveis associações entre seu genótipo e as expressões fenotípicas da característica. Consequentemente, devido ao efeito acumulativo, um número superior de marcadores foi identificado, em analogia aos níveis de menor magnitude, disponibilizando maior número de informações, contudo, com menor precisão. Segundo Silva & Vencovsky (2002), o nível de significância representa a probabilidade de erro de os marcadores estarem associados a falsos QTL (QTL inexistente/fantasma).
Os processos de seleção favorecem a fixação de alelos (Carneiro et al., 2006). São considerados ganhos e perdas genéticas por fixação, quando loci com alelos favoráveis e alelos desfavoráveis são fixados, respectivamente, ou seja, alcançam frequência igual a 1 (Euclydes, 1996). Os níveis mais significativos (entre 0,5 e 10%) foram superiores em relação à fixação de alelos favoráveis (Tabela 3). Entre os alelos desfavoráveis, o predomínio nas fixações foi para os níveis altamente significativos e para os extremamente sugestivos (Tabela 3). O saldo benéfico de alelos fixados, resultante da diferença entre a porcentagem de alelos favoráveis e alelos desfavoráveis fixados, foi potencializado para os níveis significativos (4 a 12%) (Tabela 3). Em contrapartida, um saldo inferior foi observado para os níveis altamente significativos e extremamente sugestivos, como consequência da menor disponibilidade de marcadores identificados e da menor acurácia na associação dos marcadores aos QTL, respectivamente. Essas consequências favoreceram a redução da variância genética aditiva ao longo das gerações sob seleção, reduzindo os ganhos fenotípicos a serem obtidos no processo seletivo (Falconer, 1981; Lande & Thompson, 1990; Darvasi et al., 1993).
As diferenças entre os alelos favoráveis e desfavoráveis fixados, bem como o número médio de marcadores utilizados na MAS ao longo das dez gerações, justificaram a superioridade dos valores fenotípicos alcançados para os níveis significativos e levemente sugestivos, em analogia aos altamente significativos (0,5 a 2%) e extremamente sugestivos (18 e 20%).
A análise estatística multivariada de agrupamento foi aplicada utilizando-se os valores fenotípicos médios obtidos ao longo das dez gerações. O dendrograma estabelecido pelo método hierárquico da ligação completa ilustra ramificações para inferências quanto aos padrões de similaridade entre os níveis de significância (Figura 1). Delimitações, com base em exames visuais, podem ser definidas para formação de três grupos similares: i) entre os níveis de 0.5 e 1%; ii) entre os níveis de 2; 18 e 20% e; iii) entre os níveis de 4 a 16%. De acordo com o parâmetro avaliado (valor fenotípico), os níveis de 4 a 16% representam significâncias que otimizam os ganhos genéticos e fenotípicos de forma semelhante.
Os níveis de alta significância possibilitaram detectar menor número de marcadores, reduzindo o efeito coletivo dos genes relacionados ao caráter, propiciando redução nas respostas fenotípicas ao longo das gerações. Já os níveis extremamente sugestivos favoreceram a detecção de falsos QTL, devido à sua baixa acurácia e, consequentemente, menor diferença entre alelos favoráveis e desfavoráveis fixados, resultando também em menores valores fenotípicos. Dessa forma, a adoção desses níveis extremamente significativos ou sugestivos, seja por elevada acurácia seja por maior número de marcadores identificados, desfavorece os parâmetros genéticos e fenotípicos relacionados à característica sob seleção, proporcionando menores progressos nas gerações sob seleção assistida por marcadores.
Por meio dos níveis significativos ou levemente sugestivos, foi possível selecionar os marcadores de maior efeito, assim como os que apresentaram associação sugestiva com a expressão fenotípica, que, quando considerados coletivamente, beneficiaram os resultados genéticos e fenotípicos relacionados ao caráter. Assim, é possível otimizar os valores fenotípicos, com boa acurácia e bom número de informações disponibilizadas pelos marcadores, em vez de se adotarem critérios altamente rigorosos ou excessivamente flexíveis na definição do nível de significância.
Conclusões
Níveis de significância na seleção assistida por marcadores moleculares resultam em ganhos fenotípicos distintos como resposta à seleção. Níveis altamente significativos (0,5 a 2%) ou extremamente sugestivos (18 e 20%) propiciam menores ganhos fenotípicos e os significativos e sugestivos (entre 4 e 16%), os melhores resultados.
Agradecimentos
À Universidade Federal de Viçosa - UFV e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq, pelo apoio financeiro.
Recebido em 19/5/2009 e aprovado em 5/3/2010.
Correspondências devem ser enviadas para: gmejanga@hotmail.com
- BORÉM, A.; GIÚDICE, M.; SEDIYAMA, T. Melhoramento genômico Viçosa, MG: Editora UFV, 2003. 224p.
- BULFIELD, G. Strategies for the future. Poultry Science, v.76, p.1071-1074, 1997.
- BURROW, M.D.; BLAKE, T.K. Molecular tools for the study of complex traits. In: ___ Molecular dissection of complex traits New York: CRC, 1998. p.13-30.
- CARNEIRO, P.L.S.; MALHADO, C.H.M.; EUCLYDES, R.F. et al. Seleção tradicional e associada a marcadores moleculares na avaliação genética animal. Pesquisa Agropecuária Brasileira, v.41, p.615-621, 2006.
- DARVASI, A.; WEINREB, V.; MINKE, V. et al. Detecting marker-QTL linkage and estimating QTL gene effect and map location using a satured genetic map. Genetics, v.134, p.943-951, 1993.
- DEKKERS, J.C.M.; HOSPITAL, F. The use of molecular genetics in the improvement of agricultural populations. Nature Reviews Genetics, v.3, p.22-32, 2002.
- EUCLYDES, R.F. Uso do sistema para simulação Genesys na avaliação de métodos de seleção clássicos e associados a marcadores moleculares 1996. 149f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa.
- EUCLYDES, R.F. Genesys: Sistema de Simulação Genética. Versão 9.1. Viçosa, MG: Fundação Arthur Bernardes - UFV, 2007. (CD-ROM).
- FALCONER, D.S. Introdução à genética quantitativa Tradução de SILVA, M.A.; SILVA, J.C. Viçosa, MG: UFV, Imp. Univ., 1981. 279p.
- GUIMARÃES, S.E.F. Análise de marcadores genômicos e detecção de QTLs e genes candidatos em melhoramento animal. In: PEREIRA, J.C.C. (Ed.) Melhoramento genético plicado à produção animal 4.ed. Belo Horizonte: FEPMVZ Editora, 2004. p.491-524.
- HAIR JR., J.F.; ANDERSON, R.E.; TATHAM, R.L. et al. Análise multivariada de dados Tradução de SANTANNA, A.S.; NETO, A.C. 5.ed. Porto Alegre: Bookman, 2005. 600p.
- HAYWARD, M.D.; MCADAM, N.J.; JONES, J.G. et al. Genetic markers and the selection of quantitative traits in forage grasses. Euphytica, v.77, p.269-275, 1994.
- LANDE, R.; THOMPSON, R. Efficiency of marker-assisted selection in the improvement of quantitative traits. Genetics, v.124, p.743-756, 1990.
- LANDER, E.; KRUGLYAK, L. Genetic dissection of complex traits: Guidelines for interpreting and reporting linkage results. Nature Genetics, v.11, p.241-247, 1995.
- LIU, B.H. Statistical genomics: linkage, mapping and QTL analysis. Boca Raton: CRC Press, 1998. 611p.
- SCHUSTER, I.; CRUZ, C.D. Estatística genômica aplicada a populações derivadas de cruzamentos controlados Viçosa, MG: Editora UFV, 2004. 568p.
- SILVA, H.D.; VENCOVSKY, R. Poder de detecção de "quantitative trait loci", da análise de marcas simples e da regressão linear múltipla. Scientia Agricola, v.59, p.755-762, 2002.
- UNIVERSIDADE FEDERAL DE VIÇOSA - UFV. Sistema de análises estatísticas e genéticas - SAEG Versão 9.1. Viçosa, MG, 2008. (CD-ROM).
Datas de Publicação
-
Publicação nesta coleção
18 Fev 2011 -
Data do Fascículo
Fev 2011
Histórico
-
Aceito
05 Mar 2010 -
Recebido
19 Maio 2009