Resumos
O mapeamento de locos envolvidos no controle gênico de caracteres quantitativos, QTL's, difere dos demais tipos de experimentos conduzidos em genética, por tratar-se, basicamente, de um procedimento de testes múltiplos. Um problema decorrente deste tipo de análise refere-se ao nível de significância conjunto e, consequentemente ao poder da mesma. Em vistas disto avaliou-se, via simulação computacional de dados, o poder de detecção de QTL's da análise de marcas simples, utilizando os critérios da razão de falsas descobertas (FDR) e de Bonferroni para determinação nível de significância conjunto alfa* e da regressão linear múltipla, empregando o procedimento "stepwise" para seleção das marcas. O procedimento baseado em regressão múltipla foi mais poderoso em identificar as marcas associadas a QTL's, do que os procedimentos baseados em testes individuais, utilizando tanto o critério FDR, quanto o de Bonferroni para o controle do nível de significância conjunto. Mesmo nos casos em que esse procedimento apresentou poder ligeiramente inferior aos demais, mostrou a grande vantagem de selecionar apenas as marcas mais fortemente ligadas a QTL's, devendo, portanto, ser preferido para seleção das marcas a serem utilizadas como covariáveis no processo de mapeamento por intervalo múltiplo. Dentre os critérios FDR e de Bonferroni, que são aplicáveis aos métodos de mapeamento por intervalo, o primeiro mostrou-se mais poderoso, devendo portanto ser preferido.
QTL; correção de Bonferroni; testes múltiplos; razão de falsos positivos (FDR)
In general terms, Quantitative Trait Loci (QTL) mapping differs from other research tools used in genetics since it is, basically, a multiple test procedure. The use of this technique leads to problems related to the genomewise significance level and, consequently, to the power of the test. Using computational data simulation the power of QTL mapping was obtained, carried out through multiple linear regression using stepwise procedures to select markers. Procedures based on single marker analisys, using both the False Discover Rate (FDR) and the Bonferroni criteria to determinate the genomewise significance level were also used. The procedure based on multiple regression, using the stepwise technique, was the most powerful in identifying markers associated to QTL's. However, in cases where its power was less intense, its advantage was the ability to detect only markers strongly associated to QTL's. In comparison to the Bonferroni method, the FDR criterion was in general more powerful, and should be adopted for interval mapping procedures.
QTL; Bonferroni method; multiple test; false discover rate (FDR)
PODER DE DETECÇÃO DE "QUANTITATIVE TRAIT LOCI", DA ANÁLISE DE MARCAS SIMPLES E DA REGRESSÃO LINEAR MÚLTIPLA1 1 Parte da Tese de Doutorado do primeiro autor, apresentada à USP/ESALQ - Piracicaba, SP.
Heyder Diniz Silva1*; Roland Vencovsky2
1Faculdade de Matemática - UFU, Campus Santa Mônica - CEP: 38408-902 - Uberlândia, MG
2Depto. de Genética - USP/ESALQ, C.P. 9 - CEP:13 418-900 - Piracicaba, SP.
*Autor correspondente <heyder@ufu.br>
RESUMO: O mapeamento de locos envolvidos no controle gênico de caracteres quantitativos, QTL's, difere dos demais tipos de experimentos conduzidos em genética, por tratar-se, basicamente, de um procedimento de testes múltiplos. Um problema decorrente deste tipo de análise refere-se ao nível de significância conjunto e, consequentemente ao poder da mesma. Em vistas disto avaliou-se, via simulação computacional de dados, o poder de detecção de QTL's da análise de marcas simples, utilizando os critérios da razão de falsas descobertas (FDR) e de Bonferroni para determinação nível de significância conjunto a* e da regressão linear múltipla, empregando o procedimento "stepwise" para seleção das marcas. O procedimento baseado em regressão múltipla foi mais poderoso em identificar as marcas associadas a QTL's, do que os procedimentos baseados em testes individuais, utilizando tanto o critério FDR, quanto o de Bonferroni para o controle do nível de significância conjunto. Mesmo nos casos em que esse procedimento apresentou poder ligeiramente inferior aos demais, mostrou a grande vantagem de selecionar apenas as marcas mais fortemente ligadas a QTL's, devendo, portanto, ser preferido para seleção das marcas a serem utilizadas como covariáveis no processo de mapeamento por intervalo múltiplo. Dentre os critérios FDR e de Bonferroni, que são aplicáveis aos métodos de mapeamento por intervalo, o primeiro mostrou-se mais poderoso, devendo portanto ser preferido.
Palavras-chave: QTL, correção de Bonferroni, testes múltiplos, razão de falsos positivos (FDR)
POWER OF "QUANTITATIVE TRAIT LOCI" DETECTION, SINGLE MARKET ANALISYS AND OF THE MULTIPLE LINEAR REGRESSION
ABSTRACT: In general terms, Quantitative Trait Loci (QTL) mapping differs from other research tools used in genetics since it is, basically, a multiple test procedure. The use of this technique leads to problems related to the genomewise significance level and, consequently, to the power of the test. Using computational data simulation the power of QTL mapping was obtained, carried out through multiple linear regression using stepwise procedures to select markers. Procedures based on single marker analisys, using both the False Discover Rate (FDR) and the Bonferroni criteria to determinate the genomewise significance level were also used. The procedure based on multiple regression, using the stepwise technique, was the most powerful in identifying markers associated to QTL's. However, in cases where its power was less intense, its advantage was the ability to detect only markers strongly associated to QTL's. In comparison to the Bonferroni method, the FDR criterion was in general more powerful, and should be adopted for interval mapping procedures.
Key words: QTL, Bonferroni method, multiple test, false discover rate (FDR)
INTRODUÇÃO
O mapeamento de locos envolvidos no controle gênico de caracteres quantitativos, QTL's, difere dos demais tipos de experimentos conduzidos em genética, por tratar-se, basicamente, de um procedimento de testes múltiplos, uma vez que consiste em distribuir marcadores moleculares por todo o genoma e, em seguida, realizar uma varredura ou "screening" dessas marcas, no intuito de verificar qual(is) está(ão) ligada(s) a QTL's, no caso de estar-se utilizando a análise de marcas simples, ou de posições relativas no intervalo entre duas marcas ao utilizar-se o mapeamento por intervalo (Lander & Botstein, 1989). Já no caso no mapeamento por intervalo composto (Jansen, 1992, 1993 e Zeng, 1993, 1994), primeiramente realiza-se o "screening" das marcas, no intuito de se identificar quais serão usadas para controlar o "back ground" genético, durante o mapeamento de um dado intervalo, e, em seguida procede-se ao mapeamento do referido intervalo.
O problema encontrado nesses procedimentos refere-se ao nível de significância conjunto do teste, também chamado nível de significância genômico, visto que o nível de significância individual (de cada teste) é definido pelo pesquisador. Nível de significância é definido, em estatística, como a probabilidade de se cometer um erro Tipo I (rejeitar uma hipótese nula verdadeira). No presente caso, a hipótese de nulidade testada é a de não existência de QTL associado à marca. No mapeamento de QTL's, cometer um erro Tipo I implica admitir a existência de um QTL inexistente (QTL fantasma).
Suponha-se que, em um determinado genoma sejam distribuídas aleatoriamente t marcas. Assim, ao proceder a varredura dessas marcas à procura de QTL's, serão realizados t testes de marcas simples (um para cada marca), adotando-se um nível de significância (a) para cada teste. Tem-se que o nível de significância conjunto do teste, ou genômico (a*), considerando os t testes independentes será: a* = probabilidade de rejeitar pelo menos uma hipótese nula verdadeira, ou seja, a* = 1- probabilidade de não rejeitar nenhuma hipótese nula verdadeira, isto é,
O nível de significância conjunto cresce à medida que aumenta o número de testes realizados, (equação 1). Por exemplo, realizando-se dois testes, adotando-se a = 0,05 em cada um, o nível de significância conjunto será a*= 0,0975; com 10 testes, esse valor será de 0,4012 e com 50 testes 0,9230. Uma alternativa para contornar esse problema é utilizar a chamada correção de Bonferroni, que, de acordo com Province (1999), consiste em determinar o valor do nível de significância individual (a), que proporcionará o nível de significância conjunto (a*) desejado, dado por:
O problema de usar a correção de Bonferroni, para obtenção do nível de significância individual, que proporcionará o nível de significância conjunto desejado, é que essa correção é obtida considerando t testes independentes, o que não ocorre no mapeamento de QTL's, pois as marcas podem estar localizadas em um mesmo cromossomo. Isso torna esse critério um pouco conservativo, ou seja, o verdadeiro valor de a* é um pouco menor que o nominal, o que aumenta a dificuldade em rejeitar a hipótese H0 (não existência de QTL ligado a marca).
Para contornar alguns dos problemas encontrados nos testes de comparações múltiplas, Benjamin & Hocheberg (1995) propuseram controlar a "razão de falsas descobertas" (FDR "false discovery rate"), definida como sendo a proporção de hipóteses nulas H0 verdadeiras, entre as hipóteses nulas rejeitadas, ou seja, a proporção de erros devidos à falsa rejeição de H0, também chamada proporção de falsos positivos.
Para melhor compreensão desse teste, considere-se que sejam testadas t hipóteses H0, das quais um determinado número (t0) sejam verdadeiras, e que R das t hipóteses foram rejeitadas. A Tabela 1 resume a situação apresentada.
Nesta Tabela, R e t são variáveis observáveis, U,V,S,W e t0 são variáveis aleatórias não observáveis. Em termos dessas variáveis aleatórias, o nível de significância genômico, ou FWER ("familywise error rate"), como definido pelos autores, é P(V ³ 1) .
A proporção de erros devidos à falsa rejeição de H0 (proporção de falsos positivos) é dada pela variável aleatória Q=V/(V+S) = V/R; naturalmente, define-se Q = 0, quando R = 0. Q é uma variável aleatória não observável. Assim, define-se a FDR, Qe, como sendo a esperança matemática de Q, isto é, Qe=E[V/{V+S}] =E[V/R].
Duas propriedades dessa razão de erros decorrem imediatamente Benjamin & Hocheberg (1995):
Se todas as hipóteses H0 forem verdadeiras, a FDR é equivalente a FWER, nesse caso, S = 0 e V = R. Portanto, se V = 0 Þ Q = 0 e se V > 0 Þ Q = 1, ocasionando P(V ³ 1) = E(Q) =Qe. Desse modo, controlar a FDR implica, a grosso modo, controlar a FWER.
Quando t0 < t, a FDR é menor do que ou igual a FWER; neste caso, se V > 0 decorre que V/R £ 1, ocasionando c(v³1) ³ Q. Aplicando o operador Esperança em ambos os lados, tem-se: P(V ³1) ³ Qe. Resulta daí que qualquer procedimento que controle a FWER também controlará a FDR. No entanto, se um procedimento controlar apenas a FDR, ele poderá ser menos restritivo, e um ganho em poder deverá ser esperado. Em particular, quanto maior o número de hipóteses falsas, maior tende as ser S, e, conseqüentemente, a diferença entre as razões de erros (FDR e FWER). Decorre, pois, que o potencial de aumento do poder é tanto maior quanto maior for o número de hipóteses falsas. Em análise de QTL's, isso equivale a dizer que quanto maior o número de QTL's segregando, maior será o poder.
Weller et al. (1996) compararam a utilização da FDR versus o controle do nível e significância individual e conjunto, utilizando a metodologia de aleatorização proposta por Churchil & Doerge (1994). Utilizaram dados referentes à produção de 1400 vacas USHolstein, filhas de 17 touros, genotipadas para 26 microssatélites, e concluíram que, ao se controlar a FDR, o número e hipóteses rejeitadas, isto é, o número de QTL's detectados, é uma função do número atual de QTL's segregando na população, o que não ocorre quando se controlam os níveis de significância conjunto ou individual. A FDR pode ser controlada mesmo para testes correlacionados e pode ser, também, controlada no mesmo nível, quer para todo o genoma ou parte deste. Os autores sugerem que a FDR seja utilizada para uma varredura inicial do genoma à procura de QTL's.
Em análises de ligação gênica, o nível de significância dos testes é escolhido de modo que seja baixa a proporção de falsos positivos, dentre os resultados significativos. Southey & Fernando (1996) defendem a utilização dessa mesma filosofia, para detecção de QTL's, e afirmam que uma vantagem dessa técnica é o fato de que o nível de significância e o poder do teste independem do número de testes realizados (t).
Southey & Fernando (1996) obtiveram os valores de p em diferentes situações, utilizando simulação computacional de dados. Para tanto, assumiram um genoma de 30 Morgans, o qual foi dividido em k intervalos igualmente espaçados, nos quais QTL's foram aleatoriamente distribuídos, sob a restrição de que um intervalo não poderia conter mais de um QTL. Os autores assumiram a ausência de interferência, QTL's de iguais tamanhos, e todas as localizações de um QTL, em um intervalo equiprováveis. Variando a herdabilidade do caráter, número de progênies e nível de significância, concluíram que tanto o erro tipo I quanto o tipo II devem ser baixos, para manter o poder de detecção de QTL's em níveis aceitáveis. Não foi encontrado um nível de significância único que fosse apropriado a todas as situações, devido à redução no poder, principalmente, nas situações de baixa herdabilidade e pequeno número de progênies avaliadas. Para um número grande de progênies, muitas das pressuposições tornaram-se sem importância, incluindo o número de QTL's e a magnitude dos efeitos individuais dos QTL's. A grande vantagem de controlar a proporção de falsos positivos é que o mesmo nível de significância pode ser usado para os testes simples ou múltiplos, pois o poder do teste independe do número de testes realizados, o que não ocorre quando se controla a probabilidade de erro tipo I.
Além do nível de significância, outro aspecto que deve ser considerado, na análise de QTL's, refere-se ao método biométrico a ser utilizado, pois a associação marcador-QTL pode ser testada via análise de marcas simples, por meio de um teste t ou análise de variância para cada marca individualmente, ou via um modelo de regressão múltipla, incluindo todas as marcas, utilizando um procedimento de eliminação de variáveis, como o "forward", o "backward" ou o "stepwise", para o descarte das marcas não informativas.
Kao et al. (1999), ao apresentarem o método de mapeamento por intervalo ("multiple interval mapping"'), defendem o emprego do procedimento "stepwise" para escolha das marcas que entrarão no processo de mapeamento, uma vez que é computacionalmente inviável fazer o mapeamento múltiplo com um número elevado de marcas.
Objetivou-se no presente trabalho avaliar, via simulação computacional de dados, o poder de detecção de QTL's da análise de marcas simples, utilizando os critérios FDR e de Bonferroni para controle do nível de significância conjunto, e da regressão linear múltipa empregando o procedimento "stepwise" para seleção das marcas, bem como identificar fatores genéticos e experimentais que podem influênciar tal poder.
MATERIAL E MÉTODOS
Para avaliar o poder de detecção de QTL's, da análise de marcas simples realizada por meio de regressão linear múltipla, empregando o procedimento "stepwise" para seleção das marcas, com procedimentos baseados em testes múltiplos, utilizando os critérios FDR e de Bonferroni para determinação nível de significância conjunto (a*), simulou-se uma espécie hipotética com quatro cromossomos de um Morgan cada. Em cada cromossomo, foram distribuídas, sistematicamente, a partir da origem, 11 marcas espaçadas de 10 cM entre si. A distribuição sistemática das marcas, ao invés de aleatória, se justifica pelo fato de, em uma situação real, os marcadores moleculares serem, em geral, escolhidos dentre os disponíveis nos mapas de ligação, cobrindo todo o genoma da maneira mais homogênea possível Bearzoti (1997).
O espaçamento de 10 cM entre as marcas foi adotado com base em Darvasi et al. (1993), que avaliaram, via simulação computacional de dados, o poder de detecção de QTL's do teste t para marcas simples e do mapeamento por intervalo, em função do espaçamento entre as marcas utilizadas e concluíram não haver diferença para espaçamentos inferiores a 10 cM e que ocorreu apenas um pequeno decréscimo no poder, quando o espaçamento saltou de 10 cM para 20 cM.
O delineamento genético utilizado, no presente trabalho, foi uma geração F2, obtida mediante o cruzamento de duas linhagens homozigóticas completamente contrastantes. Para obtenção dos genótipos das progênies F2, considerou-se que as permutas gênicas (crossing over) ocorrem ao acaso e não há interferência. Desse modo, como cada cromossomo possui um Morgan, o número de permutas gênicas por cromossomo segue uma distribuição Poisson com média um. Esse número de permutas gênicas (Nc) foi obtido por:
em que:U é um número aleatório com distribuição uniforme [0,1]; P-1 é a inversa da distribuição Poisson com média um. A posição na qual ocorreu a permuta gênica foi dada por L=100U.
O modelo utilizado para simulação dos valores fenotípicos dos indivíduos (yi) foi:
em que: yi é o valor fenotípico do i-ésimo indivíduo, i = 1, 2, ...,n; m é a média geral; k é o número de QTL's controlando o caráter; at é o efeito aditivo do t-ésimo QTL; xt(i) é uma variável codificadora do genótipo do t-ésimo QTL, assumindo os valores -1, 0 e 1, para os genótipos qq, Qq e QQ, respectivamente; dt é o desvio de dominância do t-ésimo QTL; ei é o erro aleatório.
Os erros foram simulados com distribuição normal de média f=0 e variância s2. Esses efeitos foram obtidos por:
em que: F-1 representa a distribuição normal acumulada inversa; Ui é um número aleatório com distribuição uniforme [0,1].
Na simulação do caráter quantitativo consideraram-se as seguintes situações quanto ao seu controle genético:
Caráter controlado por um único QTL, com efeito aditivo a =1 e dominância d = 0, localizado a 20 cM do início do cromossomo 1, estando completamente ligado a uma marca;
Caráter controlado por três QTL's independentes, com efeitos aditivos a = 1 e de dominância d = 0 localizados a 20 cM do início dos cromossomos 1, 2 e 3, estando cada um completamente ligado a uma marca;
Caráter controlado por oito QTL's, com efeitos aditivos a = 1 e de dominância d = 0, estando dois localizados no cromossomo 1, a 20 cM e 40 cM da origem deste; dois no cromossomo 2, a 20 cM e 50 cM do início do mesmo; dois no cromossomo 3 a 20 cM e 60 cM do início e dois no cromossomo 4, a 20 cM e 70 cM do mesmo, sendo que todos oito QTL's estavam completamente ligados a uma determinada marca, e que se encontravam em fase de associação;
Caráter controlado por oito QTL's, com efeitos aditivos a = 1 e de dominância d = 0, localizados nas mesmas posições do item anterior, porém, com QTL's localizados em um mesmo cromossomo ligados em fase de repulsão.
Para cada situação consideraram-se ainda quatro valores de herdabilidade, h2 = 0,10, h2 = 0,25, h2 = 0,50 e h2 = 0,75 e três tamanhos de experimentos, a saber: experimentos constituídos por 50, 100 e 200 indivíduos F2. Para cada uma dessas 48 condições, simularam-se 500 experimentos, os quais foram submetidos à análise de marcas simples, utilizando os procedimento "stepwise", FDR e de Bonferroni.
O procedimento "stepwise" foi realizado considerando todo o genoma simultaneamente, tendo sido adotados os níveis de significância de 0,15 para entrada de uma variável (marca) no modelo e 0,05 para sua permanência.
Para os critérios FDR e Bonferroni, realizou-se análise de regressão linear simples, com o teste da hipótese H0:b1 = 0 para cada marca, totalizando 44 testes por experimento. Para decisão quanto à rejeição da hipótese H0, adotou-se, no caso do critério FDR, uma freqüência de falsos positivos igual a 0,05, e, no de Bonferroni, um nível de significância conjunto de 0,05, que é obtido, considerando-se o nível de significância individual (por teste) de 0,00165.
O ponto de corte ("thereshold"), uilizado para controlar a FDR, ao nível de 0,05 foi obtido de acordo com as indicações de Silva (2000).
O poder de um teste é a probabilidade que o teste apresenta de rejeitar uma hipótese H0 falsa, deste modo, o poder de cada metodologia foi calculado como sendo a freqüência relativa de hipóteses H0 rejeitadas na posição em que os QTL's se localizavam.
RESULTADOS E DISCUSSÃO
Na Figura 1 encontram-se apresentadas as freqüências relativas de hipóteses H0 rejeitadas, pelos procedimentos "stepwise", FDR e Bonferroni em 500 experimentos, em função da herdabilidade do caráter e do número de indivíduos avaliados, para um caráter controlado por um único QTL. Lembrando que a hipótese H0, aqui testada, refere-se a ausência de QTL ligado à marca em questão, e que, na simulação desse caráter, considerou-se este sendo controlado por um único QTL, localizado a 20 cM da origem do cromossomo 1, essa freqüência relativa é então, nesta posição do cromossomo, o poder do teste, e, nas demais posições, a freqüência de falsos positivos ou probabilidade de identificação de QTL's fantasmas.
Quando se utilizou uma geração F2, para análise de um caráter com herdabilidade igual a 0,10, o procedimento "stepwise" mostrou-se mais poderoso que os procedimentos baseados em testes múltiplos, utilizando tanto o critério FDR, quanto o de Bonferroni, que não diferiram entre si quanto ao poder de detecção do QTL (Figura 1). Essa superioridade, em poder, do procedimento "stepwise" é tanto maior quanto menor o número de indivíduos avaliados, uma vez, que nos experimentos com 50 indivíduos, o poder médio observado foi de 0,33 para o "stepwise", 0,12 para o FDR e 0,14 para o Bonferroni, mostrando uma superioridade, em poder, de 0,20 do primeiro procedimento em relação à média dos demais. Nos experimentos com 100 indivíduos, a superioridade do procedimento "stepwise" sobre os demais foi de 0,19, visto que o poder de detecção de QTL's foi de 0,58 para o "stepwise", 0,40 para FDR e 0,38 para o critério de Bonferroni. Essa superioridade caiu para 0,16 nos experimentos com 200 indivíduos.
Outro fato digno de nota refere-se ao ganho em poder, ao se aumentar o número de indivíduos de 50 para 100, que foi de 0,24 no procedimento "stepwise", 0,15 no caso do critério FDR e 0,10 no Bonferroni. Já, ao passar de 100 para 200 indivíduos, os ganhos não foram tão expressivos, sendo de apenas 0,005 para o procedimento "stepwise", 0,01 para o FDR e 0,02 para o critério de Bonferroni. Nesta situação, (h2 = 0,10), o procedimento de seleção de variáveis "stepwise" deve ser preferido em relação aos testes múltiplos, utilizando tanto o critério FDR quanto o de Bonferroni, para a detecção de QTL's, e que o aumento de 100 para 200 indivíduos avaliados não promoverá um ganho significativo no poder de detecção de QTL's, que é baixo (0,58).
Para um caráter com herdabilidade igual a 0,25, as três metodologias apresentaram-se equivalentes, com poder igual a 0,72, no caso de serem avaliados 50 indivíduos, 0,96 com 100 indivíduos e 1,00 com 200 indivíduos. Para um caráter com herdabilidade de 0,50, ou 0,75, não foi observada nenhuma diferença, entre as três metodologias estudadas, quanto ao poder de detecção do QTL, que foi igual a um, mesmo ao se avaliarem apenas 50 indivíduos. Porém o poder dos critérios FDR e Bonferroni foi maior, para as marcas mais distantes da real posição do QTL. Pois, enquanto para as duas marcas adjacentes à posição do QTL, localizadas, respectivamente, a 10 cM a direita e a 10 cM à esquerda do QTL, o poder do procedimento "stepwise" caiu para próximo de 0,05, esse nível só foi atingido pelos procedimentos FDR e Bonferroni na última marca do cromossomo, situada a 80 cM do QTL, sendo que, para o caráter com herdabilidade igual a 0,75, o nível mínimo atingido pelo critério FDR foi de aproximadamente 0,10 nos experimentos com 50 indivíduos e 0,20 nos com 100 indivíduos e 200 indivíduos. Essa discordância do procedimento "stepwise" é inerente à sua concepção, pois esse procedimento tem por princípio descartar todas marcas que sejam redundantes. Como só existe um QTL nesse genoma, uma única marca (a mais próxima do QTL) é suficiente para descrever seu comportamento; em razão disso, é que o poder do procedimento "stepwise" cai bruscamente para as marcas adjacentes à marca à qual o QTL se encontra completamente ligado, o que é uma grande vantagem dessa metodologia em relação aos demais critérios estudados.
Essas mesmas considerações são válidas quando o caráter for controlado por 3 QTL's independentes e de iguais efeitos, com a ressalva de que, neste caso, cada QTL contribui com 1/3 da variância genética do caráter e, conseqüentemente, com 1/3 da herdabilidade deste (Figura 2). Deste modo, para um caráter com herdabilidade 0,10, controlado por 3 QTL's independentes, a herdabilidade associada cada QTL é de 0,033.
Para o caráter com herdabilidade 0,10, o poder de detecção é muito baixo, mesmo avaliando-se 200 indivíduos, sendo que, nesta situação, o maior poder foi de apenas 0,45, alcançado pelo procedimento "stepwise", mostrando que, em mais de metade dos experimentos não se conseguiu detectar esse QTL (Figura 2). Porém, esse poder aumentou consideravelmente com o aumento da herdabilidade, passando para 0,93, quando a herdabilidade foi de 0,25, tendo sido esse valor obtido pelo critério FDR, vindo o procedimento "stepwise" logo em seguida com poder igual 0,81. Apesar de ter apresentado um poder ligeiramente inferior ao do FDR, o procedimento "stepwise" continua a apresentar a grande vantagem de identificar apenas a marca mais próxima ao QTL. Esses resultados mostram a necessidade incontestável da utilização de um número elevado de indivíduos, pelo menos 200.
No caso de um caráter controlado por oito QTL's, de iguais efeitos, ligados dois a dois, em fase de associação, o procedimento FDR, apresentou-se mais poderoso que os demais, principalmente quando se considerou um caráter de baixa herdabilidade (h2 = 0,10); porém, não foi capaz de diferenciar os dois QTL's, mesmo quando estes estavam separados por uma distância maior (50 cM), o que não ocorreu com o procedimento "stepwise" (Figura 3). Este último, apesar de menos poderoso, foi capaz de distinguir os dois QTL's, independentemente da distância entre os mesmos.
Considerando os mesmos QTL's do caso anterior, porém ligados em fase de repulsão, os critérios FDR e Bonferroni apresentaram poder de detecção muito inferiores ao procedimento "stepwise" sendo que as duas primeiras metodologias só se aproximaram da última, em termos de poder, quando o caráter sob análise apresentou herdabilidade igual a 0,75, e, mesmo assim, utilizando-se 200 indivíduos e estando os QTL's bem distantes, isto é, a uma distância maior ou igual a 40 cM (Figura 4).
No caso dos caracteres de baixa herdabilidade (h2 = 0,10 e h2 = 0,25), o poder dos critérios FDR e Bonferroni foi desprezível, mesmo ao se utilizarem 200 indivíduos, sendo terminantemente desaconselhável o uso dessas duas metodologias para detecção de QTL's, nesta situação, o mesmo ocorrendo com o procedimento "stepwise", nos experimentos com 50 e 100 indivíduos. Já ao se utilizarem 200 indivíduos, o procedimento "stepwise" apresentou um ganho em poder, que foi de 0,16 para os QTL's mais próximos e 0,31 para os mais distantes, o que poderia indicar uma possibilidade de maiores ganhos, com o aumento do número de indivíduos. Porém, aumentando o número de indivíduos avaliados para 400, o poder do procedimento "stepwise" para os dois QTL's mais próximos foi de 0,15. Verifica-se, assim, que o aumento do número de indivíduos não alterou o poder.
Para o caráter com herdabilidade 0,50, o poder de detecção de QTL's do procedimento "stepwise" foi de 0,41, para os QTL's mais próximos e 0,72 para os mais distantes, quando se avaliaram 200 indivíduos, e bem inferiores a esses valores, ao utilizar-se um número menor de indivíduos. Considerando um caráter com herdabilidade igual a 0,75, o poder deste procedimento atingiu níveis elevados, mesmo se empregando 100 indivíduos, sendo que, com a utilização de 200 indivíduos, esse poder foi de 0,93 para os dois QTL's mais próximos e 1 para os demais.
Os caracteres quantitativos são controlados por um grande número de QTL's (Goldman et al., 1994; Berke & Rocheford, 1995) , dos quais, alguns pertencem a um mesmo grupo de ligação. Sendo esses caracteres de baixa herdabilidade, é desaconselhável a utilização da técnica de análise de marcas simples, tanto pelo procedimento "stepwise", quanto pelos critérios FDR e de Bonferroni, para a detecção de QTL's. Essa afirmação é fortalecida pelo fato de nas simulações realizadas terem sido considerados QTL's completamente ligados a uma determinada marca, situação que é a mais favorável possível para o mapeamento, do ponto de vista de distância entre o QTL e a marca estudada. À medida que o QTL se localiza mais longe da marca, ocorre uma redução no poder de detecção Darvasi et al. (1993), redução que é máxima quando o QTL se localiza exatamente no meio do intervalo entre duas marcas subseqüentes.
Uma alternativa para o mapeamento de QTL's, envolvidos no controle de caracteres de baixa herdabilidade, é a utilização de outras metodologias, como o mapeamento por intervalo (Lander & Botstein, 1989). Porém Darvasi et al. (1993) verificaram que o método de mapeamento por intervalo apresentou apenas uma pequena vantagem, em termos de poder de detecção de QTL's, em relação à análise de marcas simples, sendo que a grande vantagem desta, em relação à análise de marcas simples refere-se à precisão na localização do QTL, no intervalo entre duas marcas adjacentes. Portanto, na situação aqui estudada, também não se espera nenhuma vantagem desta metodologia, principalmente, devido ao fato dos QTL's estarem completamente ligados a uma determinada marca. Nesta situação, as duas metodologias são análogas, uma vez que, considerando uma freqüência de recombinação nula entre o QTL e uma das marcas, ou seja, fazendo c1 = 0 nos modelos para o mapeamento por intervalo de Lander & Botstein (1989) ou de Haley & Knott (1992), estes se reduzem aos modelos de análise marcas simples, considerando os métodos de estimação de máxima verossimilhança no primeiro caso, e de mínimos quadrados, no último. O mesmo sendo válido para o mapeamento por intervalo composto.
Os baixos poderes apresentados pelos métodos de mapeamento são decorrentes da baixa herdabilidade dos caracteres sob análise. Definindo a herdabilidade como a razão entre a variância genética e a variância fenotípica entre as unidades de seleção, isto é:
em que: é a variância genética; s2 é a variância ambiental e r é o número de repetições, na qual as unidades de seleção foram avaliadas.
Aumentando o número de repetições (r), aumenta-se a herdabilidade (equação 7) e, conseqüentemente, o poder de detecção de QTL's. Considere-se o caráter controlado por um único QTL, com efeito aditivo igual a um. Nesse caso, tem-se que: » a2 = 0,5. Para obtenção de h2 = 0,10, considerou-se, na simulação, s2 = 4,5. Nesta situação, caso os indivíduos sejam avaliados em experimentos com repetições, e considerando-se como unidade de seleção/mapeamento o valor fenotípico médio de cada indivíduo, os valores da herdabilidade serão: h2 = 0,25, ao se utilizarem três repetições e h2 = 0,5, se utilizarem nove. Nesse caso, o poder de detecção, no caso da avaliação de 200 indivíduos, passará de 0,60, quando não se utilizarem repetições, para 0,98, ao se utilizarem três repetições, e um ao se utilizarem nove (Figura 1).
Os métodos de mapeamento por intervalo constituem um procedimento de testes múltiplos, nos quais, em um dado intervalo entre duas marcas, vários testes de hipóteses são realizados. Nesse caso, das três metodologias avaliadas, apenas os critérios de FDR e de Bonferroni são aplicáveis. Em geral, o critério FDR apresentou-se mais poderoso que o de Bonferroni, devendo, portanto, ser preferido, para o controle do nível de significância conjunto ao se realizar o mapeamento de QTL, utilizando métodos de mapeamento por intervalo, (Figuras 1 a 4).
CONCLUSÕES
O procedimento baseado em regressão múltipla, utilizando o procedimento "stepwise" para seleção de variáveis, foi mais poderoso, em identificar as marcas associadas a QTL's, do que os procedimentos baseados em testes individuais, utilizando tanto o critério FDR, quanto o de Bonferroni para o controle do nível de significância conjunto.
Dentre os critérios FDR e de Bonferroni, que são apliçaveis às metodologias de mapeamento por intervalo, o primeiro apresentou-se, em geral mais poderoso, devendo, portanto, ser preferido para o controle do nível de significância conjunto.
Recebido em 26.10.01
- BEARZOTI, E. Simulação de seleção recorrente assistida por marcadores moleculares em espécies autógamas. Piracicaba, 1997. 230p. Tese (Doutorado) - Escola Superior de Agricultura Luiz de Queirós, Universidade de São Paulo.
- BENJAMINI, Y.; HOCHEBERG, Y. Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistics Society. B, v.57, p.289-300, 1995.
- BERKE, T.G.; ROCHEFORD, T.R. Quantitative trait loci for flowering, plant and ear height, and kernel traits in maize. Crop Science, v.35, p.1542-1549, 1995.
- CHURCHIL, G.A.; DOERGE, R.W. Empirical Threshold Values for Quantitative Trait Mapping. Genetics, v.138, p.693-971, 1994.
- DARVASI, A.; WEINREB, V.; MINKE, V.; WELLER, J.I.; SOLLER, M. Detecting Marker-QTL Linkage and Estimating QTL Gene Effect and Map Location Using a Satured Genetic Map. Genetics, v.134, p.943-951, 1993.
- GOLDMAN, I.L.; ROCHEFORD, T.R; DUDLEY, J.W. Molecular markers associated with maize kernel oil concentration in an Illinois high protein x Illinois low protein cross. Crop Science, v.34, p.908-915, 1994;
- HALEY, C.S.; KNOTT, S.A. A simple regression method for mapping quantitative trait loci in line crosses using flanking markers. Heredity, v.69, p.315-324, 1992.
- JANSEN, R.C. A general mixture model for mapping quantitative trait loci by using molecular markers. Theoretical and Applied Genetics, v.85, p.252-260, 1992.
- JANSEN, R.C. Interval mapping of multiple quantitative trait loci. Genetics, v.135, p.205-211, 1993.
- KAO, C.H.; ZENG, Z.B.; TEASDALE, R.D. Multiple interval mapping for quantitative trait loci. Genetics, v.152, p.1203-1216, 1999.
- LANDER, E.S.; BOTSTEIN, D. Mapping Mendelian factors underlying quantitative traits using RFLP linkage maps. Genetics, v.121, p.185-199, 1989.
- PROVINCE, M.A. Sequential Methods of analysis for genome scan. In: RAO, D.C.; PROVINCE, M.A. Dissection of complex traits San Diego: Academic Press, 1999. 583p.
- SILVA, H.D. Aspectos biométricos da detecção de QTL's ("Quantitative Trait Loci") em espécies cultivadas. Piracicaba, 2001. 166p. Tese (Doutorado) Escola superior de Agricultura Luiz de Queiroz, Universidade de São Paulo.
- SOUTTHEY, B.R.; FERNANDO, R.L.; Controlling the proportion of false positive among significant results In: WORLD CONGRESS ON GENETICS APPLIED TO LIVESTOCK PRODUCTION, 6., Armindale, 1996. Proceedings Armindale: University of New England, 1996. v.26, p.221-224.
- WELLER, J.I.; SONG, J.Z.; HEYEN, D.W.; LEWIN, H.A.; RON, M. A new approach to the problem of multiple comparisons for detection of quantitative trait loci. In: WORLD CONGRESS ON GENETICS APPLIED TO LIVESTOCK PRODUCTION, 6., Armindale, 1996. Proceedings Armindale: University of New England, 1996. v.26, p.229-231.
- ZENG, Z.B. Theoretical basis for separation of multiple linked gene effects in mapping quantitative trait loci. Proceedings of the National Academic Science of the USA, v.90, p.10972-10976, 1993.
- ZENG, Z.B. Precision mapping of quantitative trait loci. Genetics, v.136, p.1457-1466, 1994.
Datas de Publicação
-
Publicação nesta coleção
16 Out 2002 -
Data do Fascículo
Dez 2002
Histórico
-
Recebido
26 Out 2001