Resumo
Introdução Métodos de inferência estatística (IE) são amplamente utilizados na análise de dados epidemiológicos para avaliação da variação amostral como provável fonte de erro dos resultados. Entretanto, pressupostos necessários para seu uso muitas vezes não são verificados.
Objetivo Discutir pressupostos da IE, implicações do seu uso quando os indivíduos são selecionados de forma não aleatória, diferentes abordagens estatísticas de dados epidemiológicos e cenários de extrapolação de resultados em epidemiologia ocupacional.
Métodos Ensaio com base em literatura especializada e na experiência acadêmica dos autores.
Resultados São apresentadas situações da pesquisa epidemiológica nas quais os procedimentos de IE são utilizados sem apoio nos pressupostos para sua aplicação. São discutidas as situações de generalização de resultados epidemiológicos, assinalando-se quando a validade do uso da inferência estatística pode ser questionada. Ponderações sobre temas abordados neste artigo visam contribuir para a condução crítica da análise de dados e no processo de extrapolação dos resultados da pesquisa em epidemiologia ocupacional, delimitando o papel da IE.
Conclusão O uso de métodos estatísticos e o relato de resultados de pesquisa devem ser feitos com as ressalvas indispensáveis que possibilitem ao leitor avaliar sua pertinência, possíveis violações de pressupostos e a validade do raciocínio e da inferência aplicadas.
Epidemiologia e Bioestatística; Amostragem; Intervalos de Confiança; Análise Estatística; Interpretação Estatística de Dados; Saúde do Trabalhador
Abstract
Introduction Statistical inference (SI) methods are widely used in epidemiological data analyses to evaluate random variation as a probable source of error in the results. However, the assumptions necessary for its use are frequently unmet.
Objective To discuss assumptions for SI, implications of its use when individuals are non-randomly selected, different statistical approaches of epidemiological data and results extrapolation sceneries in occupational epidemiology.
Methods Essay based in the specialized literature and in the authors’ academic experience.
Results This essay presents situations of epidemiological research in which the SI procedures are used without the support of the assumptions for its appliance. Situations of generalization of epidemiological results are discussed, pinpointing when the validity of using SI can be questioned. The considerations about themes addressed in this essay aim to contribute to the critical management of data analysis and to the process of results extrapolation in occupational epidemiology research, delimiting the role of SI.
Conclusion The use of statistical methods and of the report of research results should include essential provisos that allow the reader to evaluate its pertinence, possible assumptions violation, and the validity of the reasoning and of the inference used.
Introdução
Em estudos epidemiológicos, é comum a utilização de amostras por conveniência ou censos, sejam estudos com delineamento transversal, estudos de coorte ou caso controle. Apesar de se tratar de pesquisas cuja seleção de participantes não decorreu de estratégia probabilística, abundam estudos publicados que apresentam resultados de testes estatísticos e/ou de intervalos de confiança (IC), com amostra não probabilística. Considerando os fundamentos da inferência estatística (IE) como o conjunto de pressuposições necessárias para sua aplicação e sua finalidade, generalizar conclusões com base em testes estatísticos e IC implica a observância desses pressupostos.
Nesta perspectiva, para citar apenas um dos reconhecidos estatísticos com inegável protagonismo na Epidemiologia, Greenland, em publicação de 1990, na revista Epidemiology, intitulada Randomization, Statistics and Causal Inference1, afirma que
na maioria dos estudos epidemiológicos, a randomização e a amostra probabilística desempenham pouco ou nenhum papel, portanto, as interpretações probabilísticas das estatísticas convencionais raramente são justificadas e tais análises podem encorajar interpretações errôneas de estudos não randomizados” (p. 421, tradução nossa)d.
Greenland e Poole2 enfatizam que “distorções que surgem exclusivamente da variação amostral são tradicionalmente chamadas de erros aleatórios. São essas distorções, e apenas essas distorções, que os valores-p e os intervalos de confiança abordam” (p. 115, tradução nossa)e. Esses artigos foram antecedidos e seguidos de outras contribuições3-5, destacando-se a edição especial do The American Statistician, em 2019, com 43 artigos. No editorial dessa edição especial, intitulado Moving to a World Beyond “p<0.05”6, os autores deixam claro que os resultados de IC e valores-p devem ser considerados para além da “significância estatística” binária, expressa em resultado significante ou não. A validade das conclusões na pesquisa epidemiológica depende de outros aspectos além dos métodos de IE. Inferências científicas válidas implicam considerar diferentes fatores, incluindo desenho do estudo, processo de recrutamento e seleção de participantes, qualidade das medições, evidência externa para o fenômeno em estudo e validade dos pressupostos que fundamentam a análise dos dados5,7.
As fontes de incerteza dos estudos epidemiológicos, os erros sistemáticos (vieses) e os erros aleatórios exigem de pesquisadores a busca permanente da sua superação. O uso crítico da IE diz respeito apenas a procedimentos adotados para lidar com os erros aleatórios. Entretanto, apesar dos pressupostos da IE estarem bem-definidos8, os equívocos de interpretação dos resultados de testes de hipóteses, com o uso de valores-p e dos IC, têm sido há muito mencionados9-11. Alguns autores atribuem a dificuldade da utilização dos métodos estatísticos à complexidade de definições sobre valor-p, significância estatística e IC2. Parece haver desconhecimento, não entendimento ou mau entendimento da finalidade e dos pressupostos da IE.
Este ensaio tem por objetivo: discutir criticamente o uso da IE, em especial nos estudos em epidemiologia ocupacional; avaliar a adequação do uso da Estatística na abordagem de dados epidemiológicos, delimitando suas diferentes divisões – descritiva, analítica e inferencial –; e apresentar e discutir situações de generalização de resultados epidemiológicos.
Etapas de construção do ensaio
Uma avaliação crítica da utilização dos procedimentos da IE é o eixo que estrutura o texto. Um conjunto de autores da Estatística e da Epidemiologia, especialmente nas últimas décadas, vem contribuindo com reflexões no que concerne ao uso da IE em estudos epidemiológicos. Inicialmente, o ensaio apresenta uma seção sobre os princípios e finalidades da IE. Em sequência, discute criticamente situações comumente encontradas na análise de dados epidemiológicos, incorporadas na prática da divulgação científica, na revisão por pares e pelos periódicos da área, raramente questionadas.
Uma vez apresentado esse conjunto de situações da IE, o ensaio desenvolve argumentação acerca da abordagem estatística de dados epidemiológicos, na perspectiva de delimitar suas diferentes divisões. Caracteriza, então, as abordagens estatísticas dos dados epidemiológicos como descritiva, analítica e inferencial, com a finalidade de contribuir para a desconstrução da concepção que admite existirem estudos descritivos e estudos analíticos, mas estes seriam analíticos se, ao apresentarem as medidas de associação resultantes da comparação de grupos (por exemplo, expostos e não expostos), fizessem necessariamente uso da IE. Segundo essa concepção, os estudos que não usam a generalização de dados baseada na IE não são analíticos e têm validade externa comprometida. Por fim, o ensaio apresenta diferentes situações de generalização de dados epidemiológicos, delimitando o papel da IE.
Princípios e finalidades da IE em Epidemiologia
Em Epidemiologia, os estudos dos fatores de risco ou de exposição, ou de determinantes das condições de saúde, ou ainda dos efeitos de intervenções requerem que se adotem métodos que possibilitem realizar generalizações, com razoável margem de segurança diante das limitações e incertezas próprias da abordagem populacional dos problemas de saúde.
O conjunto de métodos disponíveis para sustentar a argumentação favorável a uma hipótese de estudo inclui a IE, isto é, os procedimentos da estatística inferencial constituem-se em um eixo auxiliar de sustentação da hipótese de estudo. O argumento estatístico, posto dessa maneira, não seria o mais importante ou central no raciocínio epidemiológico e na discussão dos resultados de estudos epidemiológicos. Especialmente importante para os estudos epidemiológicos é a magnitude da diferença numérica das medidas de frequência dos grupos de comparação, ou a magnitude da razão das medidas de frequência, a direcionalidade das diferenças, ou da razão no sentido da hipótese de estudo. Entretanto, uma vez que a IE seja aplicada, os seus pressupostos devem ser sempre considerados.
Em qualquer estudo epidemiológico, é indispensável que os pesquisadores delimitem a população de interesse (população-alvo), descrevam a população efetivamente estudada e como os indivíduos foram selecionados para participar do estudo. Uma das razões para isso é a de proporcionar à comunidade científica informação suficiente para que sejam julgados o mérito do estudo e a aplicabilidade dos resultados. Quanto à seleção dos indivíduos, muitas vezes, o epidemiologista não tem os recursos necessários para estudar todos os indivíduos da população para a qual ele deseja generalizar seus resultados. Nessas situações, ele é levado a estudar uma parte (amostra) dessa população.
Neste ensaio, assume-se que população é o conjunto de indivíduos que possuem pelo menos uma característica em comum, do qual se tem interesse em analisar o comportamento de algumas outras características que variam entre os sujeitos que o compõem. População-alvo é a população de interesse, que poderá coincidir com a população investigada, caso todos os seus componentes sejam estudados. Se isso não for possível, a população-alvo continuará a ser a população de interesse, mas a população investigada será constituída por uma amostra retirada dela. O método para seleção dos indivíduos da população para compor uma amostra poderá ser probabilístico ou não probabilístico.
O pesquisador, utilizando a teoria da probabilidade e os métodos de IE, obterá conclusões sobre os parâmetros de interesse da população-alvo, baseando-se nos resultados obtidos na amostra. Para isso, adotará os procedimentos mais adequados para que todas as características de interesse dos indivíduos que constituem a população-alvo estejam representadas na amostra. Assim, ele deverá aplicar os procedimentos de amostragem probabilística, pelos quais tentará assegurar que todos os indivíduos da população tenham uma probabilidade conhecida a priori de serem incluídos na amostra.
Esse processo implica considerar que, se fossem retiradas numerosas amostras probabilísticas de uma mesma população-alvo, haveria uma variação dos resultados amostrais, pois muitas dessas amostras apresentariam resultados diferentes, já que os indivíduos que compõem a população-alvo são diferentes e cada amostra retirada ao acaso poderia conter um conjunto diferente de indivíduos. Como em seu estudo o epidemiologista selecionará apenas uma amostra, que poderia ser qualquer uma das numerosas amostras passíveis de serem selecionadas, o fato dos resultados que seriam obtidos em diferentes possíveis amostras variarem entre si, o obrigará, frente à única amostra selecionada, a se perguntar: que informações poderei obter sobre os parâmetros da população-alvo através dos resultados obtidos nesta única amostra estudada? O processo de IE – com o cálculo de valores-p ou IC, no caso da IE clássica – tem a única finalidade de ajudar o epidemiologista a responder a essa pergunta.
Com o teste de hipóteses, no qual se calcula o valor-p, o epidemiologista irá testar se determinada afirmação sobre o parâmetro populacional é refutada ou não pelos resultados da amostra. Por exemplo, em um estudo de corte transversal, pode-se testar a hipótese nula de que a razão de prevalências é igual a 1, ou seja, a hipótese de que não há associação entre a variável independente e o desfecho.
Já com o auxílio do IC, o epidemiologista avaliará a incerteza em torno da estimativa pontual obtida na amostra. Quanto menor a amplitude do IC, maior a precisão com que se conhece o parâmetro populacional de interesse. Um intervalo de 95% de confiança significa que em 100 replicações que fossem feitas, 95% delas conteriam o parâmetro populacional. Deve-se evitar a interpretação binária do IC, dicotomizada em significante ou não significante, prática infelizmente bastante habitual, baseada apenas na verificação de que tal IC inclui ou não o valor nulo6,10,12,13. A essa crítica retornaremos adiante.
Situações comuns de uso questionável da IE
Considerar que sem a IE não é possível avaliar diferenças entre subgrupos estudados
Alguns epidemiologistas argumentam que precisam usar a IE porque sem essa não teriam como avaliar se há ou não diferença estatística de algum desfecho de interesse entre os subgrupos estudados (por exemplo, prevalência de hipertensão arterial entre trabalhadores idosos e jovens na população de estudo), mesmo sendo uma pesquisa censitária ou com amostra não probabilística. Mas por que o epidemiologista, nesse caso, acha que deve avaliar se há diferença estatística entre os subgrupos de idosos e jovens?
Avaliar estatisticamente uma diferença entre subgrupos envolve avaliar a distribuição amostral para o estimador, no exemplo em questão, diferença de prevalências de hipertensão arterial entre trabalhadores idosos e jovens, ou avaliar a estatística de teste, no caso do teste de hipótese para comparação de prevalências entre subgrupos. Se os pressupostos sobre o modelo probabilístico e a amostragem probabilística não são atendidos, qual a garantia nos resultados do IC ou do teste de hipótese obtidos? Claramente, existe uma limitação no uso de métodos de IE nessas situações que precisam ser considerados e discutidos de forma crítica. Em estudos censitários, como toda a população-alvo foi investigada, não tendo havido amostragem, a diferença numérica (não a diferença estatística) observada entre as prevalências de hipertensão arterial entre os subgrupos é a diferença existente na população-alvo, desde que o estudo não contenha vieses importantes. A relevância dessa diferença numérica obtida poderá ser avaliada em termos de sua magnitude e significado epidemiológico, clínico e ou fisiopatológico.
Considerar que sem o uso de IE o artigo não terá validade científica ou não será publicável
Tome-se o exemplo de um estudo com amostra probabilística que concluiu, com base na IE, que a diferença encontrada entre as incidências de câncer de pulmão entre trabalhadores fumantes e não fumantes não ocorreu por simples variação amostral dos resultados, portanto, houve um resultado estatisticamente significante. Nesse exemplo, a diferença de incidências existe, não é zero, na população-alvo da qual a amostra foi retirada. Ao fim do estudo, o pesquisador poderá concluir que foi observada uma associação estatística entre tabagismo e câncer de pulmão. Mas concluir que tabagismo é causa de câncer de pulmão não seria o resultado de um único estudo.
As evidências obtidas no âmbito de um estudo específico podem apenas contribuir para o conjunto de evidências já disponíveis. E a relação entre tabagismo e câncer de pulmão é um exemplo clássico sobre o longo processo para atribuição de causalidade, haja vista o conjunto acumulado de evidências graças às diversas investigações epidemiológicas que permitiram a consolidação dessa relação causal. Assim, importante considerar que a relevância das evidências de um único estudo dependerá do desenho de estudo apropriado; da plausibilidade biológica, fisiopatológica e epidemiológica das hipóteses formuladas e dos resultados observados; da força das associações encontradas; e da consistência dos resultados quando se faz a sua comparação com aquelas encontradas em outros estudos. Em longo prazo, esse processo de avaliação de causalidade continuará, por meio de revisões sistemáticas da literatura e meta-análises, considerando-se os resultados de vários estudos de boa qualidade científica e avaliando-se o atendimento ou não dos critérios de atribuição de causalidade14,15. Pelo exposto, os procedimentos de IE, quando aplicáveis, serão importantes em cada estudo específico, para abordagem da influência da variação amostral nos seus resultados. Portanto, é necessário distinguir o processo de IE do processo de inferência causal em Epidemiologia, que implica muitas outras avaliações.
Outro ponto a se considerar, e que pode contribuir para equívocos dos autores, é que muitos editores de revistas científicas consideram, da mesma forma equivocada, que é essencial para publicação a utilização de procedimentos de IE em artigos. Segundo Rothman, Greenland e Lash13:
muitos pesquisadores ainda acreditam que seria inútil submeter à publicação qualquer artigo que não apresente testes de significância estatística. Esta crença não é totalmente infundada, porque muitos editores de periódicos e revisores de artigos científicos ainda dependem da apresentação de testes de significância como indicadores de análises estatísticas sofisticadas e relevantes, bem como sendo o meio principal de avaliar a variabilidade em um estudo (p. 151, tradução nossa)f.
Novamente, os procedimentos de IE foram desenvolvidos para auxiliar o pesquisador a extrapolar cuidadosamente os resultados obtidos da amostra para uma população-alvo.
Não considerar as especificidades do uso da IE em ensaio clínico randomizado
Em um ensaio clínico randomizado (ECR), quando o estudo é bem planejado e conduzido, dois sorteios são realizados: um para seleção de possíveis participantes do estudo e outro (chamado de randomização) para a separação dos grupos a serem comparados. Se o primeiro sorteio não for realizado, mas apenas o segundo, continuará posta para o epidemiologista a seguinte questão: a diferença observada na ocorrência do desfecho entre os grupos comparados ocorreu devido às diferentes intervenções às quais esses grupos foram submetidos? Observe que, se outra randomização fosse feita, os grupos selecionados poderiam não ser exatamente aqueles obtidos na única randomização feita e, consequentemente, a diferença encontrada na ocorrência do desfecho entre os grupos poderia não ser exatamente a mesma, ou seja, se numerosas randomizações fossem feitas, haveria uma variação nos resultados observados. O epidemiologista deverá então se perguntar: com base na diferença obtida nos grupos comparados, qual a diferença mais provável de ser a verdadeira diferença entre os grupos? Dessa forma, a IE poderá auxiliá-lo a responder essa pergunta, concluindo com o uso da IE – IC ou valores-p – sobre a diferença mais provável de ser a verdadeira diferença entre os grupos. Contudo, como o método de seleção de possíveis participantes na população-alvo não foi probabilístico, isto é, não houve o primeiro sorteio mencionado acima, o epidemiologista deverá julgar quão apropriada é a generalização dos resultados do estudo para a população-alvo e para populações com condições clínicas comparáveis, registrando possíveis limitações ao fazê-lo16,17.
Abordagens estatísticas de dados epidemiológicos: a delimitação necessária de cada etapa
Classicamente, assume-se que a Epidemiologia se assenta em três pilares: na clínica, nas ciências sociais e na estatística18. E o papel da estatística é bem reconhecido, identificando-se três diferentes abordagens estatísticas de dados epidemiológicos, de acordo com a finalidade do estudo: descritiva, analítica e inferencial17.
Por meio da abordagem descritiva, é possível caracterizar quantitativamente uma realidade ou os indivíduos estudados, utilizando-se cálculo de frequências simples, relativa e acumulada; cálculo de medidas de tendência central, de dispersão e de posição; gráficos; e avaliando a forma das curvas de distribuição. São diversas as modalidades de ferramentas estatísticas aplicadas na caracterização da população estudada17.
Com a abordagem analítica, investiga-se a existência de relações entre as características ou atributos dos indivíduos. Assim, a abordagem analítica permite a obtenção das medidas epidemiológicas de associação entre duas variáveis, expressas como razão de médias, razão de prevalências, razão de incidências (risco relativo), razão de chances (odds ratio). Outras técnicas comuns da abordagem analítica fornecem os coeficientes de correlação e de regressão linear, para citarmos algumas das mais comuns13. Uma ilustração do uso adequado da abordagem analítica pode ser vista no seguinte trecho de um estudo: “O plano amostral foi não probabilístico, assim não foram calculadas estatísticas inferenciais devido à estimativa inadequada do erro padrão em tal circunstância [...]. Para se avaliar a correlação, [...] foi utilizado o coeficiente de correlação de Spearman”19, sem o uso do valor-p ou IC.
A abordagem inferencial terá lugar quando, a partir de dados obtidos em uma amostra probabilística, se pretender inferir estatisticamente resultados para a população-alvo, conforme já apresentado na seção sobre os princípios e finalidades da IE. Nesse caso, muitos testes estatísticos estão disponíveis e serão selecionados com base na hipótese específica a ser testada tanto no tipo como nas características dos dados coletados17,20. Ademais, a teoria da estimação permitirá a obtenção dos IC.
Observe que, ao se adotar essas três diferentes abordagens, partimos da contribuição de Silvany-Neto17, que mantém a delimitação da Estatística Descritiva, mas distingue a Estatística Analítica da Estatística Inferencial. As delimitações mais habituais na literatura clássica são Estatística Descritiva e Estatística Inferencial. Nesse sentido, a distinção proposta parece crucial para desconstruir equívocos relativos ao uso da IE baseado no entendimento de que um estudo é analítico apenas se fizer uso da Estatística Inferencial.
Essas abordagens dos dados epidemiológicos são utilizadas de forma isolada ou combinada, de acordo com o objetivo e a natureza de cada estudo. Assim, a taxa de afastamento do trabalho por doença foi de 19,9 por 100 pessoas-ano, em estudo de coorte com trabalhadores da indústria de petróleo, obtida por meio de um censo21. Ou, a prevalência de lombalgia em trabalhadores da indústria de plástico, estudo com amostra probabilística, foi descrita como 28,9%, seguida de um IC de 95% (IC 22,0–35,8)22. No primeiro caso, uma abordagem descritiva e no segundo, abordagens descritiva e inferencial.
Além disso, quando o objetivo é avaliar a existência, direção e magnitude de associação entre variáveis, ou seja, em um estudo analítico, se esse tem amostra não probabilística – censo ou amostra por conveniência –, uma medida de associação será obtida. No caso da coorte descrita, as mulheres apresentaram taxa de afastamento 79% maior do que os homens (HRaj: 1,79)21. E em estudo de corte transversal com agentes penitenciários, as trabalhadoras tiveram 2,77 vezes a prevalência de Transtorno Depressivo Maior dos seus colegas homens23. Já em caso de estudo analítico com amostra probabilística e que também objetive investigar associação entre variáveis, à medida de associação será acrescentado o IC: por exemplo, a prevalência de dor em extremidades superiores proximais entre os expostos à alta demanda psicológica na indústria de calçados é 63% maior quando comparada à dos trabalhadores sob baixa demanda (RPaj: 1,63, IC95%: 1,29–2,06)24. Por outro lado, na coorte com trabalhadores da indústria de petróleo21 e na pesquisa entre agentes penitenciários23, fez-se uma abordagem analítica mais adequada a estudos censitários. No estudo na indústria de calçados, por sua vez, utilizou-se a abordagem analítica e a inferencial, investigando distúrbios musculoesqueléticos em uma amostra aleatória24.
Questões atinentes à generalização em estudos epidemiológicos
As fontes de incerteza do processo de investigação científica têm sido reconhecidas como aquelas relativas à variação amostral, objeto deste ensaio, e as decorrentes de erros sistemáticos, como sugerem Altman e Bland25. As primeiras dizem respeito à precisão ou confiabilidade de estudo, ao papel do acaso, e a segunda fonte refere-se aos vieses que se relacionam à validade de estudo ou à acurácia20. Embora o presente texto discuta questões relativas à precisão do estudo e às diversas modalidades para abordá-la, é relevante mencionar a validade de estudo e sua vinculação ao processo de seleção da amostra.
A validade de estudo apresenta-se, em teoria, como a ausência de erros sistemáticos ou vieses, sejam os de informação ou de seleção, e confundimento. É preferível assumir que o papel do epidemiologista não é eliminar todo e qualquer viés, entretanto, é seu papel buscar fazê-lo e, mais que isso, avaliar, explicitar e documentar o impacto das imperfeições não superadas.
Uma vez assegurada a validade do estudo, validade interna à amostra ou população de estudo, almeja-se extrapolar os resultados. A validade do estudo é, portanto, objetivo precípuo de uma investigação: “A utilidade da pesquisa científica reside principalmente na generalização das descobertas, e não nas informações obtidas sobre indivíduos em particular”26 (p. 409, tradução nossa)g.
Em Epidemiologia, distingue-se validade interna e validade externa. A primeira diz respeito ao grau de fidedignidade das conclusões alcançadas para a própria amostra ou população de estudo. Quanto à validade externa, que é a extrapolação dos resultados da amostra para além dela, Pereira27 distingue como primeira extrapolação aquela da amostra estudada para a população-alvo e, como segunda extrapolação, da população estudada (amostral ou censo) para outras populações. Ademais, assinala que a segunda extrapolação é “feita com base em julgamentos de caráter subjetivo”. Afirma que: “Uma margem de incerteza sempre envolve qualquer extrapolação, cuja interpretação é um misto de ciência e arte”27. Da mesma forma, Rothman et al.28 afirmam sobre a extrapolação de resultados para outras populações: “Esse processo é incerto, tal como tudo na ciência empírica” (p. 1012, tradução nossa)h.
O processo de extrapolação dos resultados obtidos em um estudo ocorrerá em distintas situações de pesquisa que implicarão diferentes modalidades de extrapolação, que dizem respeito à validade externa do estudo, conforme será detalhado a seguir.
Referir as distintas situações de pesquisa e as bases para extrapolação dos seus resultados permite evidenciar que o uso da IE – que assume um protagonismo na pesquisa em saúde – se considerados seus pressupostos, deveria se restringir a uma única situação de extrapolação, a extrapolação dos resultados de uma amostra probabilística para a população-alvo de onde a amostra foi retirada. Nessa situação, e admitindo que a seleção da amostra não envolva erro sistemático importante, é possível utilizar a teoria da probabilidade e os métodos de IE para extrapolar os resultados da amostra para a população, conforme apresentado na seção sobre os princípios e finalidades da IE. Nos demais casos, o uso da IE pode ser questionado.
Em estudo com amostra probabilística, por meio de um teste estatístico se avaliará o valor-p do teste, isto é, a probabilidade de ocorrerem valores mais extremos para a estatística de teste do que os observados com a amostra, assumindo que a hipótese nula é verdadeira. Se o valor-p é suficientemente pequeno, indica, por exemplo, que a diferença de médias, muito provavelmente, independe do acaso, dado um nível de significância fixado previamente (o conhecido valor “alfa”), ou se essa probabilidade não é pequena o suficiente de modo que não lhe permita afastar o acaso como explicação da diferença obtida. Apenas para ilustrar, podemos registrar o uso frequente de um “alfa” de 5%, mas há situações mais exigentes no controle desse erro tipo I (rejeitar uma hipótese nula verdadeira), que utilizam um “alfa”, por exemplo, de 1%. Além dos testes estatísticos, a IE poderá se basear nos IC, conforme já assinalado.
Um aspecto relevante diz respeito à interpretação dos IC25. Muitos autores têm reforçado na atualidade a necessidade de superação da interpretação binária do IC, que mencionamos previamente, ou seja, concluir pelo resultado estatisticamente não significante (aquele que inclui o “valor nulo”, 1, para medidas de associação – razões de riscos ou razões de chances – ou 0 para medidas de diferença), ou estatisticamente significante (aquele que não o inclui). Para Schmidt e Rothman10:
Usar IC para julgar se o valor nulo está dentro ou fora do intervalo é equivalente a usar o IC como um teste estatístico – teste de significância –, ao invés de uma ferramenta quantitativa para determinar a magnitude de um efeito e a precisão com a qual ele é medido (p. 1090, tradução nossa)i.
Portanto, nesse caso, recusando a interpretação do IC como indicador dicotômico de significância estatística, o pesquisador descreverá quais as implicações práticas dos valores dentro do intervalo. Com isso, deixará claro que todos os valores entre os limites do intervalo são compatíveis com os dados, haja vista os pressupostos estatísticos usados em seu cálculo. Por exemplo, um IC de 95%, entre 0,99 e 4,20, com um risco relativo (RR) de 1,8, entre determinado desfecho e exposição, permitirá ao pesquisador concluir que é muito mais provável que haja essa associação, do que a obtenção de um IC 95% entre 0,76 e 3,50, considerando o mesmo RR11,12.
Considerar os pressupostos da IE é o procedimento previsto por pesquisadores que assumem a crítica ao seu uso indiscriminado. Segundo Daniel e Cross29, “em muitos casos, em aplicações do mundo real, é impossível ou impraticável usar amostras verdadeiramente aleatórias” (p. 164, tradução nossa)j e, postulam esses autores, acerca da extrapolação dos resultados assim obtidos que: “considerações não estatísticas devem desempenhar um papel no processo de generalização” (p. 165, tradução nossa)k.
O êxito neste processo de extrapolação dependerá do grau de semelhança entre as populações em comparação, quando “não há razão para acreditar que a amostra utilizada não seja representativa da população sobre a qual se deseja fazer inferências” (p. 165, tradução nossa)l. E reafirmam: “Novamente, generalizações devem ser feitas com base em considerações não estatísticas”29 (p. 165, tradução nossa)m.
Importante novamente destacar que, mesmo atendendo aos pressupostos da IE, um estudo pode incorrer em erros sistemáticos que podem comprometer sua validade, interferindo na representatividade do grupo inicialmente definido como população-alvo: avaliar essas limitações se impõe ao pesquisador. Mas a validade de estudo – capítulo dos vieses, que deve ser de razoável domínio de epidemiologistas – implica outro objeto de discussão, que não é o objetivo deste ensaio.
Adicionalmente, é importante acrescentar a necessidade de se verificar o estado da arte na temática de interesse sob estudo. Em última instância, em qualquer uma das situações, utilizando amostra probabilística, ou amostra por conveniência, ou em estudo censitário, o epidemiologista deve buscar apoio para suas conclusões em conhecimento produzido em médio e/ou longo prazo, por meio de estudos repetidos em diferentes locais e populações, utilizando diferentes desenhos de estudo, e que tragam resultados consistentes5.
Conclusão
Neste ensaio, foram apresentados os fundamentos para aplicação da IE, os quais permitem organizar as abordagens estatísticas dos dados epidemiológicos, em descritiva, analítica e inferencial. Assinala-se a relevância de assumir que um estudo é analítico quando se investiga associação entre variáveis e não porque faz uso de IE. Essa distinção é imprescindível e oportuna para a crítica necessária ao uso da IE.
Quando a amostra é probabilística, a extrapolação dos resultados da amostra para a população-alvo é realizada por meio do processo de IE. Em caso de amostras não probabilísticas – criteriosas ou intencionais – ou mesmo em censos, o uso de IC ou testes de hipóteses pode ser questionado quanto à possibilidade de resultados inadequados em tais circunstâncias. Considerações sobre as limitações desses métodos para se fazer generalizações nessas situações devem orientar a interpretação dos resultados.
Espera-se que este ensaio contribua para estimular o uso crítico e parcimonioso da IE em estudos epidemiológicos, reconhecendo sua contribuição para o processo de inferência causal, mas distinguindo-a deste. Ademais, dada a habitualidade de estudos com amostras não probabilísticas ou censos, conforme apresentado neste ensaio, é necessário que o epidemiologista registre possíveis limitações, adotando a necessária parcimônia na interpretação dos seus achados e o impacto do uso da IE nessas situações. Essa postura deve favorecer o debate acerca da validade científica de estudos epidemiológicos.
Agradecimentos
Os autores agradecem ao Professor Annibal Muniz Silvany Neto, epidemiologista, com destacada dedicação à estatística, as importantes contribuições.
Referências
-
1 Greenland S. Randomization, statistics, and causal inference. Epidemiol.1990 Nov;6(1):421-9. https://doi.org/10.1097/00001648-199011000-00003
» https://doi.org/10.1097/00001648-199011000-00003 - 2 Greenland S, Poole C. Problems in common interpretations of statistics in scientific articles, expert reports, and testimony. Jurimetrics. 2011;51(2):113-29.
-
3 Hahn GJ, Meeker WQ. Assumptions for statistical inference. Amer Stat. 1993;47(1):1-11. https://doi.org/10.1080/00031305.1993.10475924
» https://doi.org/10.1080/00031305.1993.10475924 -
4 Strasak AM, Zaman Q, Pfeiffer KP, Göbel G, Ulmer H. Statistical errors in medical research: a review of common pitfalls. Swiss Med Wkly. 2007 Jan;137(3-4):44-9. https://doi.org/10.4414/smw.2007.11587
» https://doi.org/10.4414/smw.2007.11587 -
5 Hubbard R, Haig BD, Parsa, RA. The limited role of formal statistical inference in scientific inference. Amer Stat. 2019;73(sup1):91-8. https://doi.org/10.1080/00031305.2018.1464947
» https://doi.org/10.1080/00031305.2018.1464947 -
6 Wasserstein RL, Schirm AL, Lazar NA. Moving to a World Beyond “p < 0.05”. Amer Stat. 2019;73(sup1):1-19. https://doi.org/10.1080/00031305.2019.1583913
» https://doi.org/10.1080/00031305.2019.1583913 -
7 Wasserstein RL, Lazar NA. The ASA statement on p-values: context, process, and purpose. Amer Stat. 2016; 70(2):129-133. https://doi.org/10.1080/00031305.2016.1154108
» https://doi.org/10.1080/00031305.2016.1154108 - 8 DeGroot MH, Schervish, MJ. Probability and statistics. 4a ed. Boston: Addison-Wesley; 2012.
-
9 Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31(4):337-50. https://doi.org/10.1007/s10654-016-0149-3
» https://doi.org/10.1007/s10654-016-0149-3 -
10 Schmidt M, Rothman KJ. Mistaken inference caused by reliance on and misinterpretation of a significance test. Int J Cardiol 2014 Dec;177(3):1089-90. https://doi.org/10.1016/j.ijcard.2014.09.205
» https://doi.org/10.1016/j.ijcard.2014.09.205 -
11 Szklo M. Quality of scientific articles. Rev Saude Publica. 2006;40(spec):30-5. https://doi.org/10.1590/s0034-89102006000400005
» https://doi.org/10.1590/s0034-89102006000400005 -
12 Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019;567(7748):305-7. https://doi.org/10.1038/d41586-019-00857-9
» https://doi.org/10.1038/d41586-019-00857-9 - 13 Rothman KJ, Greenland S, Lash TL. Precision and statistics in epidemiologic studies: modern epidemiology. 3a ed. Philadelphia: Lippincott Williams & Wilkins, 2008. P. 151.
- 14 Hill AB. The environment and disease: association or causation? Proc R Soc Med 1965 May;58(5):295-300.
-
15 Rothman KJ, Greenland S. Causation and causal inference in epidemiology. Am J Public Health. 2005;95 (Suppl 1): S144-50. https://doi.org/10.2105/AJPH.2004.059204
» https://doi.org/10.2105/AJPH.2004.059204 - 16 Friedman LM, Furberg CD, DeMets D, Reboussin DM, Granger CB. Fundamentals of clinical trials. 5a ed. Switzerland: Springer Cham; 2015.
- 17 Silvany Neto, AM. Bioestatística sem segredos. Salvador: Annibal Silvany Neto; 2008.
- 18 Susser M. Epidemiology, health & society: selected papers. New York: Oxford University Press; 1987.
-
19 Oliveira JL, Camelier FWR, Jesus FR, Barreto RMA, Ferreira PP, Terse-Ramos R et al. Perfil ventilatório e capacidade funcional de pacientes com mucopolissacaridoses. Fisioter Bras. 2017;18(1):69-79. https://doi.org/10.33233/fb.v18i1.757
» https://doi.org/10.33233/fb.v18i1.757 - 20 Henneckens CH, Buring JE, Epidemiology in medicine. Boston: Little, Brown and Company; 1987.
-
21 Almeida CGDSTG, Silvany Neto AM, Fernandes RCP. Risk factors for sick leave in Brazilian oil industry workers. Int Arch Occup Environ Health. 2021 Aug Aug;94(6):1223-1231. https://doi.org/10.1007/s00420-021-01650-w
» https://doi.org/10.1007/s00420-021-01650-w -
22 Fernandes RCP, Assunção AA, Carvalho FM. Prevalence of musculoskeletal disorders among plastics industry workers. Cad Saude Publica. 2011 jan;27(1):78-86. https://doi.org/10.1590/S0102-311X2011000100008
» https://doi.org/10.1590/S0102-311X2011000100008 -
23 Santos SN, Santos KOB, Carvalho FM, Fernandes RCP. Major depressive disorder in detention officers. Rev Saude Publica. 2021 Apr 14;55:11. https://doi.org/10.11606/s1518-8787.2021055002507
» https://doi.org/10.11606/s1518-8787.2021055002507 -
24 Carvalho RLRB, Fernandes RCP, Lima VMC. Demandas psicológicas, baixo apoio social e repetitividade: fatores ocupacionais associados à dor musculoesquelética de trabalhadores da indústria de calçados. Rev Bras Saude Ocup. 2019;44:e6. https://doi.org/10.1590/2317-6369000001517
» https://doi.org/10.1590/2317-6369000001517 -
25 Altman DG, Bland JM. Uncertainty beyond sampling error. BMJ 2014;349: g7065. https://doi.org/10.1136/bmj.g7065
» https://doi.org/10.1136/bmj.g7065 -
26 Altman DG, Bland JM. Generalisation and extrapolation. BMJ.1998;317(7155):409-10. https://doi.org/10.1136/bmj.317.7155.409
» https://doi.org/10.1136/bmj.317.7155.409 - 27 Pereira MG. Epidemiologia: teoria e prática. Rio de Janeiro: Guanabara Koogan; 1995.
-
28 Rothman KJ, Gallacher JEJ, Hatch EE. Why representativeness should be avoided. Int J Epidemiol. 2013;42(4):1012-4. https://doi.org/10.1093/ije/dys223
» https://doi.org/10.1093/ije/dys223 - 29 Daniel WW, Cross CL. Biostatistics: a foundation for analysis in the health sciences. 10th ed. Hoboken: John Wiley; 2013.
-
Disponibilidade de dados:
Todo o conjunto de dados que dá suporte aos resultados deste estudo foi publicado no próprio artigo.
-
Apresentação do estudo em evento científico:
Os autores informam que o estudo não foi apresentado em evento científico.
-
d
“In most epidemiologic studies, randomization and random sampling play little or no role in the assembly of study cohorts. I therefore conclude that probabilistic interpretations of conventional statistics are rarely justified, and that such interpretations may encourage misinterpretation of nonrandomized studies”.
-
e
“Distortions that arise solely from the play of chance are traditionally called ‘random errors.’ It is these distortions, and only these distortions, that P-values and confidence intervals address”.
-
f
“Many researchers still believe that it would be fruitless to submit for publication any paper that lacks statistical tests of significance. Their belief is not entirely ill-founded, because many journal editors and referees still rely on tests of significance as indicators of sophisticated and meaningful statistical analysis as well as the primary means of assessing sampling variability in a study”.
-
g
“The usefulness of research lies primarily in the generalisation of the finding rather than in the information gained about those particular individuals”.
-
h
“That process is uncertain, along with everything else in empirical Science”.
-
i
“Using CIs to judge whether the null value is within or not within the interval is equivalent to using the CI as a significance test, rather than as a quantitative tool for determining the size of na effect and the precision with which it is measured”.
-
j
“In many instances in real-world applications it is impossible or impractical to use truly Random Samples”.
-
k
“nonstatistical considerations must play a part in the generalization process”.
-
l
“there is no reason to believe that the material actually used is not representative of the population about which inferences are desired”
-
m
“Again, generalizations must be made on the basis of nonstatistical considerations”.
-
Financiamento:
Os autores declaram que o estudo não foi subvencionado.
Todo o conjunto de dados que dá suporte aos resultados deste estudo foi publicado no próprio artigo.