Diversos estudos de natureza quantitativa, tanto em ciências biomédicas quanto sociais, utilizam variáveis qualitativas, também chamadas de categóricas, as quais expressam sua grandeza pela frequência em que cada uma de suas categorias ocorre. Variáveis qualitativas são divididas em dicotômicas (por exemplo, sexo, óbito, cura), ordinais (por exemplo, estadiamento neoplásico, amplitude do pulso, classe funcional, fototipo, risco anestésico) ou politômicas/multinominais (por exemplo, orientação sexual, tipagem ABO, estado civil, religião, raça, tipo de aneurisma, tipo de úlcera crônica)1-3.
Quando se utilizam variáveis qualitativas, o fenômeno mensurado pode ser representado pelo percentual de ocorrência em cada categoria, e sua comparação entre os subgrupos deve ser realizada de acordo com a proporção que cada classe ocupa na amostra3. Há extensa literatura a respeito de técnicas de análise estatística de variáveis qualitativas4-6; contudo, este texto abordará a comparação de proporções entre variáveis categóricas. A análise comparativa dessas proporções entre subgrupos utiliza conceitos diferentes da chamada estatística paramétrica, apresentando menor poder estatístico (maior erro tipo II) em situações análogas, como quando uma variável quantitativa (por exemplo, idade) é categorizada (por exemplo, < 30 anos, 30–59 anos, ≥ 60 anos)7,8.
Segundo a estatística frequentista9, a probabilidade de uma proporção de eventos selecionados aleatoriamente, sem reposição de casos, pode ser generalizada a partir da distribuição qui-quadrado, e o teste qui-quadrado de Pearson baseia-se na diferença entre as frequências encontradas e as idealmente esperadas para cada categoria, podendo ser utilizado para comparar a aderência da amostra a uma distribuição conhecida (por exemplo, comparação com a literatura) ou a independência entre diferentes amostras10. Apesar da popularidade do teste qui-quadrado de Pearson, outros métodos como o teste G (razão de verossimilhança) e o teste de Goodman (contrastes de proporções) também são utilizados para comparação de proporções. Todavia, a superioridade absoluta entre eles ainda não foi sistematicamente definida11-14.
A aderência de uma proporção encontrada pode ser comparada a uma descrição da literatura ou a uma expectativa teórica (por exemplo, expressão de um fenótipo segundo a segregação de um gene)15. Exemplificando, Tamega et al.16 estudaram os tipos sanguíneos ABO e Rh de 69 pacientes com lúpus eritematoso, comparando-os com a frequência esperada dessas categorias entre os doadores de sangue da instituição. O teste qui-quadrado de Pearson (de aderência) resultou p-valor = 0,081 para as tripagens ABO e p-valor = 0,721 para a tipagem Rh, aceitando a hipótese que tais classes de tipos sanguíneos encontrados não divergiam do esperado, na população local16.
Na pesquisa clínico-epidemiológica, é bastante usual que se apresente uma tabela inicial descritiva com os dados demográficos dos subgrupos, a fim de atestar a sua homogeneidade. Por exemplo, Amiri et al.17 incluíram 110 casos e 110 controles em um estudo transversal para testar a associação de índices antropométricos e diabetes melito tipo 2. Entre os diabéticos, 75 (51%) eram do sexo feminino, enquanto no grupo controle foram encontradas 72 mulheres (49%). Segundo essa amostra, a diferença de proporção entre os grupos (2%) não foi considerada significativa (p-valor = 0,668) para essa variável dicotômica segundo o teste qui-quadrado de Pearson (de independência).
Apesar de versátil, o teste qui-quadrado de Pearson apresenta performance inadequada (maior erro tipo I) em amostras mais modestas (n ≤ 40), especialmente nas situações em que > 20% dos valores esperados for ≤ 5, o que é relativamente frequente no cenário da pesquisa biomédica. Diversos procedimentos são recomendados nessa situação, desde a fusão de categorias para aumentar o valor esperado (por exemplo, dicotomizar as cores de pele como branca vs. não branca, agrupar os tipos sanguíneos menos comuns B com AB), ou mesmo o uso de outros testes estatísticos.
Há intensa discussão acadêmica sobre quais estratégias analíticas devem ser utilizadas para as situações em que o teste qui-quadrado de Pearson for contraindicado; da mesma forma, diferentes testes para dados categóricos podem se comportar diversamente, de acordo com a forma que as variáveis são coletadas (aleatórias ou não), já que grande parte dos estudos não possuem estrutura amostral completamente aleatorizada18-20. Os testes exatos de Barnard e de Boschloo são exemplos que corrigem essas limitações para tabelas de contingência 2 × 221,22. Já o teste G (com correção de Williams) pode ser utilizado para comparações multinominais em situações de contraindicação do teste qui-quadrado de Pearson21,23. Estimativas do p-valor (exato) a partir de reamostragens (bootstrap) ou simulação de Monte Carlo também são eficientes para sua estimativa em casos de amostras modestas ou subgrupos com baixa expectativa de ocorrência19,24.
O teste exato de Fisher é citado por muitos textos como solução para casos em que o teste qui-quadrado de Pearson não seja indicado, porém, ele inflaciona o erro tipo II, além de se basear em um modelo de probabilidade condicional, diferente do que é usualmente proposto em pesquisa biomédica (totais marginais variáveis)25,26. Da mesma forma, a correção do teste qui-quadrado de Pearson pelo procedimento de Yates, em tabelas 2 × 2, é excessivamente conservadora. O emprego e as interpretações desses testes devem ser parcimoniosos quando resultarem p-valor próximo ao nível de significância22,24.
Em desenhos mais complexos, que envolvam a interação de mais de duas variáveis categóricas ou ajuste multivariado cuja variável dependente seja categórica, outros métodos de análise podem ser utilizados, como a regressão de Poisson (log-linear), a regressão logística e a regressão multinominal, que, assim como no teste qui-quadrado de Pearson, são penalizadas pela ocorrência de frequências baixas entre os subgrupos. Por outro lado, métodos multivariados, como a análise de correspondência múltipla, não são afetados pelas contingências dos testes de hipóteses e podem substanciar análises exploratórias para dados categóricos4,27,28. Em tempo, a problemática ligada à análise de dados ordinais e o cálculo do tamanho amostral para estudos que envolvam proporções já foram abordados anteriormente2,29-32.
Quando comparações de variáveis multinominais resultam significativas, cabe saber quais das proporções internas apresentam divergência do esperado, tendo em vista que o resultado do teste (por exemplo, o teste qui-quadrado de Pearson) refere-se ao comportamento global das proporções, devendo-se, então, proceder a análise post hoc das subcategorias. A análise de resíduos da tabela de contingência (padronizada e ajustada) é uma estratégia muito empregada, que retorna a estatística Z (Zres) para cada proporção encontrada, permitindo a comparação múltipla entre elas ao identificar quais variáveis específicas mais contribuem para o resultado encontrado no teste global33. A partir da análise de resíduos da Tabela 1, pode-se concluir que pacientes oncológicos oriundos do ambulatório apresentaram mais diagnósticos tomográficos de tromboembolismo pulmonar incidentais que os originários do pronto-socorro, sem diferenças com as proporções encontradas na enfermaria e UTI34.
Análise de resíduos dos dados de Carneiro et al.34 quanto à origem dos pacientes oncológicos com tromboembolismo pulmonar (TEP) à tomografia computadorizada de tórax, quando o achado foi incidental ou havia suspeita prévia.
Outra opção para a análise dos subgrupos é o teste lambda de Goodman e Kruskal que se trata de uma medida de redução proporcional no erro na análise de tabela de contingência para dados multinomiais, indicando até que ponto as categorias e frequências modais para cada valor da variável independente diferem dos valores da variável independente35. Da mesma forma, a partição da tabela em subtabelas 2 × 2 pode ser realizada. Contudo, as comparações múltiplas devem ser ajustadas para reduzir o inflacionamento do erro tipo I, por exemplo, usando o procedimento de Bonferroni20.
A pesquisa epidemiológica utiliza frequentemente desfechos dicotômicos (por exemplo, cura, óbito, adoecimento) para a comparação de dois ou mais grupos (por exemplo, placebo vs. tratamento). Devido à característica intrínseca do desenho dos estudos, há crescente tendência que a comparação dessas proporções seja estimada a partir das suas medidas epidemiológicas de efeito, como razão de chances, risco relativo ou razão de prevalências, e não somente pelos testes estatísticos de proporção36,37. Tanto o p-valor como o intervalo de confiança para essas associações podem ser calculados diretamente para essas estimativas a partir de modelos de regressão logística, ordinal, multinominal ou de Poisson38.
A necessidade de ajuste dos resultados por covariáveis de importância no modelo causal (por exemplo, idade, sexo, tabagismo) vem demandando a popularização dessas técnicas de regressão para a análise de dados categóricos, e a contingência diante das amostras modestas ou da raridade de eventos em uma das categorias pode ser transposta por técnicas de bootstrap, com mais de 1.000 reamostragens dos dados. Entretanto, como esses métodos ponderam as relações entre as subcategorias, eles não lidam adequadamente quando uma delas é zero, ao contrário das técnicas estatísticas exatas (por exemplo, teste de Barnard).
A Tabela 2 exemplifica formas de análise para comparações de dois tratamentos hipotéticos (cirúrgico vs. convencional) analisados segundo testes de comparação de proporções e modelos de regressão, de acordo com particularidades amostrais. No caso especial, para estimar a dimensão de efeito de um estudo (por exemplo, risco relativo e razão de chances) em que houve zero ocorrências em uma das variáveis categóricas, pode-se recorrer à adição (artificial) de 0,5 unidades nos desfechos de cada grupo5,39,40.
Exemplos hipotéticos de comparações (bicaudais) da incidência de morte de uma doença tratada com um procedimento cirúrgico ou um tratamento convencional.
A comparação de proporções entre grupos também pode ser avaliada de forma uni ou bidirecional (uni/bicaudal), já que muitas avaliações são, por natureza, unidirecionais, como a comparação da taxa de mortalidade em uma doença entre vacinados e não vacinados ou em testes de não inferioridade entre dois tratamentos41. Nesses casos, não faz parte da hipótese de pesquisa a possibilidade de que o resultado seja contemplado de forma bidirecional, interessando apenas o efeito em um sentido. Análises unicaudais entre proporções não são consensuais entre os epidemiologistas, porque, apesar de apresentarem maior poder estatístico e demandarem menor amostragem, aumentam a chance de erro tipo I24. Análises unicaudais são muito empregadas em estudos de viabilidade (estudos piloto) e em provas de conceito, que ocorrem antes dos ensaios clínicos tradicionais42-44.
Situações que envolvam dados dependentes devem ser avaliadas pelo teste de McNemar (tabelas 2 × 2), teste Q de Cochran (vários grupos, resposta dicotômica) ou equações de estimativas generalizadas. Tais análises, assim como uso de técnicas de reamostragem, estimativas unicaudais, regressões e análises de variáveis que demandem ajuste multivariado, devem ser supervisionadas por estatístico experiente.
Finalmente, a comparação entre variáveis categóricas é uma demanda frequente em estudos biomédicos e que pode resultar em diferentes conclusões inferenciais de acordo com o método analítico empregado, especialmente quando as frequências nos subgrupos forem baixas. A escolha da técnica de análise exige fundamentação teórica, e sua descrição precisa ser justificada na metodologia, quanto aos parâmetros de uso.
-
Como citar: Miola AC, Miot HA. Comparação entre variáveis categóricas em estudos clínicos e experimentais. J Vasc Bras. 2022;21:e20210225. https://doi.org/10.1590/1677-5449.20210225
-
Fonte de financiamento: Nenhuma.
-
O estudo foi realizado Departamento de Dermatologia, Faculdade de Ciências Médicas e Biológicas de Botucatu, Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP), Botucatu, SP, Brasil.
REFERÊNCIAS
-
1 Greenhalgh T. How to read a paper: statistics for the non-statistician. I: Different types of data need different statistical tests. BMJ. 1997;315(7104):364-6. http://dx.doi.org/10.1136/bmj.315.7104.364 PMid:9270463.
» http://dx.doi.org/10.1136/bmj.315.7104.364 -
2 Miot HA. Analysis of ordinal data in clinical and experimental studies. J Vasc Bras. 2020;19:e20200185. http://dx.doi.org/10.1590/1677-5449.200185 PMid:34211532.
» http://dx.doi.org/10.1590/1677-5449.200185 -
3 Perkins SM. Statistical inference on categorical variables. Methods Mol Biol. 2007;404:73-88. http://dx.doi.org/10.1007/978-1-59745-530-5_5 PMid:18450046.
» http://dx.doi.org/10.1007/978-1-59745-530-5_5 - 4 Pereira JCR. Análise de dados qualitativos: estratégias metodológicas para as ciências da saúde humanas e sociais. São Paulo: EdUSP; 1999.
- 5 Agresti A. An introduction to categorical data analysis. 2nd ed. New Jersey: John Wiley & Sons; 2020.
-
6 Quinn GP, Keough MJ. Experimental design and data analysis for biologists. Cambridge: Cambridge University Press; 2002. http://dx.doi.org/10.1017/CBO9780511806384
» http://dx.doi.org/10.1017/CBO9780511806384 -
7 Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med. 2006;25(1):127-41. http://dx.doi.org/10.1002/sim.2331 PMid:16217841.
» http://dx.doi.org/10.1002/sim.2331 -
8 Naggara O, Raymond J, Guilbert F, Roy D, Weill A, Altman DG. Analysis by categorizing or dichotomizing continuous variables is inadvisable: an example from the natural history of unruptured aneurysms. AJNR Am J Neuroradiol. 2011;32(3):437-40. http://dx.doi.org/10.3174/ajnr.A2425 PMid:21330400.
» http://dx.doi.org/10.3174/ajnr.A2425 -
9 Zaslavsky BG. Bayesian versus frequentist hypotheses testing in clinical trials with dichotomous and countable outcomes. J Biopharm Stat. 2010;20(5):985-97. http://dx.doi.org/10.1080/10543401003619023 PMid:20721786.
» http://dx.doi.org/10.1080/10543401003619023 - 10 Turner N. Chi-squared test. J Clin Nurs. 2000;9(1):93. PMid:11041649.
-
11 Goodman LA. On the multivariate analysis of three dichotomous variables. Ajs. 1965;71(3):290-301. http://dx.doi.org/10.1086/224088 PMid:5897475.
» http://dx.doi.org/10.1086/224088 - 12 Eberhardt KR, Fligner MA. A comparison of two tests for equality of two proportions. Am Stat. 1977;31:151-5.
-
13 Haber M. A comparison of some conditional and unconditional exact tests for 2x2 contingency tables: a comparison of some conditional and unconditional exact tests. Commun Stat Simul Comput. 1987;16(4):999-1013. http://dx.doi.org/10.1080/03610918708812633
» http://dx.doi.org/10.1080/03610918708812633 -
14 Martín Andrés A, Mato AS, Herranz TI. A critical review of asymptotic methods for comparing two proportions by means of independent samples. Commun Stat Simul Comput. 1992;21(2):551-86. http://dx.doi.org/10.1080/03610919208813035
» http://dx.doi.org/10.1080/03610919208813035 -
15 Holmo NF, Ramos GB, Salomao H, et al. Complex segregation analysis of facial melasma in Brazil: evidence for a genetic susceptibility with a dominant pattern of segregation. Arch Dermatol Res. 2018;310(10):827-31. http://dx.doi.org/10.1007/s00403-018-1861-5 PMid:30167816.
» http://dx.doi.org/10.1007/s00403-018-1861-5 -
16 Tamega AA, Bezerra LVGSP, Pereira FP, Miot HA. Blood groups and discoid lupus erythematosus. An Bras Dermatol. 2009;84(5):477-81. http://dx.doi.org/10.1590/S0365-05962009000500005
» http://dx.doi.org/10.1590/S0365-05962009000500005 -
17 Amiri P, Javid AZ, Moradi L, et al. Associations between new and old anthropometric indices with type 2 diabetes mellitus and risk of metabolic complications: a cross-sectional analytical study. J Vasc Bras. 2021;20:e20200236. http://dx.doi.org/10.1590/1677-5449.200236 PMid:34630540.
» http://dx.doi.org/10.1590/1677-5449.200236 -
18 Ludbrook J. Analysis of 2 × 2 tables of frequencies: matching test to experimental design. Int J Epidemiol. 2008;37(6):1430-5. http://dx.doi.org/10.1093/ije/dyn162 PMid:18710887.
» http://dx.doi.org/10.1093/ije/dyn162 -
19 Oliveira NL, Pereira CAB, Diniz MA, Polpo A. A discussion on significance indices for contingency tables under small sample sizes. PLoS One. 2018;13(8):e0199102. http://dx.doi.org/10.1371/journal.pone.0199102 PMid:30071022.
» http://dx.doi.org/10.1371/journal.pone.0199102 -
20 Lloyd CJ. A new exact and more powerful unconditional test of no treatment effect from binary matched pairs. Biometrics. 2008;64(3):716-23. http://dx.doi.org/10.1111/j.1541-0420.2007.00936.x PMid:18047530.
» http://dx.doi.org/10.1111/j.1541-0420.2007.00936.x -
21 Barnard GA. Significance tests for 2 × 2 tables. Biometrika. 1947;34(1-2):123-38. http://dx.doi.org/10.1093/biomet/34.1-2.123 PMid:20287826.
» http://dx.doi.org/10.1093/biomet/34.1-2.123 -
22 Lydersen S, Fagerland MW, Laake P. Recommended tests for association in 2 × 2 tables. Stat Med. 2009;28(7):1159-75. http://dx.doi.org/10.1002/sim.3531 PMid:19170020.
» http://dx.doi.org/10.1002/sim.3531 -
23 Goodman LA. On methods for comparing contingency tables. J Roy Stat Soc: Series A (General). 1963;126(1):94-108. http://dx.doi.org/10.2307/2982447
» http://dx.doi.org/10.2307/2982447 -
24 Amiri S, Modarres R. Comparison of tests of contingency tables. J Biopharm Stat. 2017;27(5):784-96. http://dx.doi.org/10.1080/10543406.2016.1269786 PMid:27936354.
» http://dx.doi.org/10.1080/10543406.2016.1269786 -
25 Ludbrook J. Analysing 2 × 2 contingency tables: which test is best? Clin Exp Pharmacol Physiol. 2013;40(3):177-80. http://dx.doi.org/10.1111/1440-1681.12052 PMid:23294254.
» http://dx.doi.org/10.1111/1440-1681.12052 -
26 Choi L, Blume JD, Dupont WD. Elucidating the foundations of statistical inference with 2 × 2 tables. PLoS One. 2015;10(4):e0121263. http://dx.doi.org/10.1371/journal.pone.0121263 PMid:25849515.
» http://dx.doi.org/10.1371/journal.pone.0121263 -
27 Sourial N, Wolfson C, Zhu B, et al. Correspondence analysis is a useful tool to uncover the relationships among categorical variables. J Clin Epidemiol. 2010;63(6):638-46. http://dx.doi.org/10.1016/j.jclinepi.2009.08.008 PMid:19896800.
» http://dx.doi.org/10.1016/j.jclinepi.2009.08.008 -
28 Watts DD. Correspondence analysis: a graphical technique for examining categorical data. Nurs Res. 1997;46(4):235-9. http://dx.doi.org/10.1097/00006199-199707000-00009 PMid:9261298.
» http://dx.doi.org/10.1097/00006199-199707000-00009 -
29 Knapp TR. Treating ordinal scales as ordinal scales. Nurs Res. 1993;42(3):184-6. http://dx.doi.org/10.1097/00006199-199305000-00011 PMid:8506169.
» http://dx.doi.org/10.1097/00006199-199305000-00011 -
30 Miot HA. Sample size in clinical and experimental studies. J Vasc Bras. 2011;10(4):275-8. http://dx.doi.org/10.1590/S1677-54492011000400001
» http://dx.doi.org/10.1590/S1677-54492011000400001 -
31 van Smeden M, Moons KG, de Groot JA, et al. Sample size for binary logistic prediction models: Beyond events per variable criteria. Stat Methods Med Res. 2019;28(8):2455-74. http://dx.doi.org/10.1177/0962280218784726 PMid:29966490.
» http://dx.doi.org/10.1177/0962280218784726 -
32 Campbell MJ, Julious SA, Altman DG. Estimating sample sizes for binary, ordered categorical, and continuous outcomes in two group comparisons. BMJ. 1995;311(7013):1145-8. http://dx.doi.org/10.1136/bmj.311.7013.1145 PMid:7580713.
» http://dx.doi.org/10.1136/bmj.311.7013.1145 - 33 Sharpe D. Chi-square test is statistically significant: now what? Pract Assess, Res Eval. 2015;20:8.
-
34 Carneiro RM, van Bellen B, Santana PRP, Gomes ACP. Prevalence of incidental pulmonary thromboembolism in cancer patients: retrospective analysis at a large center. J Vasc Bras. 2017;16(3):232-8. http://dx.doi.org/10.1590/1677-5449.002117 PMid:29930652.
» http://dx.doi.org/10.1590/1677-5449.002117 - 35 Goodman LA, Kruskal WH. Measures of association for cross classifications. J Am Stat Assoc. 1954;49:732-64.
-
36 Parshall MB. Unpacking the 2 × 2 table. Heart Lung. 2013;42(3):221-6. http://dx.doi.org/10.1016/j.hrtlng.2013.01.006 PMid:23490241.
» http://dx.doi.org/10.1016/j.hrtlng.2013.01.006 -
37 Miola AC, Miot HA. P-value and effect-size in clinical and experimental studies. J Vasc Bras. 2021;20:e20210038. http://dx.doi.org/10.1590/1677-5449.210038 PMid:34267792.
» http://dx.doi.org/10.1590/1677-5449.210038 -
38 Katz MH. Multivariable analysis: a practical guide for clinicians and public health researchers. Cambridge: Cambridge University Press; 2011. http://dx.doi.org/10.1017/CBO9780511974175
» http://dx.doi.org/10.1017/CBO9780511974175 - 39 Valenzuela C. 2 solutions for estimating odds ratios with zeros. Rev Med Chil. 1993;121(12):1441-4. PMid:8085071.
-
40 Lawson R. Small sample confidence intervals for the odds ratio. Commun Stat Simul Comput. 2004;33(4):1095-113. http://dx.doi.org/10.1081/SAC-200040691
» http://dx.doi.org/10.1081/SAC-200040691 -
41 Pinto VF. Estudos clínicos de não-inferioridade: fundamentos e controvérsias. J Vasc Bras. 2010;9(3):145-51. http://dx.doi.org/10.1590/S1677-54492010000300009
» http://dx.doi.org/10.1590/S1677-54492010000300009 -
42 Mellor K, Eddy S, Peckham N, et al. Progression from external pilot to definitive randomised controlled trial: a methodological review of progression criteria reporting. BMJ Open. 2021;11(6):e048178. http://dx.doi.org/10.1136/bmjopen-2020-048178 PMid:34183348.
» http://dx.doi.org/10.1136/bmjopen-2020-048178 -
43 Willan AR, Thabane L. Bayesian methods for pilot studies. Clin Trials. 2020;17(4):414-9. http://dx.doi.org/10.1177/1740774520914306 PMid:32297539.
» http://dx.doi.org/10.1177/1740774520914306 -
44 Thabane L, Lancaster G. A guide to the reporting of protocols of pilot and feasibility trials. Pilot Feasibility Stud. 2019;5(1):37. http://dx.doi.org/10.1186/s40814-019-0423-8 PMid:30858987.
» http://dx.doi.org/10.1186/s40814-019-0423-8
Datas de Publicação
-
Publicação nesta coleção
01 Abr 2022 -
Data do Fascículo
2022
Histórico
-
Recebido
11 Dez 2021 -
Aceito
20 Jan 2022