Resumos
Este é um artigo de amostragem probabilística cujo objetivo foi descrever os métodos usados para calcular e calibrar os pesos amostrais da Pesquisa sobre Condições de Saúde Bucal da População Brasileira (SBBrasil 2003) e identificar as demais variáveis estruturais do desenho da amostra. Apresenta uma síntese do trabalho de resgate das informações cadastrais usadas para seleção das unidades amostrais nos municípios amostrados. Descreve os principais problemas observados no banco de dados da pesquisa, que compuseram o conjunto de condicionantes para cálculo dos pesos naturais do desenho e para determinação das unidades primárias de amostragem e dos estratos de seleção. Por fim, compara algumas estimativas, obtidas por meio de pesos e demais variáveis estruturais da amostra, com as estatísticas amostrais descritivas publicadas, concluindo que as condições de saúde bucal da população brasileira eram melhores do que as divulgadas anteriormente.
Saúde Bucal; Amostragem; Condições de Saúde; Saúde Bucal
This is an article on probability sampling written to describe the methods used to calculate and calibrate sample weights of the Brazilian Oral Health Survey (SBBrasil 2003) and identify sample structural variables. It presents an overview of the efforts made to retrieve information from the records used to select the sample units in the sampled municipalities and describes the main problems observed with the survey's database, that acted as constraints tocal culating the natural sample weights and identifying primary sampling units and selection strata. It compares weighted sample estimates with previously published unweighted sample descriptive statistics, concluding that the oral health of the Brazilian population was better than previously disclosed.
Oral Health; Sampling Studies; Health Status; Oral Health
ARTIGO ARTICLE
Pesquisa sobre Condições de Saúde Bucal da População Brasileira (SBBrasil 2003): determinação dos pesos amostrais e das informações estruturais da amostra
The Brazilian Oral Health Survey (SBBrasil 2003): determining sample weights and structural information
Rejane Christine de Sousa QueirozI; Margareth Crisóstomo PortelaI; Pedro Luis do Nascimento SilvaII; Mauricio Teixeira Leite de VasconcellosII
IEscola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz, Rio de Janeiro, Brasil
IIEscola Nacional de Ciências Estatísticas, Fundação Instituto Brasileiro de Geografia e Estatística, Rio de Janeiro, Brasil
Correspondência Correspondência: M. T. L. Vasconcellos Escola Nacional de Ciências Estatísticas Fundação Instituto Brasileiro de Geografia e Estatística Rua André Cavalcanti 106 Rio de Janeiro, RJ 20231-050, Brasil mautlv@gmail.com
RESUMO
Este é um artigo de amostragem probabilística cujo objetivo foi descrever os métodos usados para calcular e calibrar os pesos amostrais da Pesquisa sobre Condições de Saúde Bucal da População Brasileira (SBBrasil 2003) e identificar as demais variáveis estruturais do desenho da amostra. Apresenta uma síntese do trabalho de resgate das informações cadastrais usadas para seleção das unidades amostrais nos municípios amostrados. Descreve os principais problemas observados no banco de dados da pesquisa, que compuseram o conjunto de condicionantes para cálculo dos pesos naturais do desenho e para determinação das unidades primárias de amostragem e dos estratos de seleção. Por fim, compara algumas estimativas, obtidas por meio de pesos e demais variáveis estruturais da amostra, com as estatísticas amostrais descritivas publicadas, concluindo que as condições de saúde bucal da população brasileira eram melhores do que as divulgadas anteriormente.
Saúde Bucal; Amostragem; Condições de Saúde; Saúde Bucal
ABSTRACT
This is an article on probability sampling written to describe the methods used to calculate and calibrate sample weights of the Brazilian Oral Health Survey (SBBrasil 2003) and identify sample structural variables. It presents an overview of the efforts made to retrieve information from the records used to select the sample units in the sampled municipalities and describes the main problems observed with the survey's database, that acted as constraints tocal culating the natural sample weights and identifying primary sampling units and selection strata. It compares weighted sample estimates with previously published unweighted sample descriptive statistics, concluding that the oral health of the Brazilian population was better than previously disclosed.
Oral Health; Sampling Studies; Health Status; Oral Health
Introdução
O projeto SBBrasil 2003 foi a primeira pesquisa de abrangência nacional sobre as condições de saúde bucal da população brasileira 1. O banco de dados encontra-se disponível no sítio do Ministério da Saúde, mas não inclui as variáveis estruturais do desenho de amostra complexo utilizado 2, o que impede a produção de estimativas populacionais ponderadas, limitando seus resultados a estatísticas amostrais.
Ainda que a validade epidemiológica das estatísticas amostrais tenha sido discutida em artigo recente 3, este trabalho pressupõe que os pesos amostrais e a fonte de aleatorização devida ao desenho complexo da amostra sejam usados na obtenção de estimativas válidas para a população de pesquisa 2. Os termos técnicos e conceitos básicos de amostragem que estabelecem os pressupostos deste artigo constam da Figura 1.
Buscou-se recuperar o maior número possível de informações sobre a seleção da referida amostra, visando a calcular os pesos amostrais e identificar os estratos de seleção e unidades primárias de amostragem, o conjunto de informações estruturais do desenho da amostra.
A estratégia adotada, descrita em Queiroz et al. 4, pressupõe o resgate das informações que deveriam constar dos relatórios das equipes de campo. Tais informações devem ser usadas em combinação com dados de escolas e creches, coletados no Censo Escolar 2003, realizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), do Ministério da Educação, bem como de setores, quadras e domicílios do Censo Demográfico 2000, conduzido pela Fundação Instituto Brasileiro de Geografia e Estatística (IBGE).
Trata-se, portanto, de um artigo de amostragem probabilística, que descreve os métodos para determinação das variáveis estruturais da amostra e apresenta a forma indicada de estimação com base nesses dados.
Métodos
Recuperação das informações sobre a seleção da amostra
A recuperação foi realizada nos municípios amostrados e dirigida no sentido de obter o máximo de informação possível sobre número de escolas, creches e alunos existentes no cadastro de seleção utilizado; relação das escolas e creches de fato selecionadas e setores censitários realmente visitados na pesquisa (os códigos na base de dados do SBBrasil 2003 não coincidem totalmente com os setores selecionados pela equipe central); número de quadras/vilas rurais consideradas na seleção em cada setor ou município com população de até 50 mil habitantes em 1º de julho de 1999; número de domicílios selecionados; e período de coleta de dados, já que a pesquisa ocorreu entre 2002 e 2003. Assim, adotou-se uma estratégia de busca dos relatórios municipais da pesquisa a partir do contato com a cadeia hierárquica desta, começando pela Coordenação Nacional de Saúde Bucal, Ministério da Saúde (COSAB/MS), passando pelos coordenadores regionais, estaduais e municipais, até o contato com participantes que coletaram dados.
Verificado que não seria possível obter os dados de todos os 250 municípios da amostra, decidiu-se priorizar o resgate das informações sobre as capitais, em particular os dados de identificação dos estabelecimentos de ensino e setores censitários efetivamente pesquisados. Essa decisão justificou-se porque os municípios de capital, por terem sido incluídos na amostra com certeza, são estratos de seleção, e suas escolas, creches e setores censitários são unidades primárias de amostragem; por outro lado, os demais municípios são unidades primárias de amostragem, bastando conhecer o número de unidades na população e na amostra para calcular os pesos amostrais.
Crítica das variáveis de identificação do banco de dados
Para gravar as informações estruturais do desenho da amostra no banco de dados do SBBrasil 2003, foi necessário assegurar que este não tivesse problemas em suas variáveis de identificação. Para tanto, adotaram-se procedimentos de crítica usuais em pesquisas domiciliares: verificação de valores válidos, testes de sequência e registros duplicados 5,6. Os programas foram desenvolvidos usando o SAS versão 9.1.3 (SAS Inst., Cary, Estados Unidos), licenciado para a Escola Nacional de Ciências Estatísticas, IBGE.
Cálculo dos pesos amostrais
As probabilidades de inclusão na amostra, descritas em Queiroz et al. 4, derivam das contagens de unidades na população e na amostra. Sempre que as informações recuperadas indicavam os quantitativos usados na seleção da amostra, as probabilidades de inclusão foram calculadas com esses valores. Na sua ausência, os dados populacionais foram obtidos no Censo Escolar 2003 ou na Base Operacional Geográfica (BOG) do Censo Demográfico 2000 7, enquanto os dados amostrais foram contados no banco de dados do SBBrasil 2003, seguindo as regras indicadas neste artigo. Calculadas as probabilidades de inclusão, os pesos naturais do desenho foram determinados pelo inverso do produto das probabilidades de inclusão em cada estágio de seleção.
Cálculo dos pesos amostrais em domicílios
O número de domicílios por quadras ou vilas rurais da amostra foi obtido por aproximação, tendo em vista que a residência não foi uma unidade identificada na ficha de exame e, portanto, no banco de dados.
Por meio das variáveis socioeconômicas (número de pessoas no domicílio, renda familiar, posse de automóvel e número de cômodos, principalmente), utilizadas para os grupos etários a partir dos 15 anos, foram marcados conjuntos de registros com a mesma informação socioeconômica. Cada conjunto foi considerado como um domicílio, cuja contagem foi, então, feita por grupo etário; o total de domicílios na amostra, contado por quadras ou vilas rurais, foi o maior valor dentre os obtidos para os grupos etários considerados (15-19 anos, 35-44 anos e 65-74 anos). Assim, a probabilidade de inclusão do domicílio na quadras ou vilas rurais foi obtida dividindo, conforme uma ou outra, o número obtido na contagem de domicílios da amostra pelo existente na BOG do Censo Demográfico 2000. Nos casos em que o código de quadras ou vilas rurais era inválido, foi usada, como probabilidade de inclusão dos domicílios nestas, a razão entre o total de domicílios contados na amostra (para o conjunto de quadras ou vilas rurais não identificadas) e o total correspondente da população obtido na BOG do Censo Demográfico 2000.
A probabilidade de inclusão da quadras ou vilas rurais (no setor ou no município) foi obtida pela razão entre o número de quadras ou vilas rurais na amostra e o número correspondente na população. Note que, para municípios de até 50 mil habitantes, não houve seleção de setores, portanto o número de quadras ou vilas rurais na população correspondia ao total de quadras ou vilas rurais do município; por outro lado, para os demais municípios, o valor populacional era contado no setor censitário selecionado. O valor resultante dessa razão foi aplicado a todas as quadras ou vilas rurais, já que sua seleção foi equiprovável. Para os registros com o código de quadras ou vilas rurais inválido, considerou-se, como tamanho da amostra efetiva, o tamanho previsto da amostra de quadras ou vilas rurais (seguindo as regras do Manual do Coordenador 8) e o total de quadras ou vilas rurais existente na BOG do Censo Demográfico 2000, de acordo com o porte populacional do município: o total de quadras ou vilas rurais do município ou o de quadras ou vilas rurais no setor.
A probabilidade de inclusão dos setores no município foi obtida de forma análoga (setores na amostra/setores na BOG do Censo Demográfico 2000), contando-se os setores na amostra (os identificados) ou usando como proxy o número daqueles selecionados pela equipe central. Para o número de setores na população, foram contados os da BOG do Censo Demográfico 2000 que tinham domicílios, excluindo-se os especiais, como de quartéis, indústria, hospitais etc. A probabilidade de inclusão dos municípios na amostra já havia sido calculada 4.
Desse modo, usando os dados exatos (obtidos nas informações recuperadas) ou os aproximados pelas regras descritas anteriormente, a probabilidade de inclusão de cada pessoa selecionada em domicílio foi calculada pelo produto das probabilidades de inclusão: do município, da quadras ou vilas rurais no município e do domicílio na quadras ou vilas rurais, se o município tivesse até 50 mil habitantes; do município, do setor no município, da quadras ou vilas rurais no setor e do domicílio na quadras ou vilas rurais, para municípios com mais de 50 mil habitantes. Os pesos naturais do desenho da pessoa correspondem ao inverso da sua probabilidade de inclusão na amostra.
Cálculo dos pesos amostrais em estabelecimentos de ensino
A probabilidade de inclusão dos alunos em municípios com até 20 escolas foi igual à razão entre os números de alunos de 12 anos do município na amostra e no Censo Escolar 2003 (alunos matriculados na escola e nascidos em 1991), visto que não houve seleção de escola. A probabilidade de inclusão do aluno corresponde, nesse caso, ao produto da probabilidade de inclusão do município pela do aluno no município. A mesma regra foi aplicada aos alunos de creches nos municípios com até 20 creches (alunos nascidos em 1998 no Censo Escolar 2003).
Para cidades com mais de 20 instituições de ensino, simulou-se, no Censo Escolar 2003, a seleção de 20 escolas com probabilidade proporcional ao número de alunos de cada uma, respeitando-se a proporção de instituições públicas e privadas, observada na amostra (variável escola). Para essas escolas, foi feita a alocação do tamanho da amostra efetiva, por instituição, de forma proporcional ao número de alunos de 12 anos em cada uma, já que a regra de seleção 8 estabelecia que se fizesse seleção sistemática no conjunto de alunos de 12 anos de todas as escolas eleitas. Calculou-se, para cada município, a probabilidade de inclusão do aluno na escola pela razão entre o número de alunos na amostra e o número de alunos de 12 anos no conjunto de instituições escolhidas. A probabilidade de inclusão final do aluno corresponde ao produto das probabilidades de inclusão do município, da escola no município e do aluno na escola. Os mesmos métodos foram aplicados aos alunos selecionados em creches nos municípios com mais de 20 creches.
Para esse cálculo, foi necessário associar os registros dos alunos aos das escolas/creches. Utilizou-se o algoritmo de Hájek 9, de forma que os registros de alunos foram associados às escolas/creches, respeitando-se a ordem crescente dos números aleatórios gerados, a ordem das escolas/creches na lista de seleção gerada e o tamanho da amostra na escola/creche.
Para municípios de capital, a associação entre alunos e escolas/creches foi utilizada também para definição do código das unidades primárias de amostragem. Resultados de simulação estatística feita com os dados da própria pesquisa, para diferentes associações aleatórias entre registros de alunos e escolas/creches, indicam que essa associação não tem influência relevante nas estimativas das variâncias. No entanto, informações parciais recuperadas alteraram o procedimento descrito: quando o número de escolas/creches era conhecido, ele foi usado no lugar de 20 (número previsto nas regras de seleção da amostra); quando a relação de escolas/creches selecionadas foi recuperada, o procedimento foi aplicado para as escolas/creches efetivamente escolhidas para a amostra.
Assim, usando os dados exatos (informações recuperadas) ou aproximados (regras descritas acima), os pesos naturais do desenho do aluno correspondem ao inverso da sua probabilidade de inclusão na amostra.
Cálculo dos pesos amostrais para situações especiais
As informações recuperadas indicaram regras de seleção diferentes das previstas 8, impondo ajustes nos métodos descritos, a fim de calcular probabilidade de inclusão mais próxima da realidade de seleção.
Para crianças (18-36 meses) selecionadas na fila de vacinação (um município), pressupôs-se que todas estas residiam no município e que todos os residentes do grupo etário foram para a fila de vacinação. Com esses pressupostos, a probabilidade de inclusão foi igual à razão entre os números de crianças (18-36 meses) na amostra e na estimativa de população do município. Para crianças de cinco anos selecionadas em creches em seis municípios com até 50 mil habitantes, procedeu-se de forma análoga à descrita para a seleção de crianças em creches de municípios com mais de 50 mil habitantes. Para pessoas de 15-19 anos selecionadas em escolas (um município), adotou-se o procedimento usado para crianças de 12 anos, mantendo-se as mesmas instituições consideradas na seleção de crianças de 12 anos do município. Para crianças de cinco anos selecionadas em domicílio em sete municípios com mais de 50 mil habitantes, foram aplicadas as regras de cálculo de probabilidade de inclusão e peso usadas nesse tipo de seleção.
Para seleção baseada em cadastro de ruas (dois municípios), foram usadas as folhas de coleta do Censo Demográfico 2000, que indicam os nomes dos logradouros, para replicar o processo de seleção e calcular as probabilidades de inclusão na amostra. No caso da seleção a partir das listas do Programa de Saúde da Família (três municípios), a probabilidade de inclusão foi estabelecida, por município e grupo etário, pela razão entre o número de pessoas na amostra e na estimativa de população do município.
Nos casos de ampliação do número de quadras ou vilas rurais para alcançar o tamanho de amostra mínima (dez municípios) e de exclusão de escolas selecionadas por inviabilidade de deslocamento ou pelas férias escolares (dois municípios), o cálculo das probabilidades de inclusão tomou por base os quantitativos informados pelos municípios.
Identificação dos estratos de seleção e das unidades primárias de amostragem
Na descrição do desenho de amostra1, consta que foram definidos 25 estratos, combinando cinco macrorregiões com cinco faixas de porte populacional dos municípios, de modo a assegurar que as capitais das Unidades da Federação (UF) fossem incluídas com certeza na amostra. Essa inclusão com certeza das 27 capitais tem duas consequências: a primeira é o fato de que os 27 municípios passaram a ser estratos de seleção; a segunda é que, no Nordeste, onde há nove capitais, um único município foi selecionado no estrato de seleção de maior porte, tornando necessário juntar todos os seus municípios com os do estrato de seleção de porte populacional inferior e corrigir o tamanho de amostra de 10 para 11 municípios no estrato de seleção resultante: 50.001 habitantes ou mais.
Portanto, a amostra tem, de fato, 51 estratos de seleção: 27 municípios de capital e 24 estratos definidos pela combinação de macrorregião com os grupos de porte populacional 4. Nesses 24 estratos, cada um dos 223 municípios selecionados corresponde a uma unidade primária de amostragem. Nos 27 municípios de capital, as unidades primárias de amostragem são 139 setores, 399 creches e 438 escolas da amostra.
Calibração dos pesos amostrais
Objetivando minimizar os efeitos das hipóteses adotadas, nos casos em que foi necessário usar aproximações para calcular a probabilidade de inclusão e respectivo peso, decidiu-se calibrar os pesos naturais do desenho a fim de assegurar a coerência das estimativas do SBBrasil 2003 com os totais conhecidos da população de pesquisa, por sexo e grupo etário para cada estrato de seleção. Justificativas e métodos associados à calibração de pesos amostrais já foram descritos e aplicados 10,11,12.
A idéia básica da calibração é estimar (por regressão) fatores de calibração, os quais multiplicam os pesos naturais do desenho para determinar pesos calibrados que tenham a propriedade de minimizar as diferenças entre as estimativas que produzem e os totais populacionais conhecidos para um conjunto de variáveis auxiliares de calibração. Neste estudo, optou-se pela aplicação de um caso particular do estimador de regressão, denominado estimador de pós-estratificação 13,14; nele, os fatores de calibração correspondem às razões - calculadas por estrato de seleção, sexo e grupo etário (variáveis auxiliares da calibração) - entre o total populacional conhecido e a estimativa produzida pelos pesos naturais do desenho.
O total populacional corresponde à estimativa de população para 1º de julho de 2003, distribuindo a população total dos estratos de seleção por sexo e grupo etário, empregando a mesma técnica aplicada pelo IBGE 15 para distribuir a população brasileira (estimada pelo método das componentes) entre as UF e entre os municípios.
Obtenção de estimativas
A amostra do SBBrasil 2003 é complexa, pois utiliza estratificação e conglomeração. Isso obriga que em sua análise seja utilizada a fonte de aleatorização advinda do desenho complexo da amostra 2,13,16. Nesse tipo de desenho, estimativas pontuais não enviesadas de totais, médias, razões, proporções e percentis podem ser obtidas apenas com o emprego dos pesos amostrais 2,13,16,17. Para tanto, basta usar as rotinas que aceitam ponderação de qualquer sistema estatístico, indicando a variável que contém o peso natural do desenho.
Contudo, para estimar variâncias e demais medidas derivadas (desvio-padrão, erro-padrão, valores de p etc.) é preciso usar rotinas especiais, que requerem, além do peso natural do desenho, a indicação das variáveis que contêm os códigos do estrato de seleção e da unidade primária de amostragem. No caso de São Paulo capital, cuja amostra conta com somente uma pessoa na faixa etária de 65-74 anos, o estrato de seleção tem apenas uma unidade primária de amostragem e é necessário agregá-lo com outro estrato de seleção para evitar problemas na estimação, que ocorrem em alguns sistemas estatísticos.
O uso do peso calibrado, entretanto, inclui outra fonte de aleatorização devida aos resíduos de calibração. Não se alteram os métodos para a obtenção de estimativas pontuais, mas, para as variâncias (e medidas derivadas), torna-se necessário considerar peso calibrado, códigos de estrato de seleção e unidade primária de amostragem e resíduos da regressão de calibração 18,19,20,21.
Algumas variáveis foram escolhidas para comparação da estatística descritiva amostral (sem intervalo de confiança - IC) com as estimativas obtidas, considerando os pesos naturais do desenho e pesos calibrados calculados. Nesse caso, foram usadas, respectivamente, as rotinas surveymeans e surveyfreq do SAS, que consideram a fonte de aleatorização do desenho de amostra complexo, e a biblioteca survey 19,20, versão 3.22.1, do R versão 2.11.1 (The R Foundation for Statistical Computing, Viena, Áustria; http://www.r-project.org), que considera as fontes de aleatorização devidas ao desenho complexo da amostra e à calibração dos pesos amostrais. Ressalte-se que estimativas obtidas com o peso calibrado são mais precisas do que as obtidas com o peso natural do desenho.
Resultados
A busca pelos relatórios e informações sobre a seleção da amostra da pesquisa foi realizada entre março de 2006 e dezembro de 2008 junto às coordenações das três esferas de governo e aos participantes da pesquisa que puderam ser identificados. Nessa busca, foram feitas mais de oitocentas ligações interurbanas, enviadas mais de mil mensagens eletrônicas e realizadas viagens a 14 UF.
As dificuldades mais comuns para estabelecer contatos (coordenações e participantes) foram decorrentes de dados errados, mensagens de correio eletrônico sem resposta e ligações telefônicas não atendidas. Nos casos de contatos estabelecidos, outras dificuldades surgiram: desconhecimento das coordenações municipais sobre a existência ou a localização dos relatórios e até sobre a pesquisa; retirada de dados e documentos do órgão pelos funcionários da gestão anterior; envio do material para o arquivo morto, Ministério da Saúde ou coordenadores regionais; não-fornecimento dos dados sem autorização formal do Ministério da Saúde. Nos casos cujo material foi arquivado em local conhecido, mas a coordenação (estadual/municipal) não dispunha de recursos humanos para sua busca, foi necessário viajar para realizar essa tarefa.
A busca, na COSAB, dos relatórios de pesquisa e da relação dos participantes com seus contatos não produziu os resultados esperados; por outro lado, comunicação com os coordenadores regionais permitiu recuperar relatórios das regiões Sudeste e Sul. Para as demais regiões, obteve-se informação de que os relatórios estavam perdidos. Os contatos com participantes das capitais, principalmente ex-coordenadores municipais, possibilitaram o resgate de relatórios ou da relação de nomes ou endereços dos estabelecimentos de ensino pesquisados.
Ao final, foi possível recuperar informação em 157 municípios do total de 250 selecionados, sendo 75 em 100 municípios (mais de 50 mil habitantes), incluindo as 27 capitais de UF, e 82 em 150 municípios (até 50 mil habitantes), cujas unidades de seleção são quadras, muitos deles contando com menos de vinte escolas (Tabela 1). Os relatórios obtidos indicaram situações não previstas nas instruções de seleção e coleta, conforme referido na seção de cálculo dos pesos amostrais para situações especiais.
O maior problema relacionado às variáveis de identificação do banco de dados do SBBrasil 2003 é a ausência daquelas que identifiquem todas as unidades de seleção. Esse entrave decorre do desenho incompleto da ficha de exame 22: faltam a identificação/numeração dos domicílios e os códigos de creches/escolas. As identificações de unidades da amostra, constantes do banco, apresentam frequências importantes de dados faltantes ou inválidos. Do total de 108.921 registros do banco de dados, 27.619 (25,4%) pessoas que deveriam ser selecionadas em domicílios têm código de setor inválido ou ignorado, e 11.910 (10,9%) que deveriam ser selecionadas em creches/escolas têm código válido nas variáveis de distrito, subdistrito, setor e quadra/vila. De fato, os relatórios indicaram troca de cadastro de seleção, com escolares selecionados em seus domicílios, além de seleção nas faixas etárias de 18-36 meses e 15-19 anos fora dos domicílios.
Nas capitais, onde a troca de cadastro representa problema grave na definição da unidade primária de amostragem, houve apenas 63 registros com código de setor inválido para pessoas que deveriam ser pesquisadas em domicílio (de fato, o foram) e 1.651 registros de pessoas que deveriam ser selecionadas em escolas/creches com código válido de setor. Entretanto, as informações obtidas permitiram corrigir esses casos.
Outro problema observado relaciona-se à duplicação de valores na variável de identificação dos registros (IDENTIFI) e à duplicação de registros. Em princípio, a IDENTIFI deveria ser única por município, mas resultados mostram que existem 2.102 registros nos quais essa variável não tem valor único (702 registros duplicados, 190 triplicados, cinco quadruplicados, seis quintuplicados e 13 com seis ocorrências). No exame da IDENTIFI por UF, município, sexo e idade, observaram-se 123 pares de registros idênticos e um par de registros com diferença nas variáveis de renda pessoal e familiar, em que um era a correção dos valores do outro (o corrigido foi escolhido).
Verificou-se, também, que o tamanho previsto da amostra não foi atingido para inúmeras combinações de município e grupo etário, além de não terem sido examinadas pessoas em outras: 18-36 meses (seis municípios); cinco anos (dois municípios); 12 anos (um município); 35-44 anos (um município); e 65-74 anos (três municípios).
Os resultados do procedimento de calibração foram sintetizados na Tabela 2, que compara os dados populacionais e estimativas obtidas com o peso natural do desenho e peso calibrado.
A Tabela 3 apresenta estatísticas das distribuições amostrais do peso natural do desenho e do peso calibrado, enquanto a Tabela 4 expõe as estatísticas descritivas da amostra, as estimativas para a prevalência de cárie, obtidas com o emprego dos dois pesos amostrais calculados, e a média dos índices de cárie e de seus componentes, para o total nacional de cada grupo etário. Ainda na Tabela 4, a fim de tornar os resultados comparáveis, buscou-se recuperar o algoritmo usado na publicação do Ministério da Saúde 1, ignorando os códigos inválidos nas variáveis de resultado dos exames (DENTALXX, sendo XX = 11-18, 21-28, 31-38, 41-48): 37,9% de códigos numéricos (492.703 em 1.240.256 códigos) para dentes decíduos; 1,1% de códigos alfabéticos (24.488 em 2.245.216 códigos) para dentes permanentes.
A Tabela 5 apresenta as estatísticas descritivas da amostra publicadas e as estimativas obtidas com o emprego do peso natural do desenho e do peso calibrado, relativas às metas do milênio. Para as estimativas de prevalência incluiu-se o cálculo do total de pessoas que atendem às metas.
Discussão
Parte do trabalho de recuperação das informações sobre a seleção da amostra não seria necessária se o desenho da ficha de exame 22 tivesse forçado o registro de todas as unidades de seleção do desenho amostral, e não apenas os códigos de UF, município, setor e quadras ou vilas rurais. No entanto, esse trabalho permitiu concluir que replicar as instruções de seleção da amostra 8 traria viés ao cálculo dos pesos amostrais: os resultados apresentados sobre as informações recuperadas indicam que a seleção da amostra nos municípios nem sempre foi feita de acordo com as regras estabelecidas. Mostrou, também, que o total de creches e escolas utilizado foi inferior ao existente no Censo Escolar 2003, forçando a introdução de ajustes no cálculo dos pesos amostrais para evitar subestimação importante nos grupos etários correspondentes.
Na crítica ao banco de dados da pesquisa, observou-se que parte dos problemas não tinha correção e parte foi alvo de medidas paliativas. Os casos de tamanho nulo da amostra efetiva não tinham solução. Para tamanho de amostra inferior ao previsto, fez-se correção nos pesos amostrais, apesar de conduzir a estimativas com precisão menor do que a prevista. Os problemas nas variáveis que identificam as unidades de pesquisa foram, quando possível e necessário, corrigidos para o cálculo dos pesos, mas não foram alterados na nova versão do banco de dados (com as informações estruturais do desenho amostral), visto ser impossível fazer uma correção abrangente. Os casos de duplicação da variável IDENTIFI, dentro dos municípios, foram contornados pela criação de uma variável de identificação sequencial dos registros (de 1 a 108.921), tornando possível gravar nestes as informações estruturais do desenho amostral, pressupondo-se que os casos referiam-se a pessoas diferentes e não a registros duplicados no processo de correção. Os 124 registros idênticos que estavam duplicados foram mantidos no arquivo para permitir a reprodução dos resultados anteriores, sendo criada uma variável para marcá-los.
Em face das dificuldades relatadas quanto à seleção da amostra e aos métodos usados no seu cálculo, os pesos naturais do desenho não produzem estimativas do total populacional dos estratos de seleção, por sexo e grupo etário, coerentes com as estimativas populacionais conhecidas por outros métodos (Tabela 2). Em princípio, quatro causas podem ser apontadas: as probabilidades de inclusão dos municípios foram calculadas usando os dados da estimativa populacional para 1º de julho de 1999 e a pesquisa foi realizada em 2002 e 2003; a seleção em creches/escolas não assegura que os matriculados sejam residentes no município e exclui da pesquisa os que não estejam matriculados; as probabilidades de inclusão das pessoas selecionadas em domicílios foram baseadas em quantitativos do Censo Demográfico 2000; comumente amostras domiciliares estimam a distribuição da população por sexo com vício 11.
Por isso, o procedimento de calibração mostrou que, para os dados obtidos em domicílio, o peso natural do desenho tende a subestimar a população masculina e superestimar a feminina (fato comum em pesquisas domiciliares, pois as mulheres são mais facilmente encontradas em casa). O peso natural do desenho subestima a população de 18-36 meses e de cinco anos para ambos os sexos. Nas demais faixas etárias, o peso natural do desenho subestima a população masculina e superestima a feminina. Apesar das diferenças por sexo, o peso natural do desenho subestima a população total em todas as faixas etárias, exceto para 12 anos. Para a população total, os efeitos referidos não conduzem a uma compensação, e o peso natural do desenho tende a subestimar a população total dos grupos considerados: a soma dos dados da Tabela 2 indica que a população total em 1º de julho de 2003, para todos os grupos etários, corresponde a 61,3 milhões de habitantes, enquanto o peso natural do desenho fornece uma estimativa de 57,4 milhões.
Para os dados obtidos em creches (cinco anos, municípios com mais de 50 mil habitantes), o peso natural do desenho subestima o total, uma vez que muitas crianças dessa idade não estavam matriculadas nessas instituições (o total fornecido pelo Censo Escolar 2003 é menor do que a estimativa da população dessa idade). Ademais, o número de creches usadas na seleção da amostra (casos cujas informações foram recuperadas) era menor do que no Censo Escolar 2003.
Na seleção em escolas (12 anos), os dados utilizados (não apresentados) mostraram que 94 municípios têm mais alunos de 12 anos matriculados do que residentes de 12 anos, ao passo que os 155 municípios restantes (um não teve amostra nesta idade) têm população superior ao número de alunos de 12 anos matriculados em escola. Os dados indicam que o peso natural do desenho só não superestima a população total de 12 anos nos outros municípios do Norte e Sudeste.
Esses fatos justificam o uso da calibração dos pesos amostrais, tendo em vista que as estimativas obtidas com o peso calibrado passaram a ser coerentes com a população para todos os segmentos (Tabela 2), exceto para homens do grupo de 65-74 anos. A inexistência de entrevistado no Município de São Paulo conduziu a uma subestimação de 182.279 pessoas da população, as quais ficaram sem representação na amostra.
A distribuição amostral do peso natural do desenho tem amplitude e dispersão muito grandes (Tabela 3). O maior peso é 253.800,3 vezes o menor peso, indicando que a amostra do SBBrasil 2003 está longe de ser autoponderada 4. O coeficiente de variação do peso natural do desenho é muito grande (448,3%) e implica variabilidade nas estimativas derivadas dessa amostra, o que poderia ter sido evitado caso fosse adotado outro desenho de amostra. Kish 23 demonstra que os pesos reduzem o vício, mas aumentam a variância dos estimadores ponderados, visto que a razão entre a variância de um estimador ponderado de média e o correspondente estimador não ponderado é igual a 1 mais o quadrado do coeficiente de variação dos pesos amostrais.
Na realidade, a variabilidade dos pesos amostrais decorre do desenho da amostra e dos problemas observados no cálculo do tamanho da amostra. Este cálculo foi baseado em uma prevalência de cárie para os 12 anos e supôs um efeito de desenho de 2, quando este foi de 13,83 e 11,01, estimados, respectivamente, pelos pesos naturais do desenho e pesos calibrados.
O procedimento de calibração, apesar de reduzir a amplitude dos pesos em 39,8% e a relação entre maior e menor peso (o maior peso calibrado é 54.112,5 vezes o menor), teve efeito pequeno sobre o coeficiente de variação dos pesos: redução de 448,3% para 396,8%. Isso significa que, não obstante suas vantagens, o peso calibrado ainda implicará variabilidade nas estimativas maior do que o necessário, em virtude do desenho amostral empregado: a calibração não tem como evitar o desequilíbrio de tamanho de amostra entre os municípios grandes e os pequenos, já que o desenho foi concebido para ter aproximadamente o mesmo tamanho de amostra por município 5.
Na Tabela 4, verifica-se que os intervalos de 95% de confiança (IC95%) para as estimativas da prevalência de cárie baseadas no peso natural do desenho não incluem o valor da estatística descritiva amostral, exceto a partir de 35 anos. A partir dessa idade, observa-se pequena variabilidade nessa variável em decorrência do efeito cumulativo do maior tempo de exposição à doença 4. Em relação às médias dos índices (ceo-d/CPO-D), os IC95% das estimativas não incluem a estatística descritiva amostral, com exceção para o grupo etário de 65-74 anos, que tem o menor tamanho amostral e, portanto, a amostra menos precisa. No que se refere a seus componentes, 14 dos 30 IC95% das estimativas não incluem a correspondente estatística descritiva da amostra.
Para as estimativas com o peso calibrado, a situação mantém-se semelhante, sendo observada a principal alteração na idade de cinco anos, provavelmente em decorrência da forte subestimação do peso natural do desenho nesse grupo (Tabela 4).
Em relação às metas do milênio (Tabela 5), as estimativas com peso calibrado indicam que: (1) não há alteração importante na meta para crianças com cinco anos de idade (mas a estimativa com o peso natural do desenho subestima, pelos motivos já indicados, a proporção de pessoas sem cáries); (2) a estatística descritiva da amostra superestima significativamente a média de cárie para a faixa etária de 12 anos; (3) a proporção de pessoas de 15-19 anos com todos os dentes é significativamente maior que a indicada pela estatística descritiva da amostra; (4) a proporção de pessoas de 35-44 anos com vinte ou mais dentes na boca é significativamente subestimada pela estatística descritiva da amostra; (5) não há alteração significativa na meta para o grupo etário de 65-74 anos, apesar do aumento de 1,2 ponto percentual na porcentagem de pessoas com vinte dentes ou mais na boca.
Em termos gerais, o levantamento das informações do SBBrasil 2003 mostrou problemas no registro e arquivamento de documentos da pesquisa. Muitos relatórios recuperados não seguiram o modelo estabelecido 22, sugerindo que a atenção a esses documentos ficou aquém do indicado.
Apesar da precariedade dos dados em alguns relatórios e da não obtenção de relatórios de outros municípios, a estratégia desenvolvida viabilizou o resgate de informações referentes à seleção da amostra da pesquisa. Em adição, possibilitou a incorporação das informações estruturais do desenho amostral (estratos de seleção, unidades primárias de amostragem e pesos amostrais) ao banco de dados da pesquisa.
Os pesos calibrados, a despeito das aproximações de cálculo, permitem obter estimativas válidas e representativas da população de pesquisa e servem de base para a comparação histórica das condições de saúde bucal da população brasileira, a ser observada em novos estudos. Além disso, as informações estruturais do desenho da amostra, incorporadas ao arquivo de dados da pesquisa, permitem avaliar os erros de amostragem de forma até então não possível, contribuindo para melhorar a qualidade do ajuste de modelos estatísticos e planejamento de futuras investigações. A calibração dos pesos amostrais mostrou-se importante para obter coerência com os dados populacionais, principalmente para a idade de cinco anos e correção da distribuição da população por sexo.
As estimativas apresentadas apontam que as estatísticas descritivas da amostra não refletem adequadamente a situação da saúde bucal no país à época da realização da pesquisa. Verifica-se que o Brasil encontrava-se em situação melhor em relação às metas do milênio do que foi divulgado pelo Ministério da Saúde 1.
São indiscutíveis os benefícios do SBBrasil para a odontologia brasileira e sua contribuição para o processo de construção do planejamento das ações odontológicas. Foi essa a percepção principal e motivadora deste trabalho, que se contrapôs às dificuldades enfrentadas ao longo de seu curso. Por isso, não se pode deixar de indicar os pontos positivos e negativos observados ao longo do presente estudo, a fim de contribuir para o aprimoramento do processo de pesquisa na área.
Logo, é recomendável que o treinamento continue focalizando a minimização dos erros de medida, mantendo o processo de calibração dos entrevistadores, sem deixar de concentrar-se nos cuidados necessários para evitar a introdução de vício nos estimadores em decorrência do não cumprimento das regras de seleção da amostra. Além disso, o desenho amostral deve ser concebido para evitar que os pesos amostrais variem de forma excessiva, de modo a controlar melhor a precisão das estimativas.
No fim do dia, o que importa é controlar o erro quadrático médio (função conjunta dos erros de medidas, dos vícios introduzidos no processo de amostragem e da variância amostral), sem perder de vista que, em pesquisas desse tipo, não seria esperado que os erros de medida dominassem o valor do erro quadrático médio.
Os autores reconhecem que a disseminação da versão do banco de dados do SBBrasil 2003 complementada pelas informações estruturais do desenho da amostra compete exclusivamente ao Ministério da Saúde; portanto, colocam ao dispor desta instituição os dados e documentação pertinente para seu uso, caso entenda que eles devam ser disseminados.
Contribuições
M. C. Portela, M. T. L. Vasconcellos e R. C. S. Queiroz conceberam o trabalho de recuperação das informações de seleção da amostra relativas aos participantes do SBBrasil 2003. R. C. S. Queiroz realizou o trabalho de contato com os participantes e sistematizou a informação recuperada. M. T. L. Vasconcellos e P. L. N. Silva estabeleceram as regras de cálculo dos pesos amostrais. M. T. L. Vasconcellos calculou os pesos amostrais e gerou o arquivo final. M. T. L. Vasconcellos e P. L. N. Silva escreveram o manuscrito, que foi revisado e aprovado por todos os autores.
Agradecimentos
Os autores agradecem a Angelo Giuseppe Roncalli da Costa Oliveira pelo fornecimento da listagem dos setores selecionados e pelas decisões sobre o tratamento dos registros duplicados no banco de dados do SBBrasil 2003. Este trabalho recebeu apoio da FAPERJ (processo E-26/171.336/2006), e três de seus autores são bolsistas do CNPq.
Recebido em 16/Out/2009
Versão final reapresentada em 30/Jul/2011
Aprovado em 18/Out/2011
Referências bibliográficas
- 1 Departamento de Atenção Básica, Secretaria de Atenção à Saúde, Ministério da Saúde. Projeto SB Brasil 2003. Condições de saúde bucal da população brasileira, 2002-2003: resultados principais. Brasília: Ministério da Saúde; 2004.
- 2. Skinner CJ, Holt D, Smith TMF. Analysis of complex surveys. Chichester: Wiley; 1989.
- 3. Narvai PC, Antunes JLF, Moysés SJ, Frazão P, Peres MC, Peres KG, et al. Validade científica de conhecimento epidemiológico gerado com base no estudo Saúde Bucal Brasil 2003. Cad Saúde Pública 2010; 26:647-57.
- 4. Queiroz RCS, Portela, MC, Vasconcellos MTL. Pesquisa sobre as Condições de Saúde Bucal da População Brasileira (SB Brasil 2003): seus dados não produzem estimativas populacionais, mas há possibilidade de correção. Cad Saúde Pública 2009; 25:47-58.
- 5. Criado IV, Cabria MSB. Procedimento de depuración de datos estadísticos. Vitória-Gasteiz: Instituto Vasco de Estadística; 1990.
- 6. Herzog TN, Scheuren FJ, Winkler WE. Data quality and record linkage. New York: Springer Publishing Company; 2007.
- 7 Instituto Brasileiro de Geografia e Estatística. Censo Demográfico 2000: agregado por setores censitários dos resultados do universo. 2ª Ed. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística; 2003.
- 8 Área Técnica de Saúde Bucal, Departamento de Atenção Básica, Secretaria de Políticas de Saúde, Ministério da Saúde. Projeto SB2000. Condições de saúde bucal da população brasileira no ano 2000: manual do coordenador. Brasília: Ministério da Saúde; 2001.
- 9. Hájek J. Limiting distribution in sample random sampling from finite populations. Publications of the Mathematics Institute of the Hungarian Academy of Science 1960; 5:361-74.
- 10. Särndal CE, Swensson B, Wretman JH. Model assisted survey sampling. New York: Springer-Verlag; 1992.
- 11. Silva PLN. Calibration estimation: when and why, how much and how. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística; 2004. (Textos para Discussão da Diretoria de Pesquisas, 15).
- 12. Vasconcellos MTL, Silva PLN, Szwarcwald CL. Sampling design for the World Health Survey in Brazil. Cad Saúde Pública 2005; 21 Suppl 1:S89-99.
- 13. Pessoa DGC, Silva PLN. Análise de dados amostrais complexos. São Paulo: Associação Brasileira de Estatística; 1998.
- 14. Kalton G. Compensating for missing survey data. Ann Arbor: University of Michigan, 1983.
- 15 Instituto Brasileiro de Geografia e Estatística. Metodologia das estimativas das populações residentes nos municípios brasileiros para 1º de julho de 2008. Uma abordagem demográfica para estimar o padrão histórico e os níveis de subenumeração de pessoas nos censos demográficos e contagens de população. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística; 2008.
- 16. Silva PLN, Pessoa DGC, Lila MF. Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral. Ciênc Saúde Coletiva 2002; 7:659-70.
- 17. Cochran WG. Sampling techniques. 3rd Ed. New York: John Wiley & Sons; 1977.
- 18. Hidiroglou MA, Rao JNK, Yung W. Variance computation for complex surveys using estimating equations. In: Proceedings of the Survey Methods Section. Annual Meeting of the Statistical Society of Canada. http://www.ssc.ca/survey/documents/SSC1999_M_Hidiroglou.pdf (acessado em 22/Out/2010).
- 19. Lumley T. Analysis of complex survey samples. J Stat Softw 2004; 9:1-19
- 20. Lumley TS. Complex surveys: a guide to analysis using R. New York: John Wiley & Sons; 2010.
- 21. Chambers RL, Skinner CJ. Analysis of survey data. Chichester: John Wiley & Sons; 2003.
- 22 Área Técnica de Saúde Bucal, Departamento de Atenção Básica, Secretaria de Políticas de Saúde, Ministério da Saúde. Projeto SB2000. Condições de saúde bucal da população brasileira no ano 2000: manual do coordenador. Brasília: Ministério da Saúde; 2001.
- 23. Kish L. Weigthing for unequal Pi. J Off Stat 1992; 8:183-200.
- 24. Kish L. The hundred years' wars of survey sampling. In: Proceedings of the 1995 Rome Conference to Commemorate 100 Years of Sample Survey. Rome: Centro d'Informazione e Stampa Universitaria; 1996. p. 15-27.
Datas de Publicação
-
Publicação nesta coleção
13 Fev 2012 -
Data do Fascículo
Fev 2012
Histórico
-
Recebido
16 Out 2009 -
Aceito
18 Out 2011 -
Revisado
30 Jul 2011