RESUMO
Objetivo:
A publicação de dados abertos do governo tem como objetivo maior o seu reuso pela sociedade. Com o aumento do volume de dados disponibilizados, o processamento por máquina foi um dos requisitos essenciais para promover a interoperabilidade, permitindo assim o efetivo reuso dos dados governamentais abertos. Este artigo de dados tem o objetivo de descrever o processo de coleta de dados na API de dados agregados do IBGE, que disponibiliza dados agregados de pesquisas e censos realizados no Brasil.
Método:
Esta pesquisa caracteriza-se como descritiva e exploratória, com abordagem qualitativa, e aplicada por envolver um problema prático que é a coleta dos dados na API de dados agregados do IBGE. Para tanto, foi realizada uma pesquisa documental para identificar as rotas (endpoints) disponíveis e os parâmetros existentes na API, que permitiram implementar “filtros” para recuperar os dados e informações relevantes em um universo com muitos conjuntos de dados agregados.
Potencial de reutilização:
A disponibilização dos conjuntos de dados das pesquisas do IBGE, de forma automatizada, permite que os mesmos sejam monitorados, recuperados e utilizados no encaminhamento e manutenção de políticas públicas, contribuindo para a identificação de padrões, de comportamentos e hábitos da população, por vários segmentos da sociedade civil, incluindo empresas (públicas e privadas), fomentando novos modelos de negócio digitais que usam dados e informações de diferentes contextos, suscitando novos produtos, serviços e ocupações.
PALAVRAS-CHAVE:
Dados abertos; dados governamentais abertos; API; IBGE; dados agregados
ABSTRACT
Objective:
The publication of data opened by the government has as its main objective or its reuse by society. As the increase in the volume of available data, machine processing was one of two essential requirements to promote interoperability, thus allowing the effective reuse of open government data. This data article aims to reveal the data collection process in the IBGE aggregate data API, which makes available aggregate data from surveys and censuses carried out in Brazil.
Method:
This research is characterized as descriptive and exploratory, with a qualitative, and applied approach because it involves a practical problem that collects two data in the IBGE aggregate data API. For this reason, a documentary search was carried out to identify the broken points (endpoints) available and the parameters existing in the API, which will allow the implementation of “filters” to recover data and relevant information in a universe with many sets of aggregated data.
Reuse potential:
The availability of two sets of IBGE research data, in an automated manner, allows them to be monitored, recovered and used in the direction and maintenance of public policies, contributing to the identification of patterns, behaviors and habits of the population , by various segments of civil society, including companies (public and private), promoting new digital business models that use data and information from different contexts, creating new products, services and occupations.
KEYWORDS:
Open data; Open government data; API; IBGE; aggregated data
1 APRESENTAÇÃO
A publicação de dados abertos pelo governo brasileiro vem se consolidando ao longo dos últimos 10 anos. Neste período, percebeu-se uma evolução e alguns avanços significativos na formulação da política, na padronização na publicação dos dados abertos e principalmente nas ferramentas de disponibilização, mesmo que de forma ainda descentralizada e por meio de recomendações (Silva, 2022aSILVA, P. N. Acesso à informação no Brasil: política de dados governamentais abertos. In: GERALDES, E. et al. (org.). Dez anos da lei de acesso à informação: limites, perspectivas e desafios. São Paulo: INTERCOM, 2022a. p. 748. Disponível em: http://www.portcom.intercom.org.br/ebooks/arquivos/livro_dalai_digital_final_17.05.2022.pdf. Acesso em: 28 out. 2023.
http://www.portcom.intercom.org.br/ebook...
). Diante do volume crescente de dados, o processamento por máquina foi um dos requisitos essenciais para promover a interoperabilidade, permitindo assim o efetivo reuso dos dados governamentais abertos.
O Instituto Brasileiro de Geografia e Estatística (IBGE) é uma entidade da Administração Pública Federal (APF) e atualmente está vinculado ao Ministério do Planejamento e Orçamento (MPO). Conforme IBGE (2023, n.p.) sua missão institucional é “retratar o Brasil com informações necessárias ao conhecimento de sua realidade e ao exercício da cidadania”. O IBGE constitui o principal provedor de dados e informações do Brasil, atendendo os órgãos das esferas federal, estadual e municipal e os mais diversos seguimentos da sociedade civil (IBGE, 2023).
O IBGE disponibiliza uma infinidade de indicadores, conjuntos de dados, portais, dentre outros serviços que envolvem a disponibilização de dados e informações. Com essas diversas possibilidades, aumenta a complexidade com relação à coleta e o reuso desses dados. Em cumprimento a Lei de Acesso à informação (Lei nº 12.527/2011) (Brasil, 2011) e a Política de Dados Abertos (Decreto nº 8.777/2016) (Brasil, 2016) os dados publicados pelo IBGE estão alinhados às boas práticas de publicação e princípios dos dados abertos como o processamento automatizado. O IBGE possui uma Application Program Interface (API) de serviços de dados abertos que disponibiliza dados processáveis por máquina para qualquer cidadão ou sistema, permitindo a interoperabilidade e o enriquecimento a partir dos dados abertos disponibilizados. Para tanto, é importante que o acesso automatizado apresente uma boa documentação e tenha uma boa usabilidade para que seu reuso seja efetivo.
A recuperação de informação é um processo que se concentra principalmente em prover aos usuários o acesso fácil às informações de seu interesse e seu objetivo maior é recuperar informações que sejam úteis ou relevantes para o usuário (Baeza-Yates; Ribeiro-Neto, 2013). Em grandes e heterogêneos volumes de dados, a recuperação de informações em API pode otimizar o acesso para humanos e/ou máquinas.
O propósito de uma API é tornar o uso do sistema fácil e conveniente para que desenvolvedores não familiarizados com ele possam criar códigos rapidamente. Ao disponibilizar uma API para o público, expande-se a aplicação e esta passa a contemplar também desenvolvedores que queiram integrar funcionalidades em seus próprios sistemas (Saudate, 2021SAUDATE, Alexandre. APIs REST: seus serviços prontos para o mundo real. [S.l.]: Casa do Código, 2021.), possibilitando a interoperabilidade e o reuso dos dados.
Em contextos de big data, a recuperação de dados por meio de APIs é uma forma de acesso necessária e a utilização de técnicas da Biblioteconomia e da Ciência da Informação para organização da informação são essenciais para que esse tipo de ferramenta cumpra com seus objetivos. As rotas e parâmetros definidos em uma API precisam seguir padrões de organização e são importantes para manter a integridade dos recursos advindos desse tipo de fonte de informação (Silva, 2022bSILVA, P. N. Recuperação de dados em APIs: uma experiência prática no Twitter. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 22., 2022, Porto Alegre. Anais [...]. Porto Alegre: Ancib, 2022b. Disponível em: https://ancib.org/enancib/index.php/enancib/xxiienancib/paper/viewFile/1007/728. Acesso em: 28 out. 2023.
https://ancib.org/enancib/index.php/enan...
).
Atualmente o IBGE disponibiliza 17 APIs abertas de serviços de dados. Dentre essas APIs, destaca-se a API de dados agregados do IBGE, um serviço que disponibiliza os dados das pesquisas e censos realizados pelo IBGE. A escolha deste serviço foi pautada na importância e na utilidade destes dados, visto que é uma fonte confiável e profícua para descrever e caracterizar a população brasileira, permitindo identificar a situação atual e também dados históricos. Além disso, os dados podem ser utilizados pela comunidade científica e pelo governo para o encaminhamento e manutenção de políticas públicas e para a identificação de padrões de comportamento e hábitos da população. No contexto da sociedade civil e das empresas (públicas e privadas) estes dados podem fomentar novos modelos de negócio digitais, que usam dados e informações de diferentes contextos, suscitando novos produtos, serviços e ocupações. Como potencial adicional, movimentos de inovação cívica e ciência cidadã também poderão ser estimulados e impulsionados com este tipo de investigação.
Neste cenário, a pergunta de pesquisa que norteia este estudo é: Como coletar dados na API de dados agregados do IBGE?Este artigo de dados tem o objetivo de descrever o processo de coleta de dados na API de dados agregados do IBGE, que disponibiliza dados agregados de pesquisas e censos realizados no Brasil.
2 MÉTODOS E INSTRUMENTOS
Esta pesquisa caracteriza-se como descritiva e exploratória, visto que as informações sobre a API não estavam centralizadas ou destacadas no site oficial do IBGE, sendo necessário investigar sua a localização e acesso, e aplicada por envolver um problema prático que é a coleta dos dados na API e abordagem qualitativa.
Inicialmente foi consultado o site oficial do IBGE1 1 Disponível em: https://www.ibge.gov.br/pt/inicio.html para localizar as APIs de dados abertos existentes. No site oficial não foi identificada nenhuma seção sobre dados abertos. O menu “Serviços” foi identificado, porém listava somente algumas possibilidades para emissão de certidões ou solicitação de dados específicos. Desta forma, optou-se por fazer uma busca no motor de busca Google2 2 Disponível em: https://www.google.com.br/ com os descritores: API e IBGE, combinados, compondo a seguinte expressão: “api and IBGE”. A busca foi realizada em julho de 2023, em um computador pessoal, com acesso à internet banda larga.
O primeiro resultado da busca recuperou o domínio “IBGE - API de serviço de dados” disponível no endereço: https://servicodados.ibge.gov.br/api/docs/. O sítio apresentou em sua página inicial o nome, descrição e link para 17 APIs de serviços de dados: Agregados, Banco de Dados Geodésicos, Calendário, CNAE, hgeoHNOR, Localidades, Malhas Geográficas, Metadados, Nomes, Notícias, Países, Pesquisas, PPP, Produtos, ProGriD, Publicações e RBMC. O escopo deste estudo incluiu a coleta de dados na API Agregados, API que disponibiliza dados agregados de pesquisas e censos realizados pelo IBGE. Assim, conforme a busca realizada, a documentação e a API Agregados estava disponibilizada no endereço: https://servicodados.ibge.gov.br/api/docs/agregados?versao=3.
A página da API possui informações sobre os endpoints ou rotas para pesquisa na API e informações sobre os parâmetros implementados. O Quadro 1 apresenta um resumo da API disponibilizada, sua descrição e o endpoint.
O endpoint Agregados (AG) é alimentado com os dados das pesquisas disponibilizadas pelo Sistema IBGE de Recuperação Automática (SIDRA), cujas tabelas estatísticas são disponibilizadas no site: https://sidra.ibge.gov.br/. Neste sistema são divulgados dados e informações acerca de pesquisas realizadas pelo IBGE considerando: população, economia, meio ambiente e indicadores de vários segmentos, que são organizadas e agregadas de acordo com as pesquisas realizadas pelo IBGE.
Localidades por agregado (AG1) permite filtrar as informações por localidade e por níveis hierárquicos, esses níveis são organizados de acordo com referências geográficas. Inicialmente são considerados os níveis hierárquicos como: bairro, município, estado, país, em seguida há várias outras organizações como: região amazônica, países mercosul, terra indígena, dentre outras.
Metadados (AG2) retorna os metadados de um determinado agregado, trazendo informações sobre como a pesquisa obteve os dados, a periodicidade e o período da pesquisa, as localidades, as variáveis e as classificações de acordo com a organização do IBGE.
Períodos por agregado (AG3) informa qual o período de determinado agregado, informando os meses e ano e também as datas de modificação do agregado.
O endpoint Variáveis por agregado (AG4) apresenta os períodos pesquisados. O identificador da variável permite filtrar as variáveis de um agregado por período e pelas variáveis, retornando dados acerca da localização e principalmente informações das classificações organizadas pelo IBGE.
Todos os seguimentos criados para a API trazem informações acerca dos mesmos dados, ou seja, dados agregados das pesquisas realizadas. Desta forma, podem ser interpretadas como rotas de uma única API que permite obter informações de um domínio, contudo a partir de visões diferentes.
Toda a documentação da API é disponibilizada no endereço: https://servicodados.ibge.gov.br/api/docs/agregados?versao=3#api-_ e exemplos são apresentados junto com a funcionalidade “QUERY BUILDER” que permite ao usuário selecionar uma pesquisa, os dados agregados, as variáveis, os períodos, o nível geográfico e a localidade, por meio de componentes visuais, e retorna uma URL com o endpoint e os respectivos parâmetros indicados nos filtros. O usuário também pode elaborar o endpoint com os parâmetros desejados, de forma manual.
É importante destacar que a pesquisa na API de dados agregados do IBGE deve ser feita através de um endpoint que inclua os parâmetros de cada rota: localidades, metadados, períodos e variáveis (períodos pesquisados e identificador da variável) de forma unificada. Para isto é preciso identificar, minimamente, a pesquisa agregada que se pretende recuperar para construir um endpoint de acordo com a granularidade utilizada na pesquisa definida.
2.1 Procedimentos Metodológicos
Por existirem muitas pesquisas agregadas na API, inicialmente foram realizadas buscas para identificar os códigos existentes na “Base de identificadores” disponível em: https://servicodados.ibge.gov.br/api/docs/agregados?versao=3#api-acervo. A pesquisa por código pode ser realizada por: Assunto, classificação, nível geográfico, período, periodicidade ou variável. Esta pesquisa retorna uma lista de códigos válidos na API. Por meio dessa funcionalidade foi possível identificar mais facilmente as pesquisas existentes de um determinado domínio ou período.
Com base na seleção dos códigos de pesquisas agregadas, cada rota foi explorada, a fim de identificar os “caminhos existentes”. Com isso foi possível identificar a granularidade e variáveis para cada item disponível na API:
-
a) localidade: localidades disponíveis para a pesquisa:N1- Brasil; N2- Grande região (N, NE, SE, S, CO); N3- Unidade da Federação (estados); N6- Município; N7- Região metropolitana; N8- Mesorregião geográfica; N9- Microrregião geográfica.
-
b) metadados: metadados disponíveis para cada pesquisa agregada. Exemplo: id, nome, nível. Caso não seja indicado retornará todos existentes.
-
c) período: a granularidade disponibilizada conforme os períodos disponibilizados: ano, mês, dia.
-
d) variáveis: cada pesquisa agregada possui centenas de variáveis indicadas por um id numérico, desta forma, é preciso saber o número de cada variável para poder utilizá-la. As variáveis podem ser combinadas com a localidade e o período.
Após a identificação dos elementos deve ser construído o endpoint completo que irá reunir todos os elementos em um único endpoint conforme as definições indicadas em localidade, metadados, período e variáveis. Caso não seja possível identificar todos os itens para construção do endpoint novas buscas devem ser realizadas até que todos os parâmetros possam recuperar os dados desejados.
O endpoint criado deve ser executado em algum browser ou em alguma ferramenta específica que permita a exportação dos dados. Neste estudo foi utilizada a ferramenta Hoppscotch3 3 Disponível em: https://hoppscotch.io/ que permitiu a exportação no formato original, o JSON. A Figura 1 apresenta um resumo de como coletar dados na API Agregados do IBGE, com o objetivo de demonstrar o percurso metodológico, ou seja, um guia para recuperação dos dados na API.
O Quadro 2 apresenta as consultas realizadas e ordenadas com os respectivos endpoints acessados.
É importante destacar que o estudo prévio da documentação da API é essencial para elaboração dos endpoints, visto que códigos inválidos, parâmetros ou rotas incorretas impedem, por completo, a recuperação de informações neste tipo de aplicação.
3 QUADRO DE ESPECIFICAÇÕES
3.1 Descrição do conjunto de dados
No endpoint Agregados foi recuperado o “id” do sistema ou da pesquisa, representado por duas letras maiúsculas, e os respectivos “id” e “nome” dos conjuntos de dados agrupados. Assim, o endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/ retornou um arquivo JSON com 33244 linhas e todos os identificadores dos conjuntos disponibilizados na API. Todos os ids disponibilizados na base de identificadores estavam contidos neste arquivo. Por meio do id foi possível recuperar especificamente os dados desejados, conforme apresentado na Figura 2. Destaca-se que foi utilizada a ferramenta onlinehttps://hoppscotch.io/ com o método GET e o resultado foi salvo no computador por meio da opção “Fazer download do arquivo”.
No endpoint Localidades por agregado (AG1) foram recuperadas todas as localidades conforme o nível repassado. A API possui os seguintes parâmetros: N1- Brasil; N2- Grande região (N, NE, SE, S, CO); N3- Unidade da Federação (estados); N6- Município; N7- Região metropolitana; N8- Mesorregião geográfica; N9- Microrregião geográfica. O tamanho do arquivo é variável, já que depende do parâmetro repassado. Como exemplo, a Figura 3 apresenta parte do resultado recuperado pelo endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/1705/localidades/N7%7CN6, no qual foram recuperadas nove regiões metropolitanas e dois municípios.
No endpoint Metadados (AG2) foram recuperados os metadados existentes para a pesquisa agregada repassada. O exemplo utilizado para teste foi o agregado 1501: https://servicodados.ibge.gov.br/api/v3/agregados/1501/metadados, conforme apresentado na Figura 4, onde foram recuperados os metadados: "id", "nome", "URL", "pesquisa", "assunto", "periodicidade", "frequencia", "inicio", "fim", "nivelTerritorial", "Administrativo", "Especial", "IBGE", sendo alguns caracterizados como subclasses da periodicidade e do nível territorial. O tamanho do arquivo é variável, mas este exemplo retornou 201 linhas.
No endpoint Períodos por agregado (AG3) foram recuperados os períodos disponíveis para os conjuntos de dados indicados. O tamanho do arquivo é variável, já que depende do parâmetro repassado. O exemplo utilizado recuperou os períodos para o agregado 1501, com o endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/1501/periodos. Parte do arquivo foi apresentado na Figura 5. Para a pesquisa em questão foi possível identificar que a periodicidade é anual.
No endpoint Variáveis por agregado, períodos pesquisados e identificador da variável (AG4) foi possível recuperar os dados conforme as variáveis, ou filtros, disponibilizados para cada conjunto de dados agregados. No primeiro endpoint que considera variáveis por agregado, períodos pesquisados e o identificador da variável foi repassada a variável: localidades brasileiras, por meio do endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/1705/periodos/-6/variaveis?localidades=BR. Parte do arquivo recuperado foi apresentado na Figura 6, onde são exibidas algumas classificações, a localidade e as séries disponibilizadas.
No segundo endpoint de AG4, variáveis por agregado e identificador da variável, foi repassada a variável: 214 e o ano 1982 para o agregado 1712 no endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/1712/variaveis/214%7C1982?localidades=BR. A Figura 7 apresenta os resultados recuperados com a identificação das classificações.
Por fim, após identificar todas as “possibilidades” de coleta e recuperação na API foi executada uma pesquisa com todos os parâmetros disponíveis para a pesquisa agregada: Densidade Demográfica. O conjunto de dados recuperado apresenta em detalhes a pesquisa: Censo Demográfico e o agregado: 1298 - Densidade demográfica nos Censos Demográficos. A única variável disponível para esta pesquisa era a 614 - Densidade demográfica. O período selecionado foi 2010, o último disponibilizado, e a localidade considerada foram todas as unidades da federação, resultando no seguinte endpoint: https://servicodados.ibge.gov.br/api/v3/agregados/1298/periodos/2010/variaveis/614?localidades=N3[all].
A partir desta consulta foram retornados todos os dados sobre a densidade demográfica por unidade da federação. O escopo da pesquisa foi definido como o Censo Demográfico e a granularidade as unidades da federação (N3). O arquivo retornou 365 linhas e parte do mesmo é apresentado na Figura 8.
Todos os arquivos recuperados nas coletas realizadas foram disponibilizados no repositório desta pesquisa no MENDELEY DATA com o identificador DOI: 10.17632/K52XMPCFX7.1 (Silva, 2023SILVA, P. API IBGE Dados Agregados. Mendeley Data, v2, 2023, DOI: 10.17632/k52xmpcfx7.2. Disponível em: https://doi.org/10.17632/K52XMPCFX7.1. Acesso em: 28 out. 2023.
https://doi.org/10.17632/K52XMPCFX7.1...
). Durante este estudo o serviço da API não apresentou erros ou indisponibilidades e as rotas estavam em conformidade com a documentação disponibilizada para a API.
AGRADECIMENTOS
Universidade Federal de Minas Gerais
REFERÊNCIAS
- BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. Porto Alegre: Bookman, 2013.
- BRASIL. Lei nº 12.527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5o, no inciso II do § 3o do art. 37 e no § 2o do art. 216 da Constituição Federal; altera a Lei no 8.112, de 11 de dezembro de 1990; revoga a Lei no 11.111, de 5 de maio de 2005, e dispositivos da Lei no 8.159, de 8 de janeiro de 1991; e dá outras providências. Brasília, DF: Presidência da República 2011. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm Acesso em: 28 jul. 2023.
» http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm - BRASIL. Decreto Nº 8.777, de 11 de maio de 2016. Institui a Política de Dados Abertos do Poder Executivo federal. Disponível em: https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm Acesso em: 28 jul. 2023.
» https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2016/decreto/d8777.htm - INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). O IBGE. 2023. Disponível em: https://www.ibge.gov.br/pt/inicio.html Acesso em: 28 jul. 2023.
» https://www.ibge.gov.br/pt/inicio.html - SILVA, P. N. Acesso à informação no Brasil: política de dados governamentais abertos. In: GERALDES, E. et al. (org.). Dez anos da lei de acesso à informação: limites, perspectivas e desafios. São Paulo: INTERCOM, 2022a. p. 748. Disponível em: http://www.portcom.intercom.org.br/ebooks/arquivos/livro_dalai_digital_final_17.05.2022.pdf Acesso em: 28 out. 2023.
» http://www.portcom.intercom.org.br/ebooks/arquivos/livro_dalai_digital_final_17.05.2022.pdf - SILVA, P. N. Recuperação de dados em APIs: uma experiência prática no Twitter. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 22., 2022, Porto Alegre. Anais [...]. Porto Alegre: Ancib, 2022b. Disponível em: https://ancib.org/enancib/index.php/enancib/xxiienancib/paper/viewFile/1007/728 Acesso em: 28 out. 2023.
» https://ancib.org/enancib/index.php/enancib/xxiienancib/paper/viewFile/1007/728 - SILVA, P. API IBGE Dados Agregados. Mendeley Data, v2, 2023, DOI: 10.17632/k52xmpcfx7.2. Disponível em: https://doi.org/10.17632/K52XMPCFX7.1 Acesso em: 28 out. 2023.
» https://doi.org/10.17632/k52xmpcfx7.2» https://doi.org/10.17632/K52XMPCFX7.1 - SAUDATE, Alexandre. APIs REST: seus serviços prontos para o mundo real. [S.l.]: Casa do Código, 2021.
-
1
Disponível em: https://www.ibge.gov.br/pt/inicio.html
-
2
Disponível em: https://www.google.com.br/
-
3
Disponível em: https://hoppscotch.io/
-
A lista completa com informações dos autores está no final do artigo
-
FINANCIAMENTO
Universidade Federal de Minas Gerais - Projeto: 30201*42 -
CONSENTIMENTO DE USO DE IMAGEM
Não se aplica. -
APROVAÇÃO DE COMITÊ DE ÉTICA EM PESQUISA
Não se aplica. -
PUBLISHER
Universidade Federal de Santa Catarina. Programa de Pós-graduação em Ciência da Informação. Publicação no Portal de Periódicos UFSC. As ideias expressadas neste artigo são de responsabilidade de seus autores, não representando, necessariamente, a opinião dos editores ou da universidade.
Editado por
EDITORES
Datas de Publicação
-
Publicação nesta coleção
08 Abr 2024 -
Data do Fascículo
2024
Histórico
-
Recebido
07 Set 2023 -
Aceito
10 Out 2023 -
Publicado
29 Jan 2024