Open-access Correção de dados agrometeorológicos utilizando métodos estatísticos

Agrometeorological data correction using statistical methods

Resumos

A análise de dados climáticos fornece suporte para a previsão de fenômenos, para a avaliação de dados históricos e para a tomada de decisões, em especial na área agrícola. Garantir a sua qualidade é fundamental. O processo de coleta dos dados, através das estações meteorológicas, pode apresentar problemas, onde inconsistências podem ocorrer. Este artigo apresenta uma abordagem para solução do problema, utilizando técnicas estatísticas e geoestatísticas, na identificação de dados inconsistentes e na estimativa de dados a serem corrigidos ou preenchidos. A implementação destas técnicas, em um banco de dados espacial, apresentou-se como um facilitador na identificação e no preenchimento de dados. Para avaliação destas técnicas foram utilizados dados de temperatura coletadas por estações meteorológicas localizadas no Estado do Paraná. Como resultado, as técnicas de identificação de erros mostraram-se adequadas na consistência de erros básicos e históricos. A validação espacial apresentou baixo desempenho por superestimar a quantidade de dados incorretos. As técnicas utilizadas na estimativa dos dados, Krigagem, Inverso da Distância e Regressão Linear, apresentaram desempenho semelhantes com relação à análise dos erros.

preenchimento de falhas; dados meteorológicos; estatística; geoestatística; controle de qualidade de dados; banco de dados espacial


Climatic data values have become very important to predict climate phenomena or to evaluate historical data which give support for decision makers, especially in agriculture. To ensure the quality of these data is crucial. In the process of collecting data at meteorological stations, some errors may occur and data inconsistencies be generated. This paper presents an approach that uses statistical and geostatistical techniques to identify incorrect and suspicious data and estimate new values to fill gaps and errors. In this research, a spatial database was used to implement these techniques (statistical and geostatistical) and to test and evaluate the climatic data. To evaluate these techniques temperature data set provided by meteorological stations located in Paraná State, were used. As a result, these techniques have proved to be suitable to identify basic errors and historical errors. The spatial validation showed a poor performance by overestimating the amount of incorrect data. Kriging, Inverse of Distance Weighting and Linear Regression estimation techniques showed similar performance in the present error analysis.

gap �filling; meteorological data; statistics; geostatistics; data quality control; spatial database


ARTIGOS

Ricardo Kazuo BabaI; Maria Salete Marcon Gomes VazII; Jéssica da CostaIII

IUniversidade Estadual de Ponta Grossa (UFPG), Ponta Grossa, PR, Brasil. ricardo.baba@gmail.com

IIUniversidade Estadual de Ponta Grossa (UFPG), Ponta Grossa, PR, Brasil. salete@uepg.br

IIIUniversidade Estadual de Ponta Grossa (UFPG), Ponta Grossa, PR, Brasil. jeska22@hotmail.com

RESUMO

A análise de dados climáticos fornece suporte para a previsão de fenômenos, para a avaliação de dados históricos e para a tomada de decisões, em especial na área agrícola. Garantir a sua qualidade é fundamental. O processo de coleta dos dados, através das estações meteorológicas, pode apresentar problemas, onde inconsistências podem ocorrer. Este artigo apresenta uma abordagem para solução do problema, utilizando técnicas estatísticas e geoestatísticas, na identificação de dados inconsistentes e na estimativa de dados a serem corrigidos ou preenchidos. A implementação destas técnicas, em um banco de dados espacial, apresentou-se como um facilitador na identificação e no preenchimento de dados. Para avaliação destas técnicas foram utilizados dados de temperatura coletadas por estações meteorológicas localizadas no Estado do Paraná. Como resultado, as técnicas de identificação de erros mostraram-se adequadas na consistência de erros básicos e históricos. A validação espacial apresentou baixo desempenho por superestimar a quantidade de dados incorretos. As técnicas utilizadas na estimativa dos dados, Krigagem, Inverso da Distância e Regressão Linear, apresentaram desempenho semelhantes com relação à análise dos erros.

Palavras-chave: preenchimento de falhas; dados meteorológicos; estatística; geoestatística; controle de qualidade de dados; banco de dados espacial.

ABSTRACT

Climatic data values have become very important to predict climate phenomena or to evaluate historical data which give support for decision makers, especially in agriculture. To ensure the quality of these data is crucial. In the process of collecting data at meteorological stations, some errors may occur and data inconsistencies be generated. This paper presents an approach that uses statistical and geostatistical techniques to identify incorrect and suspicious data and estimate new values to fill gaps and errors. In this research, a spatial database was used to implement these techniques (statistical and geostatistical) and to test and evaluate the climatic data. To evaluate these techniques temperature data set provided by meteorological stations located in Paraná State, were used. As a result, these techniques have proved to be suitable to identify basic errors and historical errors. The spatial validation showed a poor performance by overestimating the amount of incorrect data. Kriging, Inverse of Distance Weighting and Linear Regression estimation techniques showed similar performance in the present error analysis.

Keywords: gap filling; meteorological data; statistics; geostatistics; data quality control; spatial database.

1. INTRODUÇÃO

Para toda e qualquer instituição, os dados representam as informações em suas áreas de atuação. De posse dessas informações, considerados como patrimônio das organizações, é possível analisar e tomar decisões. Sob esse ponto de vista, os dados climáticos são vitais na agricultura, pois servem de base para aperfeiçoar processos de manejo ou mesmo para verificar a viabilidade do plantio de determinadas culturas. Estes dados podem dar suporte na predição de doenças e pragas relacionadas a algumas culturas, servindo de base para sistemas de alertas de doenças (Trentin et. al., 2009).

Os dados climáticos, geralmente, são obtidos de forma automática por meio de estações meteorológicas. Essas coletam informações a partir de vários sensores, 24 horas por dia, em intervalos de tempo variados, gerando uma grande quantidade de dados.

Quando a leitura dos dados climáticos não é realizada de maneira automática, é necessário que um observador anote as medidas captadas pelos equipamentos. No entanto, problemas diversos podem ocorrer e impedir que o observador realize alguma leitura dos equipamentos, em determinado horário do dia, provocando falhas nos registros dos dados (Ventura, 2012).

Uma vez de posse destes dados, os mesmos devem ser analisados, e caso sejam identificados erros ou falhas, esses devem ser corrigidos da forma mais rápida e consistente possível. Segundo Tsukahara et al. (2010), a ausência de registros meteorológicos é um problema frequente na maioria das séries climatológicas brasileiras. Existem vários fatores que podem influenciar na ausência ou no erro de dados de uma estação meteorológica, dentre elas as falhas nos sensores, a calibração dos equipamentos, as falhas nas transmissões dos dados (telemetria), a manutenção nos sistema e a intervenção de agentes externos.

As ausências ou inconsistências podem gerar dificuldades, dúvidas ou imprecisão na análise dos dados. Atualmente, vários métodos estão sendo estudados com o intuito de obter maior acurácia nas estimativas de dados ausentes ou falhos. Dentre eles podem ser citados os métodos baseados em estatística e geoestatística (Botelho et al, 2005; Nogueira e Amaral, 2009, Souza et al, 2011; Viola et al. , 2010) e, também, os métodos baseados em Inteligência Artificial (Tsukahara et al, 2010; Ventura, 2012).

Com o intuito de estimar valores mais próximos do valor real, uma das alternativas é a automação mediante sistemas computacionais, apoiada em estatística, para auxiliar na identificação dos erros e na estimativa de valores no preenchimento das falhas.

O objetivo deste artigo é apresentar uma metodologia para automatizar e dar suporte na identificação e correção de dados meteorológicos inconsistentes, utilizando técnicas estatísticas e um banco de dados espacial.

2. MATERIAIS E MÉTODOS

A necessidade de correção de dados meteorológicos se deve a ausência ou inconsistência dos dados. A metodologia proposta consiste em obter dados coletados das estações meteorológicas, inseri-los em um banco de dados com capacidade espacial, e aplicar uma série de técnicas para validação e identificação de erros, e estimar os valores, utilizando técnicas estatísticas e geoestatísticas, e analisando os resultados obtidos.

Para a realização dos testes foi utilizado um conjunto de dados meteorológicos, cedidos pela Fundação ABC, referentes a um período de 11 anos (1999 a 2010) de observações. Para esta pesquisa, a amostragem utilizada foi de 60 estações meteorológicas.

Estas estações coletam dados tais como: temperatura do ar, umidade relativa, precipitação, velocidade do vento, radiação solar, dentre outras variáveis climáticas. A periodicidade de coleta desses dados é realizada de uma em uma hora. A variável utilizada nos testes foi a temperatura, evitando assim repetições de testes com a mesma técnica.

A partir dos dados meteorológicos disponibilizados, por meio de arquivos texto, os mesmos foram importados em um banco de dados DB2 Express-C (IBM, 2011), que além de tratar de forma eficiente os dados convencionais (alfanuméricos), possui uma extensão de tratamento de dados espacial (Spatial Extender), a qual integrada com seus recursos nativos de programação (functions e store procedures), permitiu realizar testes de validação e estimativa.

A utilização de um Sistema Gerenciador de Banco de Dados, com suporte a recursos espaciais, facilitou e agilizou a identificação da distância e posição de cada estação meteorológica, com base na posição de suas coordenadas, além de permitir o armazenamento dos demais dados tratados.

A metodologia desta pesquisa, para a identificação dos erros e falhas de dados, utiliza um conjunto de regras de validação, que iniciam com validações simples de restrição de valores, até verificações mais complexas com base nas informações geradas, pelas estações vizinhas, no mesmo período de tempo (Figura 1).


A princípio, as etapas de validação e consistência alertaram a entrada de dados incorretos, ajudando na identificação de dados suspeitos, aprimorando a qualidade dos mesmos.

O sistema de controle de qualidade e validação de dados, aqui proposto, teve como principal objetivo identificar dados incorretos e dados suspeitos de estarem com problemas. Esta etapa é fundamental para o aprimoramento dos dados armazenados, ficando de fora os dados ausentes, visto que são facilmente identificáveis. Este sistema está dividido em 3 partes, validação básica, validação temporal e validação espacial.

2.1 Validação Básica

A validação básica verifica a ocorrência de dados inconsistentes. Geralmente, esses dados são aqueles gerados por erros de leituras dos sensores, com problemas de calibração ou com defeitos. A validação básica é subdividida em validação de limites, lógica e por período.

• Validação de limites: verifica se os valores a serem analisados respeitam condições básicas da variável representada, ou seja, se ela representa um valor fisicamente possível de ser obtido. Sob este ponto de vista, os dados válidos podem ser restritos dentro de um limite de valores possíveis. Por exemplo, a umidade relativa do ar deve estar em um intervalo de dados de 0% a 100%, e a temperatura deve estar em um intervalo de -30⁰C e +50⁰C. Qualquer valor fora do intervalo estaria incorreto, pois representaria um valor impossível para a variável em questão.

• Validação lógica: muitos dos registros das estações meteorológicas registram dados médios, máximos e mínimos referentes ao intervalo de tempo do monitoramento. Estes dados devem respeitar suas condições lógicas básicas. Por exemplo, a temperatura média de um período não pode ser maior que a temperatura máxima ou menor que a temperatura mínima deste mesmo período. Nesse caso, a Regra Tempmínima< Tempmédia< Tempmáxima deve ser respeitada.

• Validação de limites do período: identifica valores suspeitos de erros, com base na comparação dos valores de um intervalo específico. Verifica se os mesmos apresentam condições físicas passíveis de ocorrer. Por exemplo, a diferença de temperatura máxima permitida para um determinado horário de 10⁰C, na equação Tempmáxima- Tempmínima< 10oC. Mesmo assim, qualquer situação que não respeite esta regra não deve ser descartada, mas sim apresentada como um dado suspeito de conter falhas, visto que variações extremas de mudanças de tempo são passíveis de acontecer. Nesta pesquisa, além da verificação entre os períodos horários, foi realizada verificação com a diferença de temperatura do dia, não ultrapassando 25oC.

2.2 Validação Temporal

A validação temporal avalia o comportamento histórico da variável, ao longo das medições passadas, baseada em sua série temporal, pois é necessário verificar se essa informação é consistente conforme o período de geração. Por exemplo, alguns fenômenos relacionados ao clima, geralmente, seguem certos padrões, como os relacionados à temperatura. Durante o verão são registradas as temperaturas mais altas do ano, assim como no inverno existe a tendência de serem registradas as temperaturas mais baixas. Com base nesta premissa, é necessário verificar se o valor gerado pela estação é compatível aos valores daquele período. Por exemplo, valores próximos de 0⁰C (zero) no verão, possivelmente, representam uma informação incorreta, assim como valores muito elevados no inverno, acima de 25⁰C ou 30⁰C podem indicar problemas de leitura.

Esta validação não alerta a presença de valores incorretos, mas sim de valores com suspeita de erros, visto que fenômenos atípicos e quebras de recordes históricos podem ocorrer. Para esse caso foi utilizada a técnica proposta por Mateo e Leung (2010) para avaliação do aspecto temporal da variável. Esta técnica segue os seguintes passos:

• Verificação dos valores do dia anterior. Caso a medição seja feita várias vezes no dia, são utilizados valores do dia anterior para o mesmo horário;

• Verificação dos dados do dia seguinte. Da mesma forma que a verificação anterior, deve-se respeitar a unidade de coleta dos dados.

• Verificação dos dados referentes aos três dias (anterior, corrente, posterior), dos anos anteriores.

De posse dos valores históricos da estação, é verificado por meio do cálculo do escore Z (Equação 1), o quanto o valor analisado se comporta, quando comparado com os demais, no mesmo período.

O escore Z avalia quantas vezes o valor analisado se afastou do desvio padrão, a partir da média da amostragem. Por exemplo, supondo que a média do período seja 20⁰C, o desvio padrão seja 2⁰C e o valor a ser avaliado seja 24⁰C, de acordo com a equação do escore Z, tem-se um resultado de 2, significando que 24⁰C se afastou duas vezes o valor do desvio padrão (2⁰C), a partir da média 20⁰C.

Nesta pesquisa foi utilizada a variável temperatura com um valor aceitável, para o escore Z, de 3. Esse valor de escore foi igual ao proposto por Mateo e Leung (2010).

2.3 Validação Espacial

Diferente das duas formas de validação anteriores, as quais permitem a verificação de inconsistências de dados das estações, de forma individual, a validação espacial é aquela onde são utilizados os dados de várias estações que se encontram próximas espacialmente no sentido de vizinhança, para detectar erros ou valores suspeitos, uma vez que foi assumida o princípio de que existe uma correlação ou padrão de comportamento quanto a distribuição espacial entre as estações mais próximas.

Para fazer esta verificação foram utilizadas técnicas estatísticas, como a correlação de Pearson (Lira, 2004), para verificar quais as estações estão correlacionadas umas com as outras; a técnica de regressão linear, para efetuar as estimativas de cada estação; e de testes de intervalo de confiança, a fim de verificar quais valores são significativamente diferentes, das observações das estações vizinhas.

A primeira etapa para utilização desta técnica é a identificação das estações mais próximas. Partindo do princípio que estações mais próximas tem maior probabilidade de ter comportamentos semelhantes, com relação às variáveis tratadas, e para evitar o cálculo de correlação de forma desnecessária, entre estações distantes, restringiu-se o raio de abrangência do cálculo de correlação em 150 km.

Após a identificação das estações próximas foi utilizado o cálculo de correlação para cada par de estações, para a variável temperatura. Para gerar o coeficiente de correlação foram utilizados os registros históricos de temperatura, de cada uma das estações, limitando aquelas que possuíam informações de um mesmo período. De posse dos coeficientes de correlação, entre as estações, foi convencionada a Tabela 1 para interpretar o grau de correlação entre elas. Esta convenção é similar a proposta de Callegari-Jacques (2003), citada por Lira (2004).

Nos cálculos de validação espacial foram consideradas as estações com grau de correlação igual ou superior a 0,85, indicando uma forte correlação entre as estações. Após selecionar as estações, foi utilizada a correlação linear (Equação 2) para gerar um valor estimado para a estação, com base nos dados das estações próximas.

O cálculo da regressão foi realizado para cada uma das estações próximas. De forma similar, para cada valor estimado através da regressão linear, foi calculada a raiz do erro médio quadrático, comparada com os valores observados, conforme a Equação 3.

Finalmente, com base nos erros médios quadráticos gerados em cada uma das estações próximas, foi gerado um valor estimado para a estação sendo avaliada. Esse valor foi utilizado como variável, para ponderar o dado em questão, conforme Equação 4.

Sendo, m é o número de pares de estações; e yi,d é o dado observado na estação próxima i, em um período d.

Após estimado o valor, foi calculado o erro padrão, conforme Equação 5.

Com esses dados, foi possível verificar se o dado observado se encontra dentro de um limite de valores aceitável, caracterizando o intervalo de confiança da informação.

A Equação 6, baseada na metodologia de Mateo e Leung (2010), foi utilizada para verificar o intervalo de confiança:

Dessa forma, o valor observado xd deve estar em um intervalo de valores, baseado no valor estimado, com base em todas as estações próximas wd. Esse valor pode variar, tanto para menos, quanto para mais, baseado no erro padrão.

O valor de c é uma constante, podendo variar conforme a variável analisada. Nesta pesquisa, para a variável temperatura foi assumido o valor 4, sendo este valor um pouco menos restritivo quando comparado a proposta de Mateo e Leung (2010), utilizando o valor de 3. A constante c indica quantas vezes, além do erro padrão, será o intervalo de confiança, tanto para mais, quanto para menos. Qualquer valor que esteja fora deste limite é considerado um dado suspeito e passível de ser analisado.

2.4 Métodos de estimativa de dados

Nesta pesquisa foram utilizados dois métodos de estimativa de dados, levando em consideração o aspecto espacial. O primeiro baseado em geoestatística utilizando de krigagem, e o segundo, foi o inverso do quadrado da distância.

Os métodos utilizam a distância entre os pontos, para determinar o valor do ponderador, o qual posteriormente foi utilizado em conjunto com o valor observado nas estações, gerando o valor estimado para um determinado ponto.

De forma similar, ao realizado com a regressão linear, foi estipulado e aplicado um limite máximo de alcance em 100 km, a fim de limitar o raio de atuação para os cálculos. Como nestes dois métodos, a distância é parte fundamental do cálculo de estimativa e como estações muito distantes provavelmente pouco contribuíram ou mesmo poderiam por gerar distorções no cálculo da estimativa, fez-se necessário limitar o raio de alcance. Já no método de regressão linear, existe o índice de correlação, a qual descarta as estações com baixa correlação, do cálculo da estimativa.

3. RESULTADOS E DISCUSSÃO

Antes da aplicação das estimativas foi realizada uma avaliação dos dados da variável temperatura, para verificar a existência de problemas básicos. O total de dados avaliados aproximou-se a 4 (quatro) milhões de registros, correspondendo aos dados de 1999 a 2010, de 60 estações. Com base nos resultados, foi possível verificar a ocorrência de dados, cuja qualidade estava comprometida, não atendendo aos requisitos mínimos de qualidade impostos pela validação básica (Tabela 2). Vale ressaltar que a quantidade de erros pode aumentar significativamente, caso verificações semelhantes nas demais variáveis coletadas pelas estações (pressão, umidade relativa do ar, etc.) sejam realizadas.

Para analisar o desempenho das técnicas, foram realizados ensaios para identificar dados inconsistentes e para estimar os dados ausentes ou considerados incorretos. Os ensaios se restringiram à variável temperatura, com as seguintes estações: Curitiba, Ponta Grossa, Entre Rios, Foz do Areia, Guarapuava, Lapa, Palmas, Pinhão e União da Vitória. O período ficou restrito a novembro de 2009 (Tabela 3).

No caso dos dados com erro de valores, foi identificada a Estação Foz do Areia, onde houve ocorrência de temperatura máxima de 74,5℃. Não foi identificada ocorrência de erros de lógica nas estações. No entanto, foram detectadas falhas de dados, em especial, na Estação de União da Vitória, com cinco períodos sem dados.

Foi possível identificar a ocorrência de dados com suspeita de erros. A primeira com verificação de diferenças de temperatura, no período de uma hora, em três estações. A Estação de Pinhão apresentou uma ocorrência, com uma diferença de temperatura horária de 11,2℃, ou seja, 1,2℃ acima do limite variação de 10℃ por hora. No caso da Estação Entre Rios, foi identificado o maior número de ocorrências (7), com diferenças de temperaturas de 16,6℃ à 28,7℃.

Na Estação de Foz do Areia, a variação foi mais acentuada, de 51,7 ℃, mas essa variação é consequência do problema identificado anteriormente devido a ocorrência de um valor máximo de temperatura de 74,5℃.

Na análise de variação diária de temperatura (último item da Tabela 3), até um limite de 25℃, o registro de Foz do Areia (1), que chegou a uma variação diária de 56,4℃, consequência do valor distorcido de temperatura máxima de 74,5℃. Já as duas ocorrências de Entre Rios, também, é consequência da validação anterior, de limite horário de variação, estando entre 28,4℃ e 29,4℃. Vale ressaltar, que um mesmo dado incorreto pode gerar uma sequência de alertas de erro durante cada uma das validações, ressaltando a importância de verificações simples e básicas.

Após esta análise inicial da ocorrência de erros, a etapa seguinte envolveu a análise temporal dos dados, onde é verificada a ocorrência de dados com suspeitas de erro, baseadas na série histórica, em um determinado período.

Foram observadas, por meio do escore Z, ocorrências de desvios de valores com base na série histórica, com destaque para a Estação de Pinhão, onde se identificou os valores com os maiores desvios (acima de 4 e chegando a 7). Verificando este caso, em específico, foi constatado que o valor coletado pela estação no período, com suspeita de problemas, foi de 20,6℃, com um histórico de valores próximos de 27℃.

A etapa seguinte envolveu a validação e a estimativa de valores para as estações. Primeiro, foi gerado o valor estimado com base nas estações com maior correlação de Pearson. Em seguida, o valor estimado serviu de base para o cálculo dos valores de limites de tolerância, para comparação com o dado observado, criando uma forma de validação, através de um intervalo de confiança. A quantidade de dados identificados como suspeitos registrados pela validação espacial é apresentada na Tabela 4.

Mesmo utilizando critérios menos rigorosos para a elaboração do intervalo de confiança, o método apresentou uma taxa relativamente alta de registros considerados suspeitos. A razão deste excesso de dados suspeitos, certamente está relacionada com o método regressão linear, o qual em determinadas estações e horários, apresentou forte tendência em subestimar ou superestimar valores. Como o valor estimado pela regressão linear é o valor de referência para a geração do intervalo de confiança, o fato de subestimar ou superestimar o valor resultou em uma faixa de valores muito restritivo ou fora do ideal, gerando assim alertas de valores suspeitos.

Após a validação, foi realizada a análise comparativa dos resultados obtidos pelas estimativas de krigagem, inverso do quadrado da distância e regressão linear com os dados observados, sendo necessário agrupar os dados gerados, utilizando a média diária das temperaturas.

Os resultados da comparação destes métodos são apresentados na Figura 2, abordando o desempenho de cada técnica em 3 (três) estações analisadas.


Foi possível identificar que uma mesma técnica comporta-se de forma diferente, nas diferentes estações. Por exemplo, na estação de Palmas o método estatístico utilizando regressão linear superestimou os dados, quando comparados com os observados. Já na estação de Pinhão a tendência da mesma técnica foi subestimar os valores.

Na análise destes dados, através do Método de Krigagem (Tabela 5), foi constatado que poucas vezes houve uma distribuição equilibrada entre dados subestimados e dados superestimados. No entanto, foram observadas algumas exceções, como no caso das Estações de Curitiba (43,8% e 56,3%) e de Ponta Grossa (51,7% e 48,3%), onde houve uma melhor distribuição. Ambas as estações, apresentaram os melhores resultados com relação ao Erro Médio (EM) e a Raiz do Erro quadrático Médio (REQM), Ponta Grossa com 0,1183 e 0,5640 e Curitiba com 0,2367 e 0,4237, respectivamente. Estas foram as que tiveram maior número de estações de apoio no cálculo das estimativas (13 estações), evidenciando a importância da quantidade de amostras no cálculo das estimativas por krigagem. Já as diferenças máximas de temperaturas comparadas aos dados observados foram obtidas pela estação de Guarapuava onde o valor máximo subestimado foi de 4,57℃ e o maior valor superestimado foi de 3,38℃.

Os resultados obtidos pelo IQD (Tabela 6) foram semelhantes aos da krigagem, visto que ambos são baseados na distância, para gerar o ponderador, utilizado no cálculo da estimativa. De forma similar, este método obteve valores de EM e REQM mais baixos, nas estações com maior quantidade de dados de referência vizinha. Destaque neste resultado, para a estação de Guarapuava que apresentou um desempenho semelhante e algumas vezes até melhores, comparada a estações com maior número de amostras com relação ao EM (0,3032) e REQM (0,4919).

A aplicação do método de regressão linear (Tabela 7) apresentou, de forma geral, tendência a superestimar os valores. Este método foi o que apresentou a melhor média de REQM (1,2083) e, também, apresentou as menores variações entre o valor máximo e mínimo dos erros, superestimando em média 2,4266℃ e subestimando em média 5,140℃. Apesar, deste método, utilizar em média, um número menor de amostragem, no caso as estações de apoio (9,4 contra 10,1 no caso da krigagem e do IQD), apresentou resultados semelhantes de erros e estimativas, quando comparados aos da krigagem e do IQD.

A Tabela 8 apresenta os resultados comparativos das técnicas sob o aspecto do erro médio absoluto (EMA).

O método de regressão linear apresentou o melhor resultado (1,1274). Já a krigagem e o IQD apresentaram valores similares de erro, com uma diferença de aproximadamente 0,05. Quando comparadas ao do método de regressão linear esta diferença passa a ser de 0,20 e 0,15, respectivamente.

Analisando a questão dos erros médios, foi constatado que o inverso da distância apresentou o melhor resultado médio de erro (0,4915). Já o método de regressão linear apresentou o menor erro médio máximo (0,833) e a krigagem o menor erro médio mínimo (-1,7157).

Analisando a REQM, o melhor desempenho fica por conta do método de regressão linear que apresentou o resultado médio de 1,2083, ante 1,4466 e 1,3963 da krigagem e do IQD, respectivamente (Tabela 9).

Foi constatado um equilíbrio no desempenho dos métodos, onde cada um apresentou um resultado melhor em determinada análise. No entanto, foi possível verificar que a quantidade de amostras influi diretamente no desempenho de todos os métodos.

4. CONCLUSÕES E PERSPECTIVAS DE PESQUISAS FUTURAS

Por meio deste trabalho foi verificado que as técnicas empregadas na detecção de erros são pertinentes em estudos meteorológicos, principalmente, na identificação dos períodos onde os dados apresentavam falhas ou mesmo inconsistências.

Foi observado que mesmo com uma amostragem pequena, tanto de estações (nove) quanto de período (um mês), foi possível identificar ocorrências de erros nos dados, evidenciando a frequência que as falhas e erros ocorrem na coleta de dados. Possivelmente, caso essas técnicas fossem aplicadas a outras variáveis coletadas pelas estações, o número de ocorrência de erros seria maior.

A validação temporal foi adequada na identificação de dados, onde os valores se distanciaram da média histórica apresentada em um mesmo período.

Dentre as técnicas avaliadas, a regressão linear apresentou resultados satisfatórios, especialmente, pelo fato de ter utilizado em média um número menor de estações para estimativas. No entanto, quando utilizada esta técnica para gerar o intervalo de confiança para validar os dados observados, esta apresentou comportamento restritivo (validação espacial), ou seja, gerou intervalos de confiança, indicando a existência de dados suspeitos de erros, quando esta suspeita não se justificava.

Outro aspecto observado foi que nem sempre estações próximas umas das outras apresentam melhores índices de correlação. Avaliando melhor a razão deste comportamento, foi possível verificar que estações de uma mesma instituição apresentavam maior correlação entre elas, mesmo quando existiam estações mais próximas de instituições diferentes. Isso pode representar que cada instituição tenha seus próprios critérios de calibração dos sensores das estações.

Diferentemente das técnicas de krigagem e do inverso da distância, a regressão linear não permite estimar dados de pontos desconhecidos, visto que ela não usa o aspecto espacial nas estimativas. Já as técnicas de krigagem e inverso da distância permitem que de um determinado ponto (latitude e longitude) seja possível estimar valores, utilizando as estações mais próximas.

É importante ressaltar que o desempenho de cada uma das técnicas pode apresentar variações, se aplicadas em regiões diferentes e sob um número diferente de amostras. Neste estudo a estimativa por regressão linear apresentou ser a mais indicada quando a quantidade de dados de apoio é pequena. Já os métodos IQD e krigagem são adequados quando há quantidade maior de amostras para a estimativa dos dados.

A utilização exclusiva do banco de dados para a geração de todos os testes e dados estimados foi um aspecto relevante. O banco de dados, com capacidade de processamento espacial, é comprovadamente ferramenta eficiente, tanto para o armazenamento dos dados espaciais, quanto para seu processamento, permitindo assim a integração tanto dos dados espaciais, quanto dos dados convencionais. Por meio dele foi desnecessária a utilização de ferramentas externas para efetuar os cálculos, especialmente os de distância, visto que possui as funcionalidades.

Outro ponto que pode ser aprimorado é a combinação de variáveis das próprias estações, na validação dos dados ou na estimativa dos mesmos, verificando a correlação entre elas e utilizando esta informação como critério de validação.

Quanto às três formas de estimativa de dados, todas apresentaram desempenhos semelhantes, tanto na comparação dos resultados, quanto comparados a trabalhos, com propostas semelhantes de estimativa de dados climáticos. Entretanto, vale ressaltar que o desempenho destas técnicas está diretamente relacionado com a quantidade e a qualidade dos dados utilizados nas estimativas. Certamente, um número maior de estações contribuiria para um melhor desempenho de todas as técnicas analisadas, uma vez que todas as estimativas que utilizaram um maior número de estações apresentaram erros menores.

5. REFERÊNCIAS BIBLIOGRÁFICAS

Recebido Março de 2013

Aceito Junho de 2014

Referências bibliográficas

  • BOTELHO, M. F. et al. Comparação dos resultados de interpoladores "Vizinho mais próximo" e "Inverso de uma distância" no cálculo de volume a partir de dados do laser scanner. Anais XII Simpósio Brasileiro de Sensoriamento Remoto, Goiânia, Brasil, 16-21 abril 2005.
  • CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações Porto Alegre: Artemed, 2003. 255p.
  • IBM, DB2 Express-C. 2011. Disponível em < http://www-01.ibm.com/software/data/db2/express-c/>. Acesso em: 12 jan. 2013.
  • LIRA S. A. Análise de correlação: Abordagem Teórica e de construção dos coeficientes com aplicações. Dissertação - UFPR, 2004.
  • MATEO M. A. F.; LEUNG C. K. Design and Development of a Prototype System for Detecting Abnormal Weather Observations , ACM, 2010.
  • NOGUEIRA, J. D. L.; AMARAL, R. F. Comparação entre os métodos de interpolação (Krigagem e Topo to Raster) na elaboração da batimetria na área da folha Touros - RN. Anais XIX Simpósio Brasileiro de Sensoriamento Remoto, Natal, Brasil, 25-30 abril 2009, INPE, p. 4117-4123.
  • TRENTIN G. et. al. Controle da requeima em batata cv. 'Asterix' como base para modelos de previsão da doença. Ciência Rural, v. 39, n. 2, p. 393-399, mar-abr, 2009.
  • TSUKAHARA, R.; JENSEN, T.; CARAMORI, P. H. Utilização de Redes Neurais Artificiais para Preenchimento de Falhas em Séries Horárias de Dados Meteorológicos. XVI Congresso Brasileiro de Meteorologia, Belém, PA, 2010.
  • SOUZA J. L. L. L.; et al. Avaliação de métodos de interpolação aplicados à espacialização das chuvas no território identidade Portal do Sertão / Bahia. Anais XV Simpósio Brasileiro de Sensoriamento Remoto - SBSR, INPE, Curitiba, PR, 2011.
  • VENTURA, T. M. Preenchimento de falhas de dados micrometeorológicos utilizando técnicas de inteligência artificial Dissertação (Dissertação em Física Ambiental) - UFMT, 2012.
  • VIOLA, M. R. et. al. Métodos de interpolação espacial para o mapeamento da precipitação pluvial. Revista Brasileira de Engenharia Agrícola e Ambiental v.14, n.9, p.970 - 978, 2010.
  • Correção de dados agrometeorológicos utilizando métodos estatísticos
    Agrometeorological data correction using statistical methods
  • Datas de Publicação

    • Publicação nesta coleção
      24 Nov 2014
    • Data do Fascículo
      Dez 2014

    Histórico

    • Aceito
      Jun 2014
    • Recebido
      Mar 2013
    location_on
    Sociedade Brasileira de Meteorologia Rua. Do México - Centro - Rio de Janeiro - RJ - Brasil, +55(83)981340757 - São Paulo - SP - Brazil
    E-mail: sbmet@sbmet.org.br
    rss_feed Acompanhe os números deste periódico no seu leitor de RSS
    Acessibilidade / Reportar erro