Open-access INTEGRAÇÃO DE DADOS DE IMAGENS ORBITAIS DE ALTA RESOLUÇÃO E ALS PARA DETECÇÃO SEMI-AUTOMÁTICA DE EDIFICAÇÕES EM ÁREAS URBANAS

Data integration of high resolution orbital image and airborne LiDAR system for semi-automatic buildings detection in urban areas

Resumo:

Atualmente, sensores de alta resolução espacial e radiométrica adquirem imagens onde feições terrestres são representadas por pixels de resolução espacial submétrica. Aliado a isto, o ALS (Airborne LiDAR System) - tecnologia de Sensoriamento Remoto ativo de varredura a laser acoplada em aeronaves - é capaz de coletar dados de altimetria de milhares de coordenadas de pontos na superfície terrestre. A integração destas tecnologias é desejada, pois geram dados complementares. Este artigo apresenta uma metodologia para detecção de edificações em ambiente urbano, utilizando imagem GeoEye(r) e dados ALS, baseada na segmentação de objetos, e submetidos a um processo de classificação baseada em árvores de decisão. Os dados adquiridos pelo ALS permitem gerar o MDS (Modelo Digital de Superfície), o MDT (Modelo Digital de Terreno) e o MDSn (Modelo Digital de Terreno normalizado) da área de estudo. Com o MDS e a imagem GeoEye, fez-se a ortorretificação da imagem, a qual, junto com o MDSn, foi segmentada pela ação do segmentador FLSA (Full-Lambda Schedule Algorithm). Amostras representativas das classes de interesse, foram usadas para treinar o processo de classificação, com a finalidade de criar regras de decisão. Os experimentos realizados buscaram verificar os atributos mais importantes para a detecção de edificações

Palavras-chave: Integração de Dados; Alta Resolução; GeoEye; ALS

Abstract:

Currently, the high spatial and radiometric resolution sensors are able to acquire images where features on the surface are represented by submeter pixels. Along with, the ALS ( Airborne LiDAR System, an active remote sensing technology embedded in aircrafts ( is able of collecting elevation data from thousands of coordinate points on the Earth's surface. This integration is desirable, because it can generate complementary or additional data. Therefore, this research presents a methodology to detect buildings in an urban area, using a GeoEye(r) image and ALS data, based on an object-based analysis and classification rules generated by decision trees. The ALS data enable the production of the digital models, such as the DSM (Digital Surface Model), DTM (Digital Terrain Model) and NDSM (Normalized Digital Terrain Model). The image was orthorectified by means of the DSM, and the image segmentation process relied on the NDSM using the so-called FLSA (Full Lambda Schedule Algorithm). Representative samples of the classes of interest were used to train the classification process, set parameters and create the decision rules. After training, the complete dataset was subjected to a classification process. The experiments sought to verify which attributes most contributed to building detection

Keywords: Data Integration; High resolution; GeoEye; ALS

1. Introdução

O planejamento urbano sustentável necessita de informações georreferenciadas atualizadas e confiáveis. Uma das bases do planejamento urbano consiste em mapear as edificações, possibilitando, dentre outras atividades, o adequado uso do solo, a quantificação das áreas impermeáveis e permeáveis, e o estudo do crescimento urbano. As tecnologias de Sensoriamento Remoto, como imagens de alta resolução e levantamentos por varredura a laser, se apresentam como uma fonte de obtenção de dados em grande quantidade e tempo reduzido, se comparadas às técnicas tradicionais de levantamento de pontos tridimensionais em campo. Como exemplo, pode-se citar os sensores de alta resolução bem como o Laser Scanner Aerotransportado ( Airborne Laser Scanning (ALS).

A resolução espacial tem relação com a área no terreno representada por um pixel da imagem, de modo que, quanto menor a área representada, maior a resolução espacial. Atualmente, os sensores de alta resolução espacial geram imagens com pixels que representam áreas de 50 cm x 50 cm do terreno. Se antes havia imagens cujos pixels englobavam mais de uma edificação, nas imagens de alta resolução têm-se edificações englobando vários pixels.

O Laser Scanner, cuja tecnologia de imageamento é conhecida por LiDAR (Light Detection and Ranging), consiste em um sistema de Sensoriamento Remoto ativo que permite a obtenção das coordenadas de diversos pontos sobre uma superfície, de modo bastante rápido, utilizando-se da emissão de feixes LASER (Light Amplification by Stimulated Emission of Radiation) direcionados por um sistema de varredura óptico-mecânico na direção de alvos desejados (Flood e Gutelius, 1997). O ALS permite obter valores representativos da altura dos objetos, atingindo exatidão de 15 cm a 25 cm, com voos a altitudes entre 1.200 m e 2.000 m (Optech, 2002).

As novas tecnologias trouxeram grande incentivo à utilização de dados e imagens orbitais para mapeamentos e, no âmbito urbano, trouxeram também novos desafios tecnológicos. O mapeamento das edificações de modo tradicional constitui um serviço oneroso e, portanto, procura-se desenvolver métodos capazes de agilizar esta tarefa. A automação dos métodos de detecção de edificações em ambiente urbano se faz importante e tem motivado várias pesquisas no meio acadêmico.

Diante do exposto, este trabalho apresenta uma metodologia para identificação de edificações em ambiente urbano, a partir de imagem de alta resolução GeoEye(r) e dados ALS, por meio de segmentação de imagens e classificação com base em regras geradas por árvores de decisão. Através da metodologia proposta, procura-se determinar quais os atributos mais importantes para a detecção de edificações.

2. Fundamentação teórica e estado da arte

A classificação de imagens realiza a identificação das feições nela presentes, de acordo com o objetivo proposto. Para a classificação digital de imagens, duas abordagens podem ser utilizadas: classificação com base no pixel ou classificação com base nos objetos da segmentação (Richards e Jia, 2006).

A classificação com base no pixel é realizada a partir dos valores digitais individuais de cada pixel, determinando a relação entre estes valores e as feições mapeadas. Este tipo de classificação mostra-se limitada ao lidar com imagens de cenas muito heterogêneas e grande quantidade de classes (Schiewe, Tufte e Ehlers, 2001). Isso ocorre em cenas urbanas, onde há variação espectral nas feições, variação de tamanhos e formas, e muitas classes. Analisando apenas os valores de pixels - critérios espectrais - pode ser muito difícil distinguir algumas feições. Como exemplo, cita-se o comportamento espectral de telhados de fibrocimento e de piso cimentados, que apresentam diversas tonalidades da cor cinza, podendo até mesmo apresentar tonalidades iguais. Uma forma de superar tais limitações é a classificação com base em objetos.

A classificação baseada em objeto consiste inicialmente em delimitar regiões ou segmentos - agrupamentos de pixels - com homogeneidade espectral, os quais serão posteriormente rotulados, isto é, associados à classes de interesse. Para se determinar estas regiões, a imagem é submetida a um processo de segmentação. Cada segmento é caracterizado por um conjunto de atributos espectrais, de forma (ou espaciais), e de textura. Assim, mais do que a informação espectral, a análise com base no objeto por meio da segmentação da imagem fornece outras informações que participam do processo de classificação.

Uma tecnologia que contribuiu muito para a classificação automática de feições é o imageamento por laser scanner, tanto terrestre quanto aerotransportado. Utiliza uma fonte Laser para escanear feições e, por diferença de fase, obtém informações de distância entre o emissor e a superfície da feição. A técnica utiliza um equipamento LiDAR acoplado a aeronaves ‒ aviões ou helicópteros ‒, bem como equipamentos de posicionamento DGPS (Differential Global Positioning System) e de medição de aceleração e rotação IMU (Inertial Measurement Unit). Pode ser utilizado durante o dia ou a noite, sendo uma grande vantagem sobre outros métodos de levantamento (Vosselman e Mass, 2010).

A combinação de informações espectrais e demais atributos, bem como a integração com dados LiDAR, pode ser realizada com o uso de árvores de decisão. A classificação por meio de árvores de decisão, além de permitir a integração de dados de diferentes fontes, não se baseia em uma distribuição estatística dos dados.

Diversas pesquisas foram realizadas visando detectar edificações, fazendo uso da combinação de dados de diversas fontes (como dados espectrais e de forma, dados LiDAR, fotografias aéreas, dados disponíveis em SIG, etc.), ou dados de fontes isoladas. Dentre tais pesquisas, podem-se citar: as que utilizam apenas dados espectrais (Huang e Jensen, 1997; Lee, Shan e Bethel, 2003; Shan e Lee, 2005; Alves et al., 2009; Amorim, Camargo e Miyashita, 2010; Dahiya, Garg e Jat, 2013; Ghaffarian e Ghaffarian, 2014); as que utilizavam apenas dados LiDAR (Ekhtari et al., 2008; Galvanin, Dal Poz e Souza, 2008; Gutierrez, Seco e Santos, 2009); as que utilizam apenas dados espectrais e de forma (Jin e Davis, 2005); e as que utilizam dados combinados (Guo e Yasuoka, 2002; Schenk e Csatho, 2002; Rottensteiner et al, 2005; Machado e Mitishita, 2006; Sohn e Dowman, 2007; Matikainen, Kaartinen e Hyyppä, 2007; Dal Poz et al, 2009; Matikainen et al., 2010; Awrangjeb, Ravanbakhsh e Frase, 2010; Usar e Yastikli, 2013; Jabari e Zhang, 2014).

As pesquisas que fizeram uso de dados combinados obtiveram melhores resultados, obtendo maior acurácia na detecção de edificações. Informações de altimetria obtidas com os dados LiDAR mostraram-se muito úteis na detecção de edificações, entretanto é necessário se ter mais informações que contribuam para a melhor acurácia na detecção de edificações, tais como os atributos descritores de objetos resultantes da segmentação de imagens. Mas, dentre tantos atributos que descrevem os segmentos, resta identificar quais são aqueles que mais contribuem na detecção de edificações.

Diante disso, este trabalho visa verificar quais atributos descritores são mais importantes para detectar edificações. Para tal, utiliza-se de dados LiDAR e dados de imagem fusionada multiespectral GeoEye, bem como de método de segmentação, classificação supervisionada e árvore de decisão.

3. Dados e área de estudo

Foi utilizada uma imagem GeoEye(r) e dados laser ALS (Airborne Laser Scanner). A imagem GeoEye(r), nas bandas B, G, R, e NIR, foi previamente orientada, fusionada (pan-sharpened), e corrigida radiometricamente (nível de processamento Geo), com resolução espacial de 50cm e resolução radiométrica de 11 bits. O referencial geodésico adotado foi o WGS-84 e a projeção cartográfica foi a UTM, fuso 22, banda J. Os dados ALS - fornecidos pelo LACTEC - foram coletados com modelo ALTM 2050, em voo a 1.000 m de altura, densidade média de 1,1 pontos/m², aquisição de primeiro e último pulso, no referencial geodésico WGS-84 e projeção UTM, fuso 22, banda J.

Os dados são de uma área de densa urbanização, com edificações de baixa altura, próximas entre si, na cidade de Curitiba-PR, Brasil. A área de estudo foi chamada de imagem teste e, a partir desta, foi extraída uma imagem menor chamada imagem base (ver Figura 1). Da imagem base, foram coletadas amostras das classes de interesse, visando gerar regras de classificação. A imagem teste foi utilizada para aplicar as regras.

Figura 1:
Imagem teste (maior, à esquerda) e imagem base (menor, à direita).

Para avaliar quantitativamente os resultados, fez-se manualmente a vetorização dos contornos das edificações. A vetorização considerou quatro tipos de cobertura de edificações: (1) Telha Cerâmica Escura; (2) Telha Cerâmica Clara; (3) Telha de Fibrocimento Escuro, e (4) Telha de Fibrocimento Claro. A Figura 2 mostra a vetorização da imagem teste.

Figura 2:
Vetorização da imagem teste.

4. Metodologia

A metodologia proposta divide-se em quatro etapas, conforme a Figura 3.

Figura 3:
Etapas da Metodologia.

As etapas são:

  1. 1º) MDS, MDT e MDSn: geração do MDS, do MDT e do MDSn;

  2. 2º) Ortorretificação: geração da imagem ortorretificada;

  3. 3º) Fase de Treinamento: segmentação da imagem base e coleta de amostras, seguido da geração de regras de classificação;

  4. 4º) Classificação: segmentação da imagem ortorretificada inteira, seguido da aplicação das regras sobre os segmentos desta imagem.

4.1. MDS, MDT e MDSn

Inicialmente, os dados ALS foram projetados em uma grade regular bidimensional, formando o MDS. Esta grade foi gerada adequando-se à resolução espacial da imagem GeoEye(r) (50 cm). Como os pontos ALS estavam espaçados, em média, a cada 98 cm, o MDS apresentou diversos reticulados da grade sem associação com algum ponto levantado pelo ALS. Esses reticulados vazios foram preenchidos por meio de uma interpolação.

Essa interpolação atuou somente nos elementos de grade vazios do MDS, mantendo aqueles que já haviam sido preenchidos inalterados. Para se fazer esta interpolação, utilizou-se uma janela 3x3, a qual, quando centrada em elemento vazio da grade, visita cada um dos vizinhos adjacentes no próprio MDS. Esta mesma operação é feita, correspondentemente, nos pixels da imagem-intensidade, pois valores de brilho associados com esses pixels fornecem dados complementares para melhor decidir sobre um valor mais apropriado para preencher o reticulado vazio do MDS.

Com a janela centrada em um reticulado vazio do MDS, duas operações são realizadas:

  1. 1ª) são verificadas as quatro direções ─ Norte-Sul, Leste-Oeste, Sudoeste-Nordeste e Sudeste-Noroeste ─ e o reticulado vazio é preenchido com um valor que atende à seguinte condição: se, na direção avaliada, os valores dos vizinhos visitados têm diferença de altura menor que 1 metro e, na imagem radiométrica, a correspondente diferença de valores de intensidade é menor que 30, então o reticulado vazio do MDS é preenchido com a média dos valores da vizinhança nesta direção;

  2. 2ª) do contrário, o reticulado vazio é preenchido com o menor valor da vizinhança.

A operação morfológica de fechamento, que consiste na operação de dilatação seguida da operação de erosão (Gonzales e Woods, 2000), foi aplicada sobre a grade do MDS, já contendo os resultados da interpolação, com o objetivo de preencher as áreas de oclusão, pois, se preenchidas apenas com valores interpolados, gerariam superfícies inclinadas inexistentes. Além disso, a operação de fechamento suaviza as bordas das edificações. O fechamento foi feito por meio de um elemento estruturante quadrado de tamanho 3 x 3, plano e simétrico. A operação de fechamento pode fazer com que algumas bordas sejam eliminadas, entretanto este processo não insere novas bordas e não promove o deslocamento das bordas remanescentes.

Observou-se que alguns pontos coletados pelo ALS pertenciam a feições como a rede elétrica urbana ou muros, gerando pixels com valores altos no MDS. Tais pontos alteram os valores dos atributos de média de altura do MDSn e valor máximo de altura de alguns segmentos. No processo de segmentação, estes segmentos podem ser erroneamente inseridos como pertencentes a um objeto de interesse. No entanto, esses segmentos têm áreas pequenas e foram removidos pelo filtro morfológico de abertura (erosão seguida de dilatação), com um elemento estruturante em cruz de tamanho 5 x 5, plano e simétrico.

Para gerar o MDT, fez-se a filtragem dos pontos ALS por meio de um filtro morfológico progressivo, chamado Progressive Morphological Filter, desenvolvido por Zhang et al. (2003), e implementado no programa ALDPAT (Airborne LiDAR Data Processing and Analysis Tools), versão 1.0. De posse dos pontos pertencentes ao terreno, gerou-se o MDT no programa ENVI, projetando-se os pontos em uma grade de 50 cm de resolução.

O MDSn é um modelo digital resultante da subtração do MDS pelo MDT, onde se têm apenas feições acima do solo com valores altimétricos significativos.

4.2. Ortorretificação

O processo de ortorretificação da imagem foi realizado por meio da aplicação da Transformação Projetiva e de uma reamostragem com interpolação bilinear, implementadas em um programa desenvolvido no MATLAB.

Os pontos de controle (PCs) e pontos de verificação (PVs) foram distribuídos sobre toda a imagem, de modo mais uniforme possível. Foram coletadas as coordenadas (C, L) dos pontos no espaço-imagem, e as coordenadas (X, Y, Z) dos pontos homólogos no espaço-objeto (MDS), utilizadas na matriz da Equação 1.

A solução do sistema de equações (Equação 1) fornece os valores dos parâmetros ( a1, a2 , a3 , a4 , b1 , b2 , b3 , b4 , c1 , c2 , c3 , c4 , d1 , d2 , d3 ( que relacionam o espaço-objeto com o espaço-imagem. Construiu-se a imagem ortorretificada por meio de um mapeamento inverso e de uma reamostragem dos valores dos pixels (Figura 4). Para avaliar o resultado, calculou-se a raiz quadrada do erro médio quadrático (root mean square error - RMSE) dos deslocamentos dos pontos de verificação.

Figura 4:
Mapeamento inverso e reamostragem.

4.3. Segmentação e Construção das Regras

Nesta etapa, adicionou-se o MDSn como quinto conjunto de dados, além das quatro bandas de imagens radiométricas R, G, B, e NIR.

A segmentação de imagens digitais é feita por meio de algoritmos desenvolvidos para este fim. Um desses algoritmos é o FLSA (Full Lambda-Schedule Algorithm), criado por Robinson, Redding e Crisp (2002) - com base no trabalho de Koepfler, Lopes e Morel (1994) - para ser utilizado em imagens SAR (Syntetic Aperture Radar), entretanto possui aplicabilidade geral (Crisp, Perry e Redding, 2003). Trata-se de um algoritmo iterativo, multi-escala, com abordagem de detecção de bordas e posterior fusão de regiões. O FLSA divide a imagem em regiões Oi, para depois fundir regiões conexas, quando o valor do custo de fusão (c) superar um limite estabelecido para o parâmetro de escala (λlimite). O valor calculado para o custo de fusão considera variáveis espectrais e espaciais. Este valor será maior quanto mais heterogêneos e maiores forem os segmentos, e será menor quanto maior for a fronteira entre estes segmentos. Segmentos com menor diferença espectral e menores áreas são mais fáceis de fundir, conforme Equação 2

em que c(Oi ,Oj ) é o custo de fusão para unir as regiões conexas Oi e Oj;|Oi | é a área da região i da imagem; |Oj | é a área da região j da imagem; ui é o valor espectral médio da região i; uj = valor espectral médio da região j; || ui - uj ||2 é a distância euclidiana entre valores espectrais das regiões i e j; e l (∂(Oi, Oj )) é o comprimento da fronteira entre Oi e Oj.

O algoritmo segue um cronograma chamado λ-schedule, de ordem crescente de valor de custo de fusão, o qual verifica, dentre toda a vizinhança do segmento, qual a fusão de menor custo a ser executada. Segundo Robinson, Redding e Crisp (2002), o algoritmo full λ-schedule compreende os seguintes passos: (1) primeiramente, toma a imagem em sua segmentação trivial, quando cada pixel é uma região; (2) de todos os pares de regiões da vizinhança, encontra o par (Oi, Oj) com menor custo de fusão c; (3) funde as regiões Oi e Oj para formar a região Oij; (4) repete os passos 2 e 3 até que haja apenas uma região, ou até que c (Oi, Oj) > λlimite para todos os pares.

No programa Envi EX, utilizado nos experimentos realizados para este artigo, este algoritmo foi implementado de modo a realizar a segmentação em duas etapas, parametrizado por dois índices percentuais: Scale Level (SL) e Merge Level (ML). O Scale Level realiza a segmentação em si, e o Merge Level refina os segmentos. Definindo-se valores altos para SL, formam-se segmentos maiores, mas em menor quantidade, gerando uma segmentação mais grosseira. Valores baixos de SL formam segmentos menores, em maior quantidade, podendo gerar uma supersegmentação.

Os valores de SL e ML foram escolhidos visando segmentar as edificações de modo que cada edificação fosse envolvida por apenas um segmento. Tal condição é desejada, de modo a possibilitar a caracterização da forma das feições. Assim, tendo sido as feições delineadas pelo segmento, torna-se possível para o computador identificar esses segmentos por meio das suas respectivas formas geométricas, de maneira similar a um analista humano. Primeiramente, segmentou-se a imagem base com o intuito de que, com apenas essa segmentação, fosse possível definir regras a serem aplicadas sobre a segmentação da imagem teste, verificando-se a capacidade de generalização da regra. Aplicou-se o segmentador FLSA nesse conjunto de dados, procurando-se obter uma segmentação na qual cada edificação constituísse um único segmento, em detrimento das demais feições. Assim, empiricamente, definiram-se os valores dos índices SL(Scale Level) e ML (Merge Level) do segmentador FLSA mais adequados, visando circunscrever cada uma das edificações em segmentos individualizados.

Realizada a segmentação e definidas as classes relevantes para o processo de classificação, foram selecionadas amostras de segmentos representativos de cada classe. Procurou-se selecionar os segmentos mais puros possíveis em cada classe, evitando-se segmentos mistos, isto é, aqueles contendo duas ou mais classes.

Após a coleta das amostras, fez-se uso do algoritmo J48, disponibilizado na plataforma Weka (Waikato Environment for Knowledge Analysis). O algoritmo J48 utiliza a abordagem chamada "dividir para conquistar", na qual as amostras são subdivididas em amostras menores, a partir de um valor de algum atributo que gere maior ganho de informação possível. O maior ganho de informação possível ocorre com o valor de algum atributo que torna a subamostra mais pura possível, isto é, com a maior quantidade de elementos pertencentes a uma mesma classe. Este procedimento é repetido diversas vezes, subdividindo as amostras até o momento em que não haja mais ganho de informação suficiente para uma nova subdivisão. O J48 é um aperfeiçoamento do algoritmo C4.5. Devido ao fato de as amostras serem pequenas, foi utilizado o critério de validação cruzada chamado "10-fold cross validation" (Witten e Frank, 2005).

As regras foram definidas na árvore de decisão gerada pelo Weka. As regras definidas a partir da imagem base foram aplicadas na segmentação da imagem teste, promovendo a classificação dos segmentos de acordo com as classes de interesse.

4.4. Classificação

Cada regra foi aplicada sobre a segmentação da imagem teste. O resultado é a rotulação dos segmentos detectados. Sobrepondo-se a base vetorizada aos segmentos detectados com a aplicação das regras, é possível quantificar os resultados. Uma regra que tenha sido criada para detectar edificações com telhado cerâmico pode ter seus resultados avaliados quanto ao número de ocorrências nesta classe (acertos), bem como quanto ao número de ocorrências em outras classes (erros).

Para avaliar a acurácia dos resultados, fez-se uso de índices de acurácia utilizados em Pouliot et al (2002), em que a avaliação da acurácia da detecção de edificações foi feita por meio de dois índices: AI(accuracy index) e GA (global accuracy). O AI é o índice de acurácia por classe, conforme descrito na Equação 3.

em que i especifica uma classe; N é o total de edificações vetorizadas da classe; O representa os erros de omissão, e C representa os erros de inclusão. Já o índice GA é calculado pela divisão do total de edificações corretamente classificadas pelo total de edificações da base vetorizada.

5. Resultados

5.1. MDS, MDT e MDSn

O MDT, Figura 5a, foi obtido utilizando o filtro morfológico progressivo ( chamado Progressive Morphological Filter (Zhang et al, 2003) ( do programa ALDPAT. Já o MDSn, Figura 5b, foi obtido após realizarem-se os seguintes procedimentos: (1) projeção dos pontos ALS em grade regular com reticulado de 50cm; (2) interpolação para preencher os reticulados vazios; (3) operação morfológica com aplicação de filtros de fechamento e de abertura para eliminar valores anômalos (outliers), preencher pontos do reticulado em oclusão e suavizar o MDS e, por fim, (4) subtração do MDS pelo MDT.

Figura 5:
MDT e MDSn, respectivamente.

A filtragem morfológica de abertura realizada no MDS não conseguiu eliminar todos os pontos outliers com valores locais elevados, mas diminuiu a frequência de ocorrência destes. Espera-se com essa diminuição que esses pontos outliersremanescentes exerçam pouca influência no valor médio de altura da vizinhança da região. No entanto, esses pontos podem alterar significativamente o valor de altura máxima dessa vizinhança. A utilização do filtro morfológico progressivo para filtrar o MDT obteve bom resultado, visto que desconsiderou pontos pertencentes às edificações e permitiu obter o MDSn.

5.2. Ortorretificação

Foram coletados 14 pontos de controle (PCs) e 8 pontos de verificação (PVs) devidamente distribuídos sobre a imagem GeoEye (espaço-imagem) e sobre o MDS (espaço-objeto), conforme se observa na Figura 6.

Figura 6:
Pontos de Controle (PCs) e Pontos de Verificação (PVs).

O valor de RMSE de 1,05 pixels (0,53 m) dos pontos de verificação atesta o resultado da ortorretificação. Desta forma, os erros ocasionados pelas distorções da imagem foram reduzidos, permitindo que a imagem e o MDSn se registrassem com precisão, o que é fundamental para a segmentação.

5.3. Segmentação FLSA

A abordagem da classificação baseada em objeto opera sobre regiões da imagem, obtidas com uso de métodos de segmentação. Para se obter um melhor desempenho, o ideal é realizar uma segmentação em que cada segmento corresponda a uma feição única, sem misturas e sem supersegmentação.

Essa condição é muito difícil de ser alcançada em um ambiente urbano, onde existem feições muito diversificadas, tanto espectralmente quanto geometricamente. Dessa forma, a segmentação das imagens (Figura 7) gerou segmentos em três situações: (1) individualizando perfeitamente uma determinada feição, sem misturas; (2) unindo mais de uma feição, da mesma classe (sem mistura, em um único segmento) ou de diferentes classes (com mistura); (3) subdividindo uma feição em mais de um segmento representando uma única feição. Exceto a primeira situação (ideal), as duas últimas impõem dificuldades ao processo de classificação. Em segmentos contendo mais de uma feição de uma mesma classe, a classificação ainda pode ser feita corretamente, uma vez que não há mistura espectral significativa. No entanto, por se tratar de edificações, convém que essa união não ocorra, pois cada uma delas constitui uma unidade independente. Quando o segmento engloba feições de classes diferentes, a classificação fica comprometida devido à mistura espectral, dificultando tanto a sua identificação quanto a escolha deste segmento como amostra da classe. Isto ocorre em feições distintas, que estejam próximas e sejam espectralmente similares (por exemplo, telhado cerâmico escuro e árvore). O MDSn ajuda a evitar tais misturas, mas nos casos onde tais feições possuam alturas parecidas, os segmentos podem ser similares também quanto ao MDSn. Quando há mais de um segmento representando uma mesma feição, garante-se a pureza espectral do segmento, mas compromete-se a forma da feição.

Ocorre subsegmentação nas seguintes situações: telhados de duas ou mais águas, por diferença na incidência de luz solar; telhados arquitetonicamente mais complexos, tendo diversas águas ou estruturas diferenciadas, como trapeiras; telhados de materiais diferentes em uma mesma edificação; telhados construídos em épocas distintas (um telhado mais novo é mais claro que um telhado mais antigo).

Figura 7:
Segmentação sobre a imagem base (SL=66 e ML=70).

5.4. Aplicação das Regras

Com a imagem GeoEye ortorretificada e composta de cinco bandas - MDSn, B, G, R, NIR - foram realizados três experimentos, mostrados na Tabela 1. Os experimentos diferem quanto à divisão das classes de edificação.

Tabela 1:
Experimentos.

Foram considerados 43 atributos: 42 calculados na segmentação, mais o atributo Classe, inserido pela escolha de amostras. A Figura 8 mostra a coleta das amostras do Experimento A, com 4 classes de edificação. Para o Experimento B, não há distinção de tonalidade de telhado, apenas entre Cerâmico e Fibrocimento. Para o Experimento C, há apenas uma classe para todas as edificações.

Figura 8:
Amostras para as classes de interesse.

A Tabela 2 mostra um exemplo de parte de uma tabela de regras. São três colunas: a primeira, "Regra", mostra o número da regra; a segunda, "Descrição da Regra", mostra a regra escrita; e a terceira, "Weka", mostra por meio de dois valores (acertos/erros) o desempenho da regra na classificação realizada sobre as amostras.

Tabela 2:
Exemplo de tabela de regras.

A Figura 9 mostra um exemplo de aplicação das regras sobre a segmentação da imagem teste. A aplicação das regras foi feita no programa gvSIG, pesquisando os atributos dos segmentos que atendiam a cada regra. Os segmentos encontrados são preenchidos na cor verde. Sobre estes, foram postas as camadas referentes às edificações da base vetorizada, de modo a quantificar os resultados.

Ao se aplicar a regra na segmentação da imagem teste, ocorre que em algumas edificações não há o preenchimento total do segmento representado na base vetorizada. Isto se deve aos seguintes motivos: (1) subjetividade da definição de tonalidade, pois a definição de tonalidade clara ou escura é subjetiva, a critério da percepção do analista, sendo conflitante com a realidade quantitativa computada; e (2) regras complementares referentes a uma mesma classe, pois se gera mais de uma regra para uma mesma classe, podendo uma determinada regra detectar parte de um telhado, e outra regra da mesma classe detectar outra parte. Isso ocorre devido à incidência solar e a conservação dos telhados, bem como pelo fato de que, durante a vetorização das edificações, cada edificação é representada por apenas um segmento, não se distinguindo a tonalidade do telhado, mas apenas o material; (3) erros de classificação (inclusão/omissão), quando a regra não atende à classe.

Figura 9:
Exemplo do resultado da aplicação das regras.

Considerou-se como edificação detectada aquela em que mais da metade do segmento tenha sido preenchido. Isso não impede que, ao se realizar a contagem das edificações, não ocorra uma sobreposição de resultados quando uma mesma edificação é contabilizada em mais de uma regra. Indica-se também o número de edificações em que houve detecção parcial, sendo que tais valores são mostrados entre parênteses nas tabelas de resultados, mas não são considerados nos cálculos de acurácia dos resultados. Como exemplo, na Tabela 3, na regra nº 3, nota-se que foram identificadas 145 edificações da classe Cerâmica Escura, sendo que 11 edificações foram detectadas com 50% de preenchimento. Maiores explicações sobre esta tabela encontram-se em Silva (2011).

Tabela 3:
Exemplo de quantificação dos resultados.

Para o Experimento A, foram calculados quatro índices: AICer. clara, AICer. escura, AIFib. clara, AIFib. escura. Para o Experimento B, dois índices: AICeramica, AIFibrocimento. Já o Experimento C tem apenas um índice, AIEdificação, sendo que neste experimento AI tem o mesmo valor que AG.

5.4.1. Experimento A

Este experimento foi realizado considerando quatro tipos de telhado: Telha de Fibrocimento Claro, Telha de Fibrocimento Escuro, Telha Cerâmica Clara, Telha Cerâmica Escura. Algumas das 12 regras geradas são mostradas na Tabela 4.

Tabela 4:
Regras referentes a edificações no Experimento A.

A Figura 10mostra a aplicação da Regra 3, que foi gerada para detectar telhado de cerâmica escura. Esta regra detectou 145 edificações com telhado de cerâmica escura, mas detectou erroneamente uma edificação com telhado de cerâmica clara e 17 edificações com telhado de fibrocimento escuro. Nenhuma edificação com telhado de fibrocimento claro foi detectada.

Figura 10:
Aplicação da regra 3 do Experimento A.

A Tabela 5quantifica os resultados da aplicação de todas as regras.

Tabela 5:
Resultados do Experimento A.

a) Análise dos resultados do Experimento A

Foram geradas 12 regras para edificações. A árvore de decisão considerou a média de altura dos segmentos, extraída a partir do MDSn, dividindo os segmentos entre aqueles de feições maiores que 208,37 cm - acima do solo - e menores que 208,37 cm - no nível do solo. Na subdivisão das amostras acima do solo, há ainda outra divisão entre feições mais altas e menos altas que 1.052,33 cm, pois na amostra havia árvores altas e prédios altos com telhado de fibrocimento claro.

O atributo de média na banda do vermelho separou feições escuras de Sombra e Fundo, de feições menos escuras como Asfalto, Pavimento e Gramado. Através do NDVI, fez-se a divisão entre Gramado e Pav. Cimentado. A textura média na banda do azul foi utilizada para separar amostras de telhados, mas sem prover uma divisão de tipos específicos de telhados. A entropia de textura em B também foi utilizada, mas apenas separou edificações altas com telhado de fibrocimento claro de árvores, também altas.

Há mais de uma regra para cada uma das classes de telhado. As regras 3, 4, 9 e 10 obtiveram mais acertos para as classes Telha Cerâmica Escura, Telha de Fibrocimento Escuro, Telha Cerâmica Clara e Telha de Fibrocimento Claro, respectivamente. Apenas uma das regras considerou um atributo de forma - a solidez - enquanto as demais apenas consideram atributos espectrais. Ainda assim, a solidez não separou uma classe específica, mas apenas alguns segmentos da classe Telha Cerâmica Escura. Este atributo esteve presente nas regras 7 e 8, ambas com menor número de acertos.

As Regras 1 e 2 diferem-se pelo atributo de área, mas ambas conduzem à classe de Telha Cerâmica Escura. Isso caracterizou outra particularidade da amostra e não distinguiu classes.

Os atributos de forma só foram utilizados após várias subdivisões. Isto mostra que tais atributos só propiciaram maior ganho de informação em amostras pequenas, ou seja, apenas quando havia poucos segmentos na amostra é que houve alguma padronização de modo a possibilitar um ganho significativo. Ainda assim, não propiciou a distinção de classes. Da mesma forma, foram utilizados os atributos de área e comprimento do perímetro, mas estes não foram capazes de fazer divisões importantes. O comprimento do perímetro distinguiu segmentos de Sombra e de Árvore, mas tal separação é condizente com atributos espectrais e só ocorreu devido à particularidade da amostra.

5.4.2. Experimento B

Este experimento considerou dois tipos de telhado: Telhado Cerâmico e Telhado de Fibrocimento. Algumas das nove regras geradas são mostradas na Tabela 6.

Tabela 6:
Regras referentes à edificação no Experimento B.

A Figura 11mostra a aplicação da Regra 5, que foi gerada para detectar telhado de cerâmica. Esta regra detectou 227 edificações com telhado de cerâmica escura, mas detectou erroneamente 32 edificações com telhado de fibrocimento.

Figura 11:
Aplicação da regra 5 do Experimento B.

A Tabela 7quantifica os resultados da aplicação de todas as regras.

Tabela 7:
Resultados do Experimento B.

a) Análise dos resultados do Experimento B

O Experimento B possui apenas a distinção de classe de Telhas de Fibrocimento e Telhado Cerâmico, sem distinção de tonalidade clara ou escura, e gerou uma árvore com 9 regras para edificações. Também teve a árvore de decisão se iniciando pelo MDSn com o valor de 208,37 cm - as amostras eram as mesmas -, que separou as feições acima do solo das feições no nível do solo. Nas feições acima do solo, encontram-se as regras para as edificações e, dentre estas, destaca-se a Regra 5 para Telha Cerâmica, bem como as Regras 4 e 8 para Telha de Fibrocimento, pois estas obtiveram maior número de acertos. Em nenhuma das regras há a consideração de atributos de forma, apenas atributos espectrais.

5.4.3. Experimento C

Este experimento considera apenas a classe Edificação. A única regra gerada pela árvore de decisão é mostrada na Tabela 8, a seguir.

Tabela 8:
Regra referente à edificação no Experimento C.

A Figura 12mostra a aplicação da única regra gerada para detectar edificações. Observa-se que esta regra detectou 585 edificações.

Figura 12:
Aplicação da regra única do Experimento C

A Tabela 9quantifica os resultados da aplicação da regra.

Tabela 9:
Resultados do Experimento C.

a) Análise dos resultados do Experimento C

O Experimento C apresentou a menor árvore de decisão, mas foi mais eficiente. Observa-se que apenas o MDSn e a média na banda R conduzem à classe Edificação, e o resultado da aplicação desta regra identificou 585 edificações dentre as 596 existentes. O MDSn separou as feições no nível do solo de feições acima do solo. A média da banda R, nas feições acima do solo, separou as edificações das árvores e sombras. Nenhum atributo de textura ou de forma foi considerado.

5.5. Índices de Acurácia dos Experimentos

A Figura 13 apresenta gráficos relativos aos índices de acurácia dos experimentos. Verifica-se que quanto maior o número de classes de objetos, menor o valor do índice de acurácia. Assim, no Experimento A, com quatro classes, tem-se os menores índices de acurácia, entre 40% e 60%; no Experimento B, com duas classes, tem-se valores mais elevados para os índices, entre 70% e 75%; e no Experimento C, com apenas uma classe, tem-se os maiores valores, atingindo 98%.

Figura 13:
Índices de acurácia dos Experimentos A, B e C.

Assim, o maior número de classes implicou em um decréscimo nos valores dos índices de acurácia. Isso ocorreu devido a maior quantidade de classes impõe maiores desafios ao classificador, o qual não se mostra totalmente eficaz na diferenciação das mesmas, fato que é agravado pela insuficiência de dados de entrada capazes de diferenciar os alvos entre si.

6. Conclusões

A seguir, são mostradas as conclusões deste trabalho.

A integração de dados de levantamentos ALS e dados de imagens de alta resolução foi importante em três momentos: 1º) ao realizar a ortorretificação da imagem, através do uso do MDS gerado com dados ALS; 2º) ao auxiliar o segmentador por meio do MDSn, que, inserido como uma banda da imagem, melhorou a segmentação das edificações; e 3º) ao realizar a classificação dos segmentos, onde o MDSn forneceu o atributo mais significativo.

Os atributos mais significativos foram a altura no MDSn, Média na Banda B, Média na Banda R, Média na Banda NIR e o NDVI, todos espectrais. O MDSn, mesmo tendo significado físico de altura, pode ser considerado atributo espectral, pois relaciona a maior altura ao maior valor de DN do pixel.

Os atributos de textura se mostraram significativos no Experimento B, onde se utilizou atributo de textura da média na banda B. Assim, tais atributos não podem ser considerados não-significativos.

Os atributos de forma foram considerados após várias partições na amostra, após outros atributos espectrais terem sido utilizados primeiramente para formar a regra. Somente após várias partições da amostra é que foi possível se obter uma maior razão de ganho de informação com os atributos de forma.

Retangularidade é um atributo característico de edificações, facilmente percebida pelo ser humano, que identifica esta forma de modo amplo, sem considerar reentrâncias ou saliências. Tais detalhes alteram os valores dos atributos. No programa utilizado, existem atributos de forma implementados para verificar a forma quadrada ou retangular dos segmentos - tais como Retangularidade, Fator de forma, e Compacidade - mas tais atributos não se fizeram importantes para caracterizar uma edificação e fazer parte das regras de detecção de edificações.

Imagens urbanas apresentam edificações de diversas formas e tamanhos, e isto é um obstáculo à utilização dos atributos de forma como atributos capazes de identificar um grande número de edificações. Esta característica dificulta a segmentação, logo dificulta a análise baseada em objeto.

A maior quantidade de classes implicou em um decréscimo nos valores dos índices de acurácia, pois a maior quantidade de classes impõe maiores desafios ao classificador.

AGRADECIMENTOS

À CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - pelo apoio financeiro, que permitiu a realização deste trabalho

REFERÊNCIAS BIBLIOGRÁFICAS

  • Amorim, A.; Camargo, P. O.; Miyashita, P. M. Avaliação do potencial das imagens Quickbird ortorretificadas para o mapeamento das propriedades localizadas na área de expansão e vazios urbanos. Boletim de Ciências Geodésicas, Curitiba, v.16, n.3, pp. 456-474, 2010.
  • Alves, C. D.; Pereira, M. N.; Florenzano, T. G.; Souza, I. M. Análise Orientada a Objeto no Mapeamento de Áreas Urbanas com Imagens Landsat., Boletim de Ciências Geodésicas Curitiba, v.15, n.1, pp.120-141, 2009.
  • Awrangjeb, M.; Ravanbakhsh, M.; Frase, C. S. Automatic detection of residential buildings using LIDAR data and multispectral imagery. ISPRS Journal of Photogrammetry and Remote Sensing, v.65, p.457 - 467, Sep. 2010.
  • Crisp, D. J.; Perry, P.; Redding, N. J. Fast segmentation of large images. In: Australasian computer science conference, Proceedings of the 26th Australasian Computer Science Conference, v. 16. Adelaide, Australia: Australian Computer Society, pp. 87 - 93, 2003.
  • Dal Poz, A. P.; Habib, A. F.; Marcato, V. J.; Correia, L. S. Uso de dados fotogramétricos no refinamento geométrico de contornos de telhados de edifícios extraídos de dados laser., Boletim de Ciências Geodésicas Curitiba, v.15, n.4, pp.594-614, 2009.
  • Dahiya, S.; Garg, P. K.; Jat, M. K. Building Extraction from High Resolution Satellite Images. International Journal of Computing Science and Communication Technologies, v.5, n. 2, Jan. 2013.
  • Ekhtari, M. R.; Sahebi, M .J.; Valadan Z.; Mohammadzadeh, A. "Automatic building detection from LIDAR point cloud data", The International Archive of the Photogrammetry, Remote Sensing and Spatial Information Sciences. Vol. XXXVII. Part B4. Beijing 2008.
  • Flood, M.; Gutelius, B. Commercial implications of topographic terrain mapping using scanning airborne laser radar. Photogrammetric Engineering and Remote Sensing, v. 63, pp. 327-329, 1997.
  • Galvanin, E. A. S.; Dal Poz, A. P.; Souza, A. D. P. Extração automática de contornos de telhados usando dados de varredura a laser e campos randômicos de Markov., Boletim de Ciências Geodésicas Curitiba, v.14, n.2, pp.221-241, 2008.
  • Ghaffarian, S.; Ghaffarian, S. Automatic building detection based on supervised classification using high resolution google earth images. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XL-3, 2014 ISPRS Technical Commission III Symposium, Zurich, Switzerland, 5 - 7 September, 2014.
  • Gonzalez, R. C.; Woods, R. Processamento de imagens digitais. 2. ed. São Paulo: Ed. Edgard Blüchner Ltda., 2000.
  • Guo, T.; Yasuoka, Y. Snake-based approach for building extraction from high-resolution satellite images and height data in urban areas. Proceedings of the 23rd Asian Conference on Remote Sensing, p. 25-29, Kathmandu, 2002.
  • Gutierrez, J. G.; Seco, L. G.; Santos, J. C. R. Decision tree on LiDAR to classify land uses and covers. In: Laser Scanning, 2009, The International Archives of the Photogrammetry, v. XXXVIII, part 3/W8. pp. 323-329, Paris, France, Sep. 2009.
  • Huang, X. Q.; Jensen, J. R. A machine-learning approach to automated knowledge-base building for remote sensing image analysis with GIS data. Photogrammetric Engineering and Remote Sensing63:1185-94, 1997.
  • Jabari, S.; Zhang, Y. Building detection in very high resolution satellite image using HIS model. Proceedings of ASPRS 2014 Annual Conference, Louisville, Kentucky, March 23-28, 2014.
  • Jin, X.; Davis, C. H. Automated building extraction from high-resolution satellite imagery in urban areas using structural, contextual, and spectral information. Journal on Applied Signal Processing, v.14, pp. 2196-2206, 2005.
  • Koepfler G.; Lopez, C.; Morel, J. M. A multiscale algorithm for image segmentation by variational method. SIAM Journal of Numerical Analysis, v. 31, n.1, p. 282-299, 1994.
  • Lee, D. S.; Shan, J.; Bethel, J. S. Class-guided building extraction from Ikonos imagery. Photogrammetric Engineering & Remote Sensing. v.69, n.2, pp.143-150, 2003.
  • Machado, A. M. L.; Mitishita E. A. Detecção automática de contornos de edificações utilizando imagem gerada por câmara digital de pequeno formato e dados lidar., Boletim de Ciências Geodésicas Curitiba, v.12, n.2, pp. 215-233, 2006.
  • Matikainen, L.; Hyyppä, J.; Ahokas, E.; Markelin, L.; Kaartinen, H. Automatic detection of buildings and changes in buildings for updating of maps. Remote Sens. p.1217-1248, 2010.
  • Matikainen, L.; Kaartinen, H.; Hyyppä. Classification tree based building detection from laserscanner and aerial image data. In: Proceedings of the ISPRS Workshop Laser Scanning 2007, Espoo, Finland: P. Rönnholm, H. Hyyppä, J. Hyyppä, v.XXXVI, p. 280-287, Sep. 2007.
  • Optech. Airborne Laser Terrain Mapper - ALTM 2050 Specifications - Toronto, Canada, 2002.
  • Pouliot, D. A.; King, D. J.; Bell, F. W.; Pitt D. G. Automated tree crown detection and delineation in high-resolution digital camera imagery of coniferous forest regeneration Remote Sensing of Environment. v. 82, n. 2-3, p. 322 - 334, Ed. Elsevier, New York, 2002.
  • Richards, J. A.; Jia, X. Remote Sensing Digital Image Analysis - An Introduction. 4. ed. Germany: Ed. Springer, 2006.
  • Robinson, D. J.; Redding, N. J.; Crisp, D. J. Implementation of a fast algorithm for segmenting SAR imagery. Australia: DSTO, Electronics and Surveillance Research laboratory, DSTO-TR-1242, Jan 2002.
  • Rottensteiner, F.; Trinder, J.; Clode, S.; Kubik, K. Using the Dempster-Shafer method for the fusion of LIDAR data and multi-spectral images for building detection. Information Fusion, Volume 6, Issue 4, pp 283 - 300, December 2005.
  • Schenk, T.; Csatho, B. Fusion of LiDAR data and aerial imagery for a more complete surface description. International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, v.34 (Part 3), pp. 310 - 317, 2002.
  • Schiewe, J.; Tufte, L.; Ehlers, M. Potential and problems of multi-scale segmentation methods in remote sensing. GeoBIT/GIS n.6, p.34-39, 2001.
  • Shan, J.; Lee, S. D. Quality of building extraction from IKONOS imagery. Journal of Surveying Engineering, v. 131, n. 1, p. 27-32, Feb. 2005.
  • Sohn, G.; Dowman, I. Data fusion of high-resolution satellite imagery and LiDAR data for automatic building extraction. Journal of, Photogrammetric Engineering & Remote Sensing v. 62, n. 1, p. 43-63, Feb. 2007.
  • Silva, F. M. M. Integração de dados de imagens orbitais de alta resolução e ALS para detecção semi-automática de edificações em áreas urbanas.181p. Dissertação (Mestrado em Ciências Geodésicas) - Setor de Ciências da Terra, Universidade Federal do Paraná, Curitiba, 2011.
  • Usar, M.; Yastikli, N. Automatic building extraction using Lidar and aerial photographs., Boletim de Ciências Geodésicas Curitiba, v.19, n.2, pp. 153-171, 2013.
  • Vosselman, G.; Mass, H. Airborne and Terrestrial Laser Scanning. Whittles Publishing, Scotland, UK, 2010.
  • Zhang, K.; Chen, S.; Whitman, D.; Shyu, M.; Yan, J.; Zhang, C. A Progressive Morphological Filter for Removing Nonground Measurements from Airborne LIDAR Data. IEEE Transactions on Geoscience and Remote Sensing, 41(4): 872-882, 2003.
  • Witten, I. H.; Frank, E. Data Mining: Pratical Machine learning tools and techniques. San Francisco: Ed. Elsevier, 2005

Datas de Publicação

  • Publicação nesta coleção
    Set 2015

Histórico

  • Recebido
    Jul 2014
  • Aceito
    Maio 2015
location_on
Universidade Federal do Paraná Centro Politécnico, Jardim das Américas, 81531-990 Curitiba - Paraná - Brasil, Tel./Fax: (55 41) 3361-3637 - Curitiba - PR - Brazil
E-mail: bcg_editor@ufpr.br
rss_feed Acompanhe os números deste periódico no seu leitor de RSS
Acessibilidade / Reportar erro