Resumos
A identificação de uma árvore torna-se complexa quando tem-se à disposição apenas sua madeira, o que exige uma análise mais profunda para sua caracterização. Utilizando-se a espectrometria no infravermelho próximo é possível obter-se espectros com informações únicas sobre a composição química de uma amostra de madeira. Porém, a interpretação dos dados obtidos pelo espectrômetro é complexa, o que dificulta a identificação de características específicas para uma determinada espécie. Neste trabalho, com o intuito de acelerar o processo de identificação, utilizou-se um sistema embasado em Redes Neurais Artificiais para a classificação de quatro espécies mediante a análise dos espectros das suas madeiras. Foram realizados três testes para comprovar a eficiência da capacidade de reconhecimento, obtendo-se resultados promissores visto que a Rede Neural Artificial utilizada revelou-se flexível aos ruídos e distorções existentes, não exigindo que os espectros passassem por prévio tratamento estatístico ou fossem separados por grupos relativos ao tipo de corte anatômico da madeira.
Redes Neurais Artificiais; Heurística de Levenberg-Marquardt; identificação de madeira; espectrometria no infravermelho próximo
The identification of a species of tree becomes complex when it has available only your wood, which requires further analysis for their characterization. Using near infrared spectrometry is possible to obtain spectra with unique informations about the chemical composition of a sample timber. However, the interpretation of data obtained by the spectrometer is complex, making it difficult to identify characteristics specific to a particular species. In this paper, in order to speed up the identification process, we used a system based in Artificial Neural Networks for classification of four species of trees by analyzing the spectra of their timber. Three tests were performed to demonstrate the efficiency of recognition capability, the results obtained were encouraging since the neural net has proved to be flexible to noise and distortions, without requiring that the spectra were submit to prior statistical treatment or that were separated by groups relative to types of timber cut.
Artificial Neural Network; Levenberg-Marquardt heuristics; wood identification; near infrared spectroscopy
1 INTRODUÇÃO
A identificação de uma árvore é mais fácil quando se tem acesso às suas folhas, flores e frutos. No entanto, esse trabalho torna-se complexo quando tem-se à disposição apenas sua madeira, sendo necessária uma análise aprofundada para identificação dos seus padrões físicos e anatômicos. Mesmo técnicos especializados possuem dificuldades em distinguir uma madeira de outra, visto a enorme variedade de espécies existentes 1. Em geral, no processo de identificação arbórea, são analisadas as características macroscópicas (cheiro, cor, anéis de crescimento, porosidade, densidade, etc.) e microscópicas (composição dos raios, tipo e disposição das pontoações, presença de células oleíferas, espessamentos, tilos, gomas, cristais, sílica, fibras septadas, etc.) da madeira, exigindo do especialista tempo e conhecimento. Dentre as novas tecnologias que estão sendo utilizadas na identificação de madeira há a espectrometria no infravermelho próximo, a qual pode fornecer um conjunto de informações sobre o grau de absorbância para uma determinada faixa de números de onda 9. O número de onda, do inglês wavenumber, é uma unidade, em cm , amplamente utilizada em espectrometria, indicando o número de ondas em um centímetro de comprimento. A relação entre número de onda e comprimento de onda é descrita pela equação (1.1).
Onde:
λ: é o comprimento do onda;
v: é a frequência;
c: a velocidade da luz no vácuo (c = 2,997925 × 108 m.s ).
A espectrometria na região do infravermelho próximo (NIR) é uma técnica não destrutiva, devendo-se isso às vantagens como a determinação sem necessidade de tratamento da amostra, rapidez na obtenção de resultados, facilidade de transporte do instrumental, entre outras. No entanto, uma das maiores dificuldades em manipular dados espectrométricos é a capacidade de abstrair informação a partir de um grande conjunto de dados. Deve-se considerar, ao analisar essas amostras, que o espectro obtido sofre uma variação devido à posição do plano de corte da madeira em relação ao feixe incidente de radiação infravermelha. Essa distorção dos espectros deve-se à característica anisotrópica da madeira. Também existem as variações do espectro relativas aos sinais de ruído, ou seja, falhas de leitura, sujeira nas amostras, erros no processo de corte, dentre outras.
A análise multivariada aplicada em conjunto com filtros estatísticos apresenta bons resultados na manipulação destes tipos de dados, embora essa técnica seja mais demorada e exija conhecimento prévio do utilizador 7 2. Neste trabalho, com o intuito de acelerar o processo de identificação por meio da análise dos espectros, utilizou-se um sistema embasado em uma Rede Neural Artificial (RNA) com a heurística de Levenberg Marquardt.
2 REDES NEURAIS ARTIFICIAIS
Uma Rede Neural Artificial é um modelo matemático inspirado na neurobiologia, cujo objetivo é representar a cognição humana ou o neurônio biológico de forma generalizada. Considera-se generalização como o fato da RNA produzir saídas adequadas para entradas que não estavam presentes no seu treinamento (fase de aprendizagem). Sua principal propriedade é a capacidade de aprender a partir do meio e de aperfeiçoar o seu desempenho de forma ordenada, a fim de atingir um objetivo estabelecido. O processo de aprendizagem ocorre de forma iterativa e consiste nos ajustes aplicados aos pesos sinápticos e níveis de bias, que são análogos às intensidades dos sinais de sinapses dos neurônios biológicos. Esses ajustes fazem com que a rede torne-se mais instruída sobre seu ambiente após cada iteração do algoritmo de aprendizagem. De forma genérica pode-se dizer que aprendizagem é um procedimento onde os pesos e bias são adaptados através de estímulos oriundos do ambiente ao qual a rede está inserida, sendo que o tipo de aprendizagem é determinado pelo modo como ocorre a modificação desses parâmetros.
2.1 Método de Levenberg Marquardt
O método de Levenberg Marquardt consiste em alternar entre os métodos do Gradiente Descendente (estável, mas lento) e o método de Gauss-Newton (instável, mas rápido). Sua aplicação como uma heurística de Redes Neurais Artificiais foi apresentada, inicialmente, no artigo de Hagan & Menhaj (1994) 3.
Nesta pesquisa, o método de Levenberg Marquardt foi utilizado como função de treinamento para uma rede do tipo retropropagação do erro ou backpropagation.
O diagrama representado na Figura 1ilustra a arquitetura de uma RNA utilizando a heurística de Levenberg Marquardt com duas camadas, sendo o LAYER 1 a camada intermediária e o LAYER 2 a camada de saída 4.
Onde:
R: representa o conjunto dos sinais de entrada [p1, p2, . . ., pR ];
: representa o conjunto de pesos para o layer (camada) m em relação ao neurônio na posição i, com Wm = [];
: bias;
: função de ativação na camada m;
?: representa o somador.
Pode-se representar matematicamente um neurônio artificial utilizando as equações (2.1), o somador, e (2.2), a aplicação da função de ativação.
Considera-se que o sinal de entrada é multiplicado pelo peso sináptico , onde o índice i representa o neurônio recebedor da camada m e o índice j indica o neurônio fornecedor do sinal (camada m?1), resultando numa sinapse ou elo de conexão. O somador, , representa o somatório do produto entre os sinais de entrada [p1, p2, . . ., pR] e as sinapses [], adicionado ao bias. Para as camadas intermediárias os sinais de entrada serão no lugar de [p 1, p 2, . . ., pR ]. O resultado do somador tem seu valor modificado pela função de ativação, produzindo o sinal de saída do neurônio, cuja amplitude pertence, geralmente, ao intervalo unitário fechado [0,1] ou [?1,1]. Após o sinal ser transformado pela função de ativação ele é repassado como sinal de entrada para a camada seguinte, ocorrendo um novo somatório e repetindo-se o processo até que a última camada produza seu sinal de saída. O sinal fornecido pela última camada (camada de saída) é utilizado para o cálculo do sinal de erro da rede. Por meio do sinal de erro pode-se fazer o ajuste nos pesos e bias, pela retropropagação das sensibilidades de cada neurônio nas camadas escondidas. Este processo de ajuste dos pesos e bias constitui o armazenamento do aprendizado, de forma conjunta, em cada neurônio. Um neurônio individual não guarda o conhecimento adquirido todo em si, mas faz parte de uma rede envolvendo todos os neurônios com a função de reter a informação. Após o ajuste dos pesos o processo inicial deve ser repetido para um novo conjunto de informações de entrada, ocorrendo de forma iterativa objetivando-se a redução do erro. Para o método de Levenberg Marquardt, o ajuste dos pesos se dá pela equação (2.3).
Onde:
: matriz jacobiana;
μk: parâmetro adaptativo de Levenberg Marquardt;
I: matriz identidade;
(wk ): vetor de erros.
O algoritmo de Levenberg Marquardt tem uma característica especial pois quanto maior torna-se μk, mais próximo do método do Gradiente Descendente fica a equação (2.3). De modo análogo, quando μk está mais próximo de zero a equação (2.3) aproxima-se do método de Gauss-Newton 4.
3 ESPECTROMETRIA NO INFRAVERMELHO PRÓXIMO
A região do infravermelho está dentro da faixa de frequência que varia de 3(1011Hz até 4(1014Hz. Essa faixa de abrangência está abaixo da relativa à radiação eletromagnética do vermelho e em geral, pode ser dividido em quatro regiões: o infravermelho próximo (near infrared - NIR), ou seja, próximo do visível e com comprimento de onda variando entre (780-3000 nm); o infravermelho médio (intermediate/medium infrared - MIR) variando entre (3000-6000 nm); o infravermelho distante (far infrared - FIR) variando entre (6000-15000 nm); o infravermelho extremo (extreme infrared) variando entre (15000 nm-1 mm) 6. As moléculas de qualquer material, desde que sua temperatura esteja acima do zero absoluto (-273 C ou 0 Kelvin), irradia ou absorve radiação infravermelha. Pode-se afirmar que o infravermelho é emitido num espectro contínuo por corpos quentes, como: lâmpadas, aquecedores, carvão em brasa, o Sol, animais de sangue quente, etc. Para ter-se uma ideia, o corpo humano irradia infravermelho num comprimento de onda que inicia em 3000 nm com picos na vizinhança de 10.000 nm. A possibilidade de captar essa radiação é o princípio de funcionamento dos detectores de infravermelho, amplamente empregados nas áreas militares e de segurança, bem como, é a ferramenta de sobrevivência de alguns animais com atividades noturnas 6.
A espectroscopia de NIR é o estudo da interação de ondas eletromagnéticas, na faixa do infravermelho próximo, com a matéria. Técnicas espectroscópicas baseadas na interação entre luz e matéria têm sido utilizadas para estudar materiais in vivo, ex vivo ou in vitro 10. O funcionamento básico de um espectroscópio, consiste em passar um feixe de luz através de uma solução/amostra e medir a quantidade de energia radiante que foi absorvida ou refletida. O feixe de luz infravermelha produzido pela fonte é dividido em dois, sendo que um passa pela amostra a ser analisada e o outro por uma amostra de referência. A radiação incidente sobre a amostra terá uma parcela absorvida e o restante será refletido sobre uma grade de difração que os direcionará sobre o detector, fazendo com que os sinais sejam convertidos para o formato digital, possibilitando o processamento por sistemas computacionais. Os espectros resultantes fornecem um conjunto de característica que compõe uma assinatura única com importantes informações bioquímicas da amostra 6 10. A Figura 2 ilustra o esquema de funcionamento básico de um espectrômetro.
4 MATERIAIS E MÉTODOS
A arquitetura utilizada consiste de uma Rede Neural Artificial com aprendizagem do tipo backpropagation utilizando a heurística de Levenberg Marquardt para o treinamento e o método do Gradiente Descendente com Momento para a atualização dos pesos e bias. Para a implementação da rede foi utlizado o software MATLAB versão 7.10 (R2010a) com o pacote Neural Network 6.0.
A camada de entrada foi constituída por um vetor com dimensão P, pertencente ao conjunto de amostras, onde seus elementos representavam o grau de absorbância para cada um dos 1556 números de onda analisados. As entradas, valores de números de onda, pertencem ao intervalo [0,1]. A saída foi ajustada, por uma função de ativação linear, para o intervalo discreto [1,2,3 ou 4]. Devido à forma de saída escolhida, optou-se por manter uma função de ativação linear na camada de saída para todos os experimentos realizados. Outra medida importante utilizada foi a aleatorização dos dados antes da sua apresentação à rede. Recomenda-se tornar aleatória a ordem de apresentação dos exemplos de treinamento, pois isso favorece a busca estocástica dos pesos, evitando que a aprendizagem da rede fique com tendência a direcionar a resultados específicos 5. O parâmetro de performance utilizado foi o erro médio quadrático (Mean Square Error - MSE) conforme a equação (4.1).
Onde:
w: o vetor de pesos e bias;
Q: quantidade de padrões/amostras disponíveis;
tk : o valor de saída desejado para um determinado padrão;
ak : sinal de saída fornecido pela rede.
O modelo proposto possui apenas uma camada escondida, como ilustra a Figura 3.
Como o objetivo deste trabalho foi mostrar a viabilidade da aplicação de uma Rede Neural Artificial como classificador, a partir de um conjunto de dados (espectros) obtidos por espectrofotômetro, optou-se, por questão de organização e tempo, trabalhar com uma única camada escondida e variar a quantidade de neurônios existentes nesta de 1 a 15.
Os pesos e bias iniciais foram escolhidos de forma aleatória dentro do intervalo [0,1]. Dependendo dos valores aleatórios obtidos a rede pode torna-se mais ou menos eficiente em sua tarefa de classificação. Assim, optou-se por realizar 10 ensaios consecutivos para cada experimento, sendo escolhido aquele que apresentou o melhor resultado. Cada ensaio consistiu em treinar e testar a rede para um número variável de neurônios na camada escondida, indo de 1 a 15 neurônios.
Foram utilizados espectros das madeiras das espécies Canela (Nectandra spp.), Canela-Sassafrás (Ocotea odorifera), Imbuia (Ocotea porosa) e Eucalipto (Eucalyptus spp.). Esses espectros foram colhidos pelo aparelho de espectrometria no infravemelho próximo modelo BRUKER TENSOR 37, instalado no Laboratória de Anatomia da Madeira da Universidade Federal do Paraná (UFPR) no período de 2011 e 2012. Foram feitas leituras de absorbância numa faixa de números de onda entre 3996-9995 cm-1 com resolução de 4 cm-1 ( 8. A quantidade de amostras utilizadas nas etapas de treinamento e teste da Rede Neural Artificial e seus valores de referência estão descritos na Tabela 1. Os valores de referência indicam saída desejada da rede para uma determinada espécie, por exemplo: ao analisar-se os espectros relativos à uma das amostras de madeira, se a rede fornecer um valor igual ou próximo a 1 significa que a espécie analisada provavelmente é Canela.
O conjunto de treinamento utilizado continha 60% do total de amostras sendo que os 40% restantes foram utilizados na etapa de teste, com exceção feita às amostras de Canela-Sassafrás, de menor quantidade se comparado às outras, para as quais tomou-se 50% para treinamento e 50% para teste.
5 RESULTADOS E DISCUSSÃO
5.1 Primeiro experimento
Para o primeiro experimento foi treinada uma RNA com as quatro espécies, utilizando todas as amostras disponíveis conforme a Tabela 1. Nesta etapa foram utilizadas as funções de ativação tangente hiperbólica sigmoidal e logaritmica sigmoidal para a camada intermediária, não simultaneamente, e manteve-se a função de ativação linear para a camada de saída. Foram realizados dez ensaios consecutivos para cada função de ativação e calculado o erro quadrático médio para as diferentes quantidades de neurônios na camada escondida.
A Figura 4 apresenta o gráfico para os valores médios de erro nas etapas de treinamento e teste utilizando-se a função de ativação tangente hiperbólica sigmoidal. Nessa etapa, o melhor resultado ocorreu para uma rede com oito neurônios na camada oculta, obtendo-se um erro de classificação no valor de 3,384 × 10-05.
Gráfico dos erros médios nas etapas de treinamento e teste utilizando-se a função de ativação tangente hiperbólica sigmoidal.
O gráfico de dispersão para os valores de saída fornecidos pela rede na etapa de teste, para o melhor caso, é ilustrado pela Figura 5, onde a entrada representa a amostra de madeira (cada amostra contém 1556 espectros). As linhas horizontais indicam os valores de referência: 1 - Canela; 2 - Imbuia; 3 - Canela Sassafrás; 4 - Eucalipto.
Gráfico de dispersão para o melhor resultado utilizando-se a função de ativação tangente hiperbólica sigmoidal.
Utilizando a função de ativação logaritmica sigmoidal o melhor resultado ocorreu para uma rede com oito neurônios na camada oculta, obtendo-se um erro de 5,42 × 10-4. As Figuras 6 e 7 ilustram o desempenho da rede para essa função de ativação.
Gráfico dos erros médios nas etapas de treinamento e teste utilizando-se a função de ativação logaritmica sigmoidal.
Gráfico de dispersão para o melhor resultado utilizando-se a função de ativação logarítmica sigmoidal.
Comparando os resultados obtidos pelas duas funções de ativação é possível perceber que o melhor resultado foi obtido ao utilizar a função tangente hiperbólica sigmoidal, embora a rede tenha apresentando um pequeno desvio para uma das amostras de Canela-Sassafrás, Figura 5. A Tabela 2mostra a matriz de confusão para o melhor caso, considerando uma tolerância ao erro de ?2%.
Matriz de confusão para a RNA com função de ativação tangente hiperbólica sigmoidal, tolerância de ?2%.
5.2 Segundo experimento
Para efeito de comparação foram feitos testes com as combinações de três das quatros espécies utilizadas. O objetivo foi verificar se havia alguma influência de uma determinada espécie sobre às outras. A função de ativação permaneceu sendo a tangente hiperbólica sigmoidal, sendo realizados dez ensaios para cada combinação. A Tabela 3 apresenta os conjuntos de combinações das amostras utilizadas, foi mantida a mesma numeração de referência conforme o indicado na Tabela 1.
A Tabela 4 apresenta os melhores resultados obtidos nas etapas de teste para os conjuntos de combinações das espécies, bem como o número de neurônios na camada escondida onde isso ocorreu e o percentual de reconhecimento para uma tolerância de ?2%.
A Figura 8 apresenta os gráficos de dispersão para os quatro conjuntos de combinações analisados. Observa-se que não há desvios significativos das amostras, sugerindo que não há influência de uma espécie sobre a outra.
5.3 Terceiro experimento
Com o intuito de observar se havia alguma faixa de números de onda que podia ter maior relevância no processo decisório da rede neural proposta, dividiu-se o intervalo inicial, que variava de 9995-3996 cm com resolução de 4 cm , em quatro partes. Como o processo de treinamento da rede neural é demorado, optou-se por não tomar uma quantidade grande de intervalos escolhendo-se quatro faixas com a mesma quantidade de números de onda. Foram realizados dez ensaios para cada parte. A Tabela 5 ilustra os intervalos escolhidos e as quantidades de amostras para treinamento e teste permaneceram as mesmas apresentadas na Tabela 1.
A Tabela 6 apresenta os menores erros obtidos em cada uma das quatro partes, bem como a quantidade de neurônios onde isso ocorreu. Pela Figura 9 é possível observar que o erro decresce da primeira para quarta parte, indicando que a rede apresenta melhor desempenho para uma faixa de números de onda entre 5493-3996 cm .
A Figura 10 apresenta os gráficos de dispersão que resultaram nos erros apresentados pela Tabela 6 nota-se que os desvios em relação aos valores de referência ficam menores da primeira para a quarta parte. Pode-se considerar que as três últimas partes, faixas de números de onda variando entre 8494-3996 cm-1, possuem uma influência mais significativa na capacidade de reconhecimento da rede pois apresentam os menores desvios em relação aos valores de referência.
Para verificar a influência das três últimas partes foi realizado um treinamento considerando o intervalo de números de onda compreendido por P2, P3 e P4, ou seja, 8494-3996 cm . O melhor resultado ocorreu para uma rede com seis neurônios na camada oculta, gerando um erro de 1,09 × 10-3. Pelo gráfico de dispersão gerado por essa rede, Figura 11, é possível perceber que apenas algumas amostras de Sassafrás apresentaram desvio mais significativo, embora para uma tolerância de ?2% a taxa de reconhecimento tenha sido superior a 99,86%.
Gráfico de dispersão para o melhor resultado utilizando-se a função de ativação tangente hiperbólica sigmoidal.
6 CONCLUSÃO
Embora o treinamento seja demorado e exija uma capacidade de processamento computacional considerável, depois de treinada, a rede apresenta resultados de forma rápida e não exige esforço significativo da máquina utilizada. De maneira análoga à utilizada neste trabalho, RNAs também podem ser aplicadas em conjunto a espectrofotômetros para análises de outros materiais. Os espectros analisados não passaram por filtros estatísticos (correção de linha base, suavização, normalização, derivação, dentre outras), sendo examinados em sua forma bruta. Para observar o desempenho da rede proposta, não houve separação dos espectros quanto aos planos de corte (longitudinal radial, longitudinal tangencial, transversal) para uma mesma amostra, todos os dados foram analisados conjuntamente, ou seja, a rede está sujeita a diferentes tipos de leituras espectrométricas e mesmo assim conseguiu fazer uma generalização satisfatória, pois há poucos desvios, como se pode observar nos resultado obtidos. Observou-se que a função de ativação tangente hiperbólica-sigmoidal propiciou melhores resultados em relação à função logarítmica-sigmoidal, embora esta diferença tenha sido pequena e significativa. É importante frisar que mesmo para uma grande quantidade de sinais de entrada os melhores resultados foram atingidos com poucos neurônios na camada oculta. Assim, quando analisadas as quatro espécies (Canela, Imbuia, Sassafrás e Eucalipto), com função de transferência tangente hiperbólica-sigmoidal e oito neurônios na camada oculta, obteve-se uma taxa de reconhecimento de 99,90% para uma margem de erro de ?2%.
Das amostras analisadas, as de Canela-Sassafrás foram as que apresentaram maior desvio. É plausível considerar que esses desvios estejam relacionados à quantidade menor de amostras de Sassafrás, comparada às outras utilizadas para treinamento. Ressalta-se, pelas combinações das três espécies, que não há interferências entre as amostras. Nessa etapa, para uma margem de erro de ?2%, o reconhecimento foi de 100%, fortalecendo a ideia de independência entre as amostras. Nota-se que há faixas de intervalos de comprimento de onda que são mais significativos para o reconhecimento da amostra. Depreende-se que isso se deva tanto às características químicas da madeira bem como pela influência de sinais de ruído 9.
Conclui-se que a utilização de RNA para identificação de madeira mediante a análise dos seus espectros apresentou resultados promissores, mostrando-se capaz de lidar com uma grande quantidade de informação.
REFERÊNCIAS
- 1R. Bremananth, B. Nithya & R. Saipriya. Wood Species Recognition System. International Journal of Electrical and Computer Engineering, (2009), 44-58.
- 2J.W.B. Braga et al. The use of near infrared spectroscopy to identify solid wood specimens of swietenia macrophylla (cites appendix II). Holzforschung, 32 (2011), 285-296.
- 3M.T. Hagan & M.B. Menhaj. Training feedforward networks with marquardt algorithm. IEEE Transactions on Neural Networks, 5(6) (1994), 989-993.
- 4M.T. Hagan, H.B. Demuth & M. Beale. "Neural Network Design", Boston: Thomson Publishing INC., (1996), cap. 2.
- 5S. Haykin. " Redes Neurais: Princípios e Prática", Bookman (2001).
- 6E. Hecht. " Optics", 4 Ed. Addison-Wesley (2001).
- 7A.R. Silva et al. Assessment of total phenols and extractives of mahogany wood by near infrared spectroscopy (NIRS). Holzforschung, 67 (2013), 1-8.
- 8A.A. Oliveira. "Identificação de madeira utilizando a espectrometria no infravermelho próximo e redes neurais com a heurística de Levenberg Marquardt", Dissertação de Mestrado, PPGMNE, UFPR, Curitiba, PR (2013).
- 9B. Stuart. "Infrared Spectroscopy: Fundamentals and Applications", Hoboken: Wiley (2004).
- 10T. Theophanides. Introduction to infrared spectroscopy. Infrared Spectroscopy - Materials Science, Engineering and Technology, abril (2012).
Datas de Publicação
-
Publicação nesta coleção
Ago 2015
Histórico
-
Recebido
10 Set 2013 -
Aceito
07 Abr 2015