RESUMO
Objetivo:
Usar o modelo de rede de aprendizagem profunda para identificar o conteúdo-chave em vídeos.
Metodologia:
Após revisão da literatura sobre a visão computadorizada, efetuou-se a extração da característica do vídeo alvo da rede utilizando o aprendizado profundo com o método de melhoramento de dados em séries temporais. Foi explanado o método de pré-processamento para aumento de dados e extração da característica espaço-temporal no vídeo baseado na rede LI3D. Foram utilizados como índices a taxa de precisão, precisão e recall.
Resultados:
Os três indicadores aumentaram de 0,85, 0,88, e 0,84 para 0,89, 0,90, e 0,88, respectivamente. Isso mostra que após o aumento dos dados, o modelo de rede LI3D mantém uma alta taxa de recuperação acompanhada de uma alta precisão. As curvas de precisão e função de perda da fase de treinamento demonstram que a precisão da rede é muito melhorada em comparação com a I3D.
Conclusão:
O experimento prova que o modelo LI3D é mais estável e que a convergência é mais rápida. Ao comparar a curva de precisão e a curva de função de perda durante o treinamento LI3D, LI3D-LSTM e LI3D-BiLSTM, verifica-se que o modelo LI3D-BiLSTM converge mais rapidamente. Nível de evidência II; Estudos terapêuticos – investigação de resultados de tratamento.
Descritores:
Computadores; Sistemas de Visão Computacional; Saúde Pública