Open-access CADWeb: categorização automática de documentos digitais

Automatic categorization of digital documents

Com a evolução da tecnologia da informação e a disseminação de documentos digitais na Web, faz-se necessário criar meios que forneçam um mecanismo de organização de tais documentos, facilitando sua busca e recuperação. Em bibliotecas digitais ou repositórios de obras eletrônicas, por exemplo, existe a necessidade de uma ferramenta que possa classificar automaticamente os documentos, visto que o processo de classificação (categorização) é feito de forma manual. Esta ferramenta será de grande importância no apoio à catalogação. Este artigo apresenta o desenvolvimento de uma ferramenta que tem como objetivo principal classificar automaticamente documentos digitais em categorias preestabelecidas, nas quais cada documento pertencerá a uma ou mais categorias de acordo com seu conteúdo, tornando assim mais eficaz e rápida a classificação. Na elaboração da ferramenta foram utilizadas técnicas e algoritmos de mineração de textos, sendo definidas no estudo de caso algumas categorias e termos relacionados, tais como informática, direito e física, para validar a ferramenta.

Tecnologia da informação; Categorização; Biblioteca digital; Mineração de texto; Documentos digitais


location_on
IBICT SAS, Quadra 5, Lote 6, Bloco H, 70070-914 Brasília DF - Brazil, Tel.: (55 61) 3217-6360 / 3217-6350, Fax: (55 61) 321.6490 - Brasília - DF - Brazil
E-mail: ciinf@ibict.br
rss_feed Acompanhe os números deste periódico no seu leitor de RSS
Acessibilidade / Reportar erro