Acessibilidade / Reportar erro

Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo Dependências Universais

Aspects of the construction of a Universal Dependencies treebank for Nheengatu

Resumo

O alheamento das tecnologias da linguagem natural constitui fator adicional de enfraquecimento de línguas minoritárias relativamente às línguas majoritárias com as quais convivem. Sobretudo os falantes mais jovens, elos da transmissão linguística, tendem a migrar para a língua favorecida com esses recursos. O nheengatu é uma língua indígena brasileira em perigo de extinção, com índice de suporte digital de apenas 0,07 na escala Digital Language Support (DLS), significativamente inferior à pontuação de 0,97 do português, para o qual tem perdido continuamente falantes. O treebank do nheengatu da coleção Dependências Universais visa a contribuir para redução dessa deficiência, alimentando o treinamento de um parser neural. O treebank estreou com 196 sentenças e 2.146 palavras na versão de 15/11/2023 dessa coleção. Este artigo trata da versão mais recente do treebank , que, composto de amostras de sentenças extraídas de vinte publicações de diferentes fases históricas do nheengatu, perfazendo 1.470 sentenças e 15.036 palavras, constitui o maior de língua ameríndia da versão de 15/05/2024 da coleção Dependências Universais. A utilização de um analisador automático acelerou o crescimento do corpus . Anotadores humanos, porém, revisaram cada anotação automática, assegurando um índice de validação de 100% do treebank e concorrendo para a classificação de duas estrelas, a mais alta conferida a treebanks de línguas ameríndias da coleção Dependências Universais. A expansão e revisão do corpus continuará, visando a abarcar todos os textos em domínio público e alcançar acurácia de parsing do estado da arte.

Palavras-chave:
Linguística computacional; Processamento de linguagem natural; Tupinologia; Corpus sintaticamente anotado

Universidade Federal de Minas Gerais - UFMG Av. Antônio Carlos, 6627 - Pampulha, Cep: 31270-901, Belo Horizonte - Minas Gerais / Brasil, Tel: +55 (31) 3409-6009 - Belo Horizonte - MG - Brazil
E-mail: revistatextolivre@letras.ufmg.br