Acessibilidade / Reportar erro

Estudos de Criação e Validade do Teste Adaptativo de Extensão de Vocabulário

Studies on the creation and validity of the Vocabulary Extension Adaptive Test

Estudios sobre la creación y validez de la Prueba Adaptativa de Extensión de Vocabulario

Resumo

Vocabulário diz respeito ao repertório lexical utilizado na comunicação e é um importante aspecto da linguagem e do processamento cognitivo. A presente pesquisa teve como objetivo desenvolver um teste adaptativo informatizado para avaliar extensão de vocabulário. No Estudo 1, que contou com 3958 participantes, foram estudados os parâmetros psicométricos de itens que apresentavam uma palavra com quatro possíveis alternativas, sendo apenas uma o sinônimo correto. Ao final, criou-se um banco de 96 itens para compor o Teste Adaptativo de Extensão de Vocabulário (TAVoc). No Estudo 2, com 754 participantes, o TAVoc foi estudado quanto ao seu critério de interrupção e sua validade, comparando-se com medidas externas de raciocínio verbal, inteligência fluida, compreensão emocional e sociabilidade. Os resultados mostraram evidências de validade convergente, com construtos relacionados e divergente.

Palavras-chave:
construção do teste; validade do teste; vocabulário; avaliação psicológica

Abstract

Vocabulary concerns the lexical repertoire used in communication and constitutes an important aspect of language and cognitive processing. The present research aimed to develop a computerized adaptive test to assess vocabulary extension. Study 1, involving 3958 participants, analyzed the psychometric parameters of items that presented a word with four possible alternatives, only one being the correct synonym. As a result, a 96-item database was created to compose the Adaptive Vocabulary Extension Test (TAVoc). Study 2, which involved 754 participants, analyzed the TAVoc regarding its interruption criterion and validity, comparing it with external measures of verbal reasoning, fluid intelligence, emotional knowledge, and sociability. The results showed evidence of convergent validity with related and divergent constructs.

Keywords:
test construction; test validity; vocabulary; psychological assessment

Resumen

El vocabulario se refiere al repertorio léxico utilizado en la comunicación y es un aspecto importante del lenguaje y del procesamiento cognitivo. Esta investigación tuvo como objetivo desarrollar una prueba adaptativa informatizada para evaluar la extensión del vocabulario. En el Estudio 1, que contó con 3958 participantes, se estudiaron los parámetros psicométricos de ítems que tenían una palabra con cuatro alternativas posibles, siendo solo una el sinónimo correcto. Al final, se creó un banco de 96 ítems para componer la Prueba Adaptativa de Extensión de Vocabulario (TAVoc). En el Estudio 2, con 754 participantes, se estudió la TAVoc en cuanto a su criterio de interrupción y su validez, comparándolo con medidas externas de razonamiento verbal, inteligencia fluida, comprensión emocional y sociabilidad. Los resultados mostraron evidencias de validez convergente, con constructos relacionados y divergentes.

Palabras clave:
construcción del test; validación del test; vocabulario; evaluación psicológica

Introdução

A linguagem é uma importante habilidade cognitiva, fundamental para a comunicação e a compreensão do mundo. A linguagem pode ser receptiva (ouvir e ler) e expressiva (falar e escrever), sendo aplicada tanto na modalidade escrita quanto oral (Borges & Azoni, 2021Borges, M. T., & Azoni, C. A. S. (2021). A literacia familiar no desenvolvimento de habilidades linguísticas e metalinguísticas de pré-escolares. Revista CEFAC , 23(4), e2521. https://doi.org/10.1590/1982-0216/20212342521
https://doi.org/10.1590/1982-0216/202123...
). Considera-se como possuindo cinco componentes classificados em três aspectos: estrutura (fonologia, morfologia e sintaxe), conteúdo (semântica) e uso (pragmática) (Menezes, 2003Menezes, M. L. N. (2003). A construção de um instrumento para avaliação do desenvolvimento da linguagem: Idealização, estudo piloto para padronização e validação [Tese de Doutorado, Programa de Pós-Graduação em Saúde da Criança e da Mulher, Fundação Oswaldo Cruz]. Recuperado de https://www.arca.fiocruz.br/handle/icict/3380
https://www.arca.fiocruz.br/handle/icict...
).

Na estrutura da linguagem, a fonologia, a morfologia e a sintaxe são responsáveis pelas regras fundamentais do sistema, ou seja, a gramática de uma língua. A fonologia diz respeito aos aspectos relacionados com o material sonoro da linguagem; a morfologia é a organização interna das palavras, consistindo das unidades mínimas que expressam significado (morfemas) da língua; e a sintaxe regula a organização e as relações entre os componentes de uma frase, conforme a relação de significado entre elas. Já a semântica, representado o conteúdo da linguagem, consiste em representações mentais que se adquire do mundo e se desenvolve por meio das capacidades neurobiológicas e das interações com as experiências vividas em um ambiente afetivo e social, sendo o vocabulário um indicador do conhecimento semântico. Por fim, a pragmática é o uso da linguagem e diz respeito às regras de utilização dela como forma de comunicação. Por meio da articulação desses cinco componentes fundamentais, resulta-se na capacidade de pensar, refletir e utilizar a linguagem por meio dos processos cognitivo-linguísticos para uma comunicação eficaz (Borges & Azoni, 2021Borges, M. T., & Azoni, C. A. S. (2021). A literacia familiar no desenvolvimento de habilidades linguísticas e metalinguísticas de pré-escolares. Revista CEFAC , 23(4), e2521. https://doi.org/10.1590/1982-0216/20212342521
https://doi.org/10.1590/1982-0216/202123...
; Menezes, 2003Menezes, M. L. N. (2003). A construção de um instrumento para avaliação do desenvolvimento da linguagem: Idealização, estudo piloto para padronização e validação [Tese de Doutorado, Programa de Pós-Graduação em Saúde da Criança e da Mulher, Fundação Oswaldo Cruz]. Recuperado de https://www.arca.fiocruz.br/handle/icict/3380
https://www.arca.fiocruz.br/handle/icict...
; Pereira, 2007Pereira, M. P. (2007). Desenvolvimento da linguagem. Em C. Coll, Á. Marchesi, & J. Palácios (Eds.), Desenvolvimento psicológico e educação (Vol. 1, pp. 160-180). Artmed.).

Dentre os componentes da linguagem, o vocabulário é parte integrante e tem como definição ser um conjunto de palavras que são utilizadas pelo indivíduo no ato da fala e da escrita, ou seja, é uma amostra do léxico individual. Uma vez que por léxico entende-se o conjunto de todas as palavras que estão disponíveis ao sujeito, o recorte que se faz das palavras de fato utilizadas é que se denomina de vocabulário. Faz-se uma distinção entre o vocabulário receptivo e o vocabulário expressivo, em que o primeiro corresponde ao conjunto de palavras que a pessoa tem acesso e é capaz de compreender, e o segundo está relacionado às palavras que é capaz de produzir ao se expressar. Portanto, o vocabulário receptivo equivale à habilidade de compreender as palavras, e é a base do vocabulário expressivo que equivale à habilidade de produzir as palavras, ou seja, a compreensão de palavras antecede sua produção (Armonia et al., 2015Armonia, A. C., Mazzega, L. C., Pinto, F. C. de A., Souza, A. C. R. F., Perissinoto, J., & Tamanaha, A. C. (2015). Relação entre vocabulário receptivo e expressivo em crianças com transtorno específico do desenvolvimento da fala e da linguagem. Revista CEFAC, 17(3), 759-765. https://doi.org/10.1590/1982-021620156214
https://doi.org/10.1590/1982-02162015621...
; Carbonieri & Lúcio, 2020Carbonieri, J., & Lúcio, P. S. (2020). Avaliação do vocabulário em crianças brasileiras: Revisão sistemática de estudos com três instrumentos. CoDAS, 32(3), e20180245. https://doi.org/10.1590/2317-1782/20202018245
https://doi.org/10.1590/2317-1782/202020...
; León et al., 2019León, C. B. R., Almeida, Á., Lira, S., Zauza, G., Pazeto, T. C. B., Seabra, A. G., & Dias, N. M. (2019). Consciência fonológica e habilidades iniciais de leitura e escrita na educação infantil: Dados normativos preliminares. Revista CEFAC , 21(2), e7418. https://doi.org/10.1590/1982-0216/20192127418
https://doi.org/10.1590/1982-0216/201921...
; Limissuri & Befi-Lopes, 2009Limissuri, R. C., & Befi-Lopes, D. (2009). Fonologia e vocabulário na percepção de educadoras sobre comunicação de pré-escolares. Revista Brasileira de Estudos Pedagógicos, 90(225), 433-448. https://doi.org/10.24109/2176-6681.rbep.90i225.518
https://doi.org/10.24109/2176-6681.rbep....
).

O desenvolvimento do vocabulário se dá desde o primeiro balbuciar dos bebês e continua aumentando até a fase adulta, passando por diversos marcos em que a aquisição de palavras constitui um passo fundamental para o início da possibilidade de comunicação oral entre a criança em desenvolvimento e o mundo que a cerca. Ao considerar um desenvolvimento típico da linguagem, as primeiras palavras são adquiridas por volta do primeiro ano de vida, passando por um período lento e gradual até aproximadamente um ano e meio quando, ao atingir o marco de aproximadamente cinquenta palavras, esse ritmo aumenta, caracterizando o período da “explosão do vocabulário”. Já no período escolar, o desenvolvimento da aquisição do vocabulário permanece acelerando até por volta dos 16 anos. Na fase adulta, o aumento do léxico individual ainda acontece, mas de forma mais lenta e dependente de fatores ambientais e sociais (Gândara & Befi-Lopes, 2010Gândara, J. P., & Befi-Lopes, D. M. (2010). Tendências da aquisição lexical em crianças em desenvolvimento normal e crianças com alterações específicas no desenvolvimento da linguagem. Revista da Sociedade Brasileira de Fonoaudiologia, 15(2), 297-304. https://doi.org/10.1590/S1516-80342010000200024
https://doi.org/10.1590/S1516-8034201000...
; Limissuri & Befi-Lopes, 2009Limissuri, R. C., & Befi-Lopes, D. (2009). Fonologia e vocabulário na percepção de educadoras sobre comunicação de pré-escolares. Revista Brasileira de Estudos Pedagógicos, 90(225), 433-448. https://doi.org/10.24109/2176-6681.rbep.90i225.518
https://doi.org/10.24109/2176-6681.rbep....
; Nóro & Mota, 2019Nóro, L. A., & Mota, H. B. (2019). Relação entre extensão média do enunciado e vocabulário em crianças com desenvolvimento típico de linguagem. Revista CEFAC , 21(6), e4419. https://doi.org/10.1590/1982-0216/20192164419
https://doi.org/10.1590/1982-0216/201921...
).

O vocabulário conecta o processo de fonética da palavra e o processo cognitivo de compreensão, em que uma parte importante desta é o conhecimento do significado da palavra. Adquirir palavras não é somente falar, mas compreender a palavra dita e procurá-la na memória. Sendo assim, a aquisição do vocabulário é fundamental para o posterior desenvolvimento da linguagem como um todo, pois está intimamente ligada à aprendizagem da leitura e ao desempenho na compreensão de textos, tornando a produção do vocabulário um importante índice para monitorar o desenvolvimento da linguagem (Araújo, Marteleto, & Schoen-Ferreira, 2010Araújo, M. V. M., Marteleto, M. R. F., & Schoen-Ferreira, T. H. (2010). Avaliação do vocabulário receptivo de crianças pré-escolares. Estudos de Psicologia (Campinas), 27(2), 169-176. https://doi.org/10.1590/S0103-166X2010000200004
https://doi.org/10.1590/S0103-166X201000...
; Carbonieri & Lúcio, 2020Carbonieri, J., & Lúcio, P. S. (2020). Avaliação do vocabulário em crianças brasileiras: Revisão sistemática de estudos com três instrumentos. CoDAS, 32(3), e20180245. https://doi.org/10.1590/2317-1782/20202018245
https://doi.org/10.1590/2317-1782/202020...
; Nóro & Mota, 2019Nóro, L. A., & Mota, H. B. (2019). Relação entre extensão média do enunciado e vocabulário em crianças com desenvolvimento típico de linguagem. Revista CEFAC , 21(6), e4419. https://doi.org/10.1590/1982-0216/20192164419
https://doi.org/10.1590/1982-0216/201921...
).

As teorias cognitivas reconhecem que a extensão do vocabulário está relacionada com os escores em testes de inteligência. Sendo o vocabulário um quesito fundamental para a recepção e processamento da informação, a sua extensão é uma das mais importantes e consolidadas medidas de habilidade intelectual. Correlaciona-se com quociente de inteligência porque nos utilizamos de informações do contexto e das frases para inferir o significado de palavras que não conhecemos, tornando-se um dos principais meios de adquirir vocabulário. Quanto maior a extensão do vocabulário, maior a competência para aprender novas palavras e maior a informação sobre o mundo (Andrade et al., 2005Andrade, S. A., Santos, D. N., Bastos, A. C., Pedromônico, M. R. M., Almeida-Filho, N., & Barreto, M. L. (2005). Ambiente familiar e desenvolvimento cognitivo infantil: Uma abordagem epidemiológica. Revista de Saúde Pública, 39(4), 606-611. https://doi.org/10.1590/S0034-89102005000400014
https://doi.org/10.1590/S0034-8910200500...
; Gurgel, Plentz, Joly, & Reppold, 2010Gurgel, L. G., Plentz, R. D. M., Joly, M. C. R. A., & Reppold, C. T. (2010). Instrumentos de avaliação da compreensão de linguagem oral em crianças e adolescentes: Uma revisão sistemática da literatura. Neuropsicologia Latinoamericana, 2(1), 1-10.; León et al., 2019León, C. B. R., Almeida, Á., Lira, S., Zauza, G., Pazeto, T. C. B., Seabra, A. G., & Dias, N. M. (2019). Consciência fonológica e habilidades iniciais de leitura e escrita na educação infantil: Dados normativos preliminares. Revista CEFAC , 21(2), e7418. https://doi.org/10.1590/1982-0216/20192127418
https://doi.org/10.1590/1982-0216/201921...
).

O conhecimento do vocabulário está fortemente relacionado com a habilidade de compreensão, sendo que baixa compreensão tende a estar relacionada à falta de um conhecimento relevante sobre a palavra. A recepção do vocabulário verbal e o atraso do vocabulário expressivo são indicativos de desenvolvimento tardio do uso da linguagem e apresentam correlação com baixo índice de inteligência e déficit nas habilidades acadêmicas. Acredita-se que as dificuldades de aprendizagem estejam intimamente relacionadas à história prévia de atraso na aquisição da linguagem, por isso a importância de identificar precocemente essas alterações, para evitar posteriores consequências educacionais e sociais desfavoráveis (Basílio, Puccini, Silva, & Pedromônico 2005Basílio, C. S., Puccini, R. F., Silva, E. M. K., & Pedromônico, M. R. M. (2005). Living conditions and receptive vocabulary of children aged two to five years. Revista de Saúde Pública , 39(5), 725-730. https://doi.org/10.1590/S0034-89102005000500005
https://doi.org/10.1590/S0034-8910200500...
; Brancalioni, Marini, Cavalheiro, & Keske-Soares, 2010Brancalioni, A. R., Marini, C., Cavalheiro, L. G., & Keske-Soares, M. (2010). Desempenho em prova de vocabulário de crianças com desvio fonológico e com desenvolvimento fonológico normal. Revista CEFAC , 13(3), 428-436. https://doi.org/10.1590/S1516-18462010005000011
https://doi.org/10.1590/S1516-1846201000...
; Ferracini, Capovilla, Dias, & Capovilla, 2006Ferracini, F., Capovilla, A. G. S., Dias, N. M., & Capovilla, F. C. (2006). Avaliação de vocabulário expressivo e receptivo na educação infantil. Revista Psicopedagogia, 23(71), 124-133.; Gurgel et al.,2010Gurgel, L. G., Plentz, R. D. M., Joly, M. C. R. A., & Reppold, C. T. (2010). Instrumentos de avaliação da compreensão de linguagem oral em crianças e adolescentes: Uma revisão sistemática da literatura. Neuropsicologia Latinoamericana, 2(1), 1-10.; Schirmer, Fontoura, & Nunes, 2004Schirmer, C. R., Fontoura, D. R., & Nunes, M. L. (2004). Distúrbios da aquisição da linguagem e da aprendizagem. Jornal de Pediatria, 80(2), 95-103. https://doi.org/10.1590/S0021-75572004000300012
https://doi.org/10.1590/S0021-7557200400...
).

Ao constatar que a habilidade da linguagem está diretamente relacionada a outras habilidades cognitivas, a utilização de instrumentos de avaliação pode contribuir para diagnóstico diferencial de algumas patologias, como as demências, permitindo o acompanhamento de declínios cognitivos que acometem pacientes com esclerose múltipla e epilepsia, por exemplo, ou até mesmo sequelas de pacientes com algum tipo de lesão adquirida. No que diz respeito ao envelhecimento, estudos anteriores apontam os testes de linguagem como os melhores instrumentos de investigação das habilidades neurocognitivas e que mais eficientemente predizem a progressão do declínio cognitivo, sendo que a redução nas habilidades linguísticas em associação com a memória semântica parece ser uma das principais consequências do envelhecimento sobre o desempenho cognitivo e também na fase inicial da doença de Alzheimer (Guaresi, Pereira, Portuguez, & Viali, 2013Guaresi, R., Pereira, V. W., Portuguez, M. W., & Viali, L. (2013). Nomeação e fluência verbal em portadores de esclerose múltipla. Letras de Hoje, 48(1), 40-49. Recuperado de https://revistaseletronicas.pucrs.br/index.php/fale/article/view/11900
https://revistaseletronicas.pucrs.br/ind...
).

Em uma consulta a bases de dados nacionais sobre os testes existentes para a avaliação da linguagem, não encontramos testes validados em português do Brasil para a investigação desse construto no formato informatizado e adaptativo. Nesse sentido, a presente pesquisa teve como objetivo desenvolver um teste adaptativo informatizado para avaliação da extensão de vocabulário, assim como estudar sua validade.

Testes adaptativos informatizados (CAT do inglês computerized adaptive test) são uma modalidade relativamente recente em avaliação psicológica mediada por informática. Em vez de apresentar sempre a mesma sequência de itens, como acontece com os testes impressos, nos testes adaptativos, o programa consulta um banco de dados com informações sobre diversos parâmetros psicométricos, incluindo a dificuldade do item. Dessa maneira, itens iniciais são apresentados na tela e, de acordo com o padrão de acerto ou erro da pessoa, itens mais fáceis ou mais difíceis são escolhidos em sequência. Com isso, a aplicação fica mais personalizada para o nível de construto da pessoa que está respondendo, tornando-se mais precisa e reduzindo o tempo de aplicação (Chen, Wang, Chiu, & Ro, 2020Chen, C., Wang, W., Chiu, M. M., & Ro, S. (2020). Item selection and exposure control methods for computerized adaptive testing with multidimensional ranking items. Journal of Educational Measurement, 57(2), 343-369. https://doi.org/10.1111/jedm.12252
https://doi.org/10.1111/jedm.12252...
; Miguel, 2017Miguel, F. K. (2017). Instrumentos informatizados e testagem adaptativa computadorizada. Em B. F. Damásio & J. C. Borsa (Eds.), Manual de desenvolvimento de instrumentos psicológicos (pp. 195-214). Vetor.; Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.; Wang, Weiss, & Shang, 2019Wang, C., Weiss, D. J., & Shang, Z. (2019). Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 84(3), 749-771. https://doi.org/10.1007/s11336-018-9644-7
https://doi.org/10.1007/s11336-018-9644-...
). Dois estudos foram desenvolvidos para se atingir o objetivo, apresentados a seguir.

Objetivo do Estudo 1

O primeiro estudo teve como objetivo desenvolver os itens que iriam compor o banco de itens para o Teste Adaptativo de Extensão de Vocabulário. Cabe informar que ambos os estudos foram aprovados pelo Comitê de Ética em Pesquisa Envolvendo Seres Humanos da Universidade Estadual de Londrina (CAAE 51390121.0.0000.5231).

Método do Estudo 1

Participantes

O total de participantes deste estudo foi 3.958 pessoas, sendo 51,4% do sexo feminino, e com idades entre 18 e 78,1 anos (M = 32,10; DP = 11,59). Em relação à escolaridade, 9,5% possuíam até ensino fundamental, 55,8% até ensino médio, 27,7% até ensino superior e 6,9% pós-graduação. Em relação à região brasileira, 8,6% residiam no Norte, 14,2% no Nordeste, 7,3% no Centro-Oeste, 47,0% no Sudeste e 22,8% no Sul.

Instrumentos

Teste de Extensão de Vocabulário (TVoc). O teste foi desenvolvido para ser aplicado via internet. Na tela, é apresentada uma palavra no lado esquerdo, com a sentença “é semelhante a” e quatro palavras no lado direito. A instrução do teste diz que a pessoa deve identificar na lista à direita a palavra que tem significado semelhante àquela à esquerda. Um exemplo é apresentado antes da testagem iniciar, com a palavra “calor” à esquerda e as opções “quente”, “frio”, “sombra”, “azul” à direita. O participante deve então selecionar uma das quatro alternativas, por meio do cursor ou tocando na tela. A ordem de apresentação das alternativas é aleatória. No exemplo inicial, caso a pessoa selecione uma alternativa diferente de “quente”, surge na tela uma mensagem explicando que aquela não é uma palavra semelhante; se a pessoa selecionar corretamente, surge uma mensagem de acerto e então a testagem inicia.

Com o objetivo de tornar o instrumento mais atrativo e lúdico, a sua apresentação utilizou de aspectos da gamificação (Lodi & Holanda, 2019Lodi, R. G., & Holanda, A. F. (2019). Há gamificação na psicologia brasileira? Uma revisão bibliográfica sistemática. Perspectivas em Psicologia, 23(1), 112-138. https://doi.org/10.14393/PPv23n1a2019-51040
https://doi.org/10.14393/PPv23n1a2019-51...
). Nesse sentido, quando o item é apresentado, há o desenho de uma coruja usando capelo e olhando para a palavra à esquerda. Ao se clicar na alternativa, esta é iluminada com fundo em azul, e a coruja aponta para a palavra selecionada. Nesse momento, o botão “Próximo” aparece, permitindo avançar ao item seguinte (ou seja, não é possível avançar deixando o item sem resposta).

Procedimentos e Análise de Dados

Inicialmente foi criado um banco de palavras e sinônimos para compor o TVoc. Essa fase contou com a participação da equipe de pesquisas do laboratório onde o Estudo 1 foi conduzido, que era composta por um pesquisador com pós-doutorado, uma estudante de mestrado e quatro estudantes de graduação. A equipe produziu itens de acordo com a seguinte instrução: uma palavra-alvo, um (e apenas um) sinônimo correto e três palavras que não eram sinônimos da palavra-alvo e não eram sinônimos entre si. Também se seguiu a instrução de desenvolver itens com palavras de diferentes níveis de reconhecimento (por exemplo, “coragem” como item de fácil reconhecimento, “substancial” como mediano, e “mormente” como item difícil). Os itens foram desenvolvidos individualmente e trazidos para reuniões de pesquisa, onde foram apresentados e discutidos quanto à clareza, dificuldade percebida e possibilidade de regionalismos, mantendo-se então um total de 110 itens.

Uma primeira versão do TVoc com 20 itens (chamada TVoc-1) foi aplicada em uma amostra inicial de participantes (informações das aplicações serão apresentadas adiante em Resultados e Discussão). Utilizou-se da Teoria de Resposta ao Item (TRI) para análise dos parâmetros psicométricos das sete versões do TVoc. Por se tratar de um formato com quatro alternativas e apenas uma resposta correta, foi utilizado o modelo de três parâmetros, que considera dificuldade e discriminação do item e probabilidade de acerto ao acaso. Os itens do TVoc-1 foram analisados e aqueles que obtiveram índices adequados foram mantidos no banco de itens. Utilizou-se os seguintes critérios para manter os itens no banco: alternativa correta identificada pelo modelo; correlação ponto-bisserial igual ou superior a 0,20; a presença do item aumentava ou mantinha igual a precisão do instrumento.

A partir desse estudo inicial, seis novas versões do TVoc foram desenvolvidas (nomeadas de TVoc-2 a TVoc-7). Todas as novas versões continham 20 itens, sendo que cinco eram originais da versão TVoc-1. Esse procedimento em TRI é chamado de ancoragem, permitindo estudar os parâmetros psicométricos dos novos itens em relação aos originais da primeira versão. A escolha dos cinco itens do TVoc-1 que seriam repetidos nas seis novas versões se deu de acordo com recomendações da literatura levantada, isto é, utilizar itens que representassem dificuldades diversas do construto e com os melhores índices de ajuste (Babcock & Weiss, 2012Babcock, B., & Weiss, D. (2012). Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective measurement? Journal of Computerized Adaptive Testing, 1(1), 1-18. https://doi.org/10.7333/1212-0101001
https://doi.org/10.7333/1212-0101001...
; Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.; Yasuda, Mae, Hull, & Taniguchi, 2021Yasuda, J., Mae, N., Hull, M. M., & Taniguchi, M. (2021). Optimizing the length of computerized adaptive testing for the Force Concept Inventory. Physical Review Physics Education Research, 17(1), 010115. https://doi.org/10.1103/PhysRevPhysEducRes.17.010115
https://doi.org/10.1103/PhysRevPhysEducR...
). Não há consenso quanto a quantidade adequada de itens âncora, contudo a literatura levantada apresenta entre 10% e 20%. Dessa maneira, os cinco itens âncora apresentavam os seguintes índices de dificuldade: -1,06; -0,60; 0,18; 1,06; 1,71.

As versões TVoc-2 a TVoc-7 também foram aplicadas e seus itens foram estudados a partir dos mesmos critérios do TVoc-1. Dessa forma, 110 itens foram estudados no total (20 do TVoc-1 e 15 de cada nova versão). Com isso, foi possível desenvolver o banco final de itens, com seus parâmetros psicométricos conhecidos e em uma escala comum.

As aplicações das versões TVoc-1 a TVoc-7 foram realizadas via internet, com o convite feito a partir de mídias sociais. Ao acessar o link da pesquisa, o participante era apresentado ao Termo de Consentimento Livre e Esclarecido. Após a concordância, o teste era apresentado na tela. As respostas dos participantes foram armazenadas em um banco de dados de acesso restrito apenas ao pesquisador, coordenador da pesquisa.

Cada versão do teste foi aplicada até se atingir mais de 500 participantes. Após isso, a versão do teste foi removida e a seguinte foi incluída. Dessa maneira, não houve repetição de participantes entre as sete versões. Após a aplicação de cada versão, os itens dos testes foram estudados de acordo com os procedimentos anteriormente descritos, mantendo-se no banco de itens aqueles que preencheram os critérios de adequação.

Resultados e Discussão

A Tabela 1 apresenta os dados das aplicações das sete versões do TVoc. Houve exclusão de itens em todas as versões de acordo com os critérios estabelecidos, com exceção da versão TVoc-4, em que foram mantidos todos os 15 novos itens aplicados. Em relação aos índices de precisão, percebe-se que foram aceitáveis a moderados.

Tabela 1
Dados das Aplicações das Sete Versões do TVoc

A partir desses primeiros estudos, montou-se o banco com 96 itens para a versão final do teste. A Tabela 2 apresenta os parâmetros psicométricos dos itens de acordo com a TRI. Pode-se perceber que as dificuldades cobriram uma ampla faixa do construto, com adequada distribuição de discriminação e probabilidade de acerto ao acaso. Além disso, o índice de precisão desse banco de itens foi de 0,70.

Tabela 2
Parâmetros Psicométricos dos Itens

A partir dos resultados achados, encontra-se que o banco de itens desenvolvido apresentou satisfatório índice de precisão. Além disso, a distribuição de dificuldades mostrou-se ampla e homogênea, não havendo saltos expressivos de dificuldade, isto é, lacunas grandes de itens em certa faixa de dificuldade. A média de distância entre as dificuldades foi 0,06 (DP = 0,05).

A menor distância foi de 0,00, o que indica dois itens com dificuldades iguais (0,27). Esse dado indica provável redundância de itens, o que poderia não ser indicado no caso de instrumentos com quantidade fixa de itens. Contudo, no caso de testagem adaptativa, é desejável possuir um extenso banco de itens com dificuldades próximas ou idênticas, pois evita-se que o mesmo item seja repetido em aplicações seguintes, impedindo-se, assim, excesso de exposição ou possível memorização por parte das pessoas que respondem (Miguel, 2017Miguel, F. K. (2017). Instrumentos informatizados e testagem adaptativa computadorizada. Em B. F. Damásio & J. C. Borsa (Eds.), Manual de desenvolvimento de instrumentos psicológicos (pp. 195-214). Vetor.). Além disso, itens de dificuldade mediana tendem a ser mais frequentes, comumente, encontrando-se dificuldades próximas.

Já a maior diferença entre índices dificuldades foi de 0,25, o que poderia sugerir uma lacuna entre itens. Porém, percebe-se isso mostra-se dentro de uma faixa aceitável em que dificilmente a testagem estaria prejudicada pela ausência de itens naquela região (diferente de uma lacuna de 0,50 ou mais, em que a ausência de itens poderia implicar em uma avaliação menos precisa do construto naquela região). Ademais, percebe-se que os quatro itens com distância igual ou maior que 0,20 encontravam-se nas extremidades (três de maior dificuldade e um de menor dificuldade). Esse é um comportamento esperado em bancos de itens, havendo menos itens nas extremidades do que nas faixas mais centrais (Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.). Nesse mesmo sentido, a quantidade de pessoas com níveis extremamente altos ou baixos no construto também tende a ser menor, fazendo com que itens de dificuldade extrema (muito fáceis ou muito difíceis) sejam menos utilizados na avaliação.

Objetivo do Estudo 2

O segundo estudo teve como objetivo estudar o funcionamento e a validade do Teste Adaptativo de Extensão de Vocabulário. O instrumento baseia-se no banco de itens desenvolvido no Estudo 1.

Método do Estudo 2

Participantes

Participaram deste estudo 754 pessoas, sendo 51,1% do sexo feminino, e com idades entre 18,1 e 64,6 anos (M = 35,87; DP = 11,25). Em relação à escolaridade, 8,6% possuíam até ensino fundamental, 46,7% até ensino médio, 32,2% até ensino superior e 12,5% pós-graduação. Em relação à região brasileira, 7,6% residiam no Norte, 11,4% no Nordeste, 8,2% no Centro-Oeste, 49,9% no Sudeste e 22,9% no Sul. Ressalta-se que os participantes deste estudo foram diferentes dos participantes do Estudo 1.

Instrumentos

Teste Adaptativo de Extensão de Vocabulário (TAVoc). O formato do instrumento segue a mesma descrição do Estudo 1, incluindo o item de exemplo. Porém, por se tratar da versão adaptativa, a sequência em que os itens são apresentados varia de acordo com o desempenho do indivíduo. O primeiro item (após o exemplo) é de dificuldade mediana, ou seja, próximo de 0,00, que é a média das dificuldades dos itens. O programa escolhe aleatoriamente um item no intervalo de -0,40 a 0,40. A partir de então, de acordo com o acerto ou erro do participante, o item seguinte é escolhido. A literatura recomenda o incremento na dificuldade quando a pessoa acerta, e o decréscimo na dificuldade quando a pessoa erra. Não há consenso quanto ao intervalo de acréscimo e decréscimo recomendado, porém comumente se recomenda o máximo de 1,00 (Chen et al., 2020Chen, C., Wang, W., Chiu, M. M., & Ro, S. (2020). Item selection and exposure control methods for computerized adaptive testing with multidimensional ranking items. Journal of Educational Measurement, 57(2), 343-369. https://doi.org/10.1111/jedm.12252
https://doi.org/10.1111/jedm.12252...
; Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.; Yasuda et al., 2021Yasuda, J., Mae, N., Hull, M. M., & Taniguchi, M. (2021). Optimizing the length of computerized adaptive testing for the Force Concept Inventory. Physical Review Physics Education Research, 17(1), 010115. https://doi.org/10.1103/PhysRevPhysEducRes.17.010115
https://doi.org/10.1103/PhysRevPhysEducR...
). Para o TAVoc, escolheu-se o seguinte critério: se o participante acertar o item, o próximo a ser apresentado será mais difícil, sendo a dificuldade aumentada em 0,80; se o participante errar o item, o próximo a ser apresentado será mais fácil, sendo a dificuldade reduzida em 0,40. Ao se reduzir a dificuldade no caso de erro, utilizou-se metade do valor do acréscimo porque se considera que o nível de habilidade da pessoa esteja entre a dificuldade anterior (item que a pessoa acertou) e a atual dificuldade (item que a pessoa errou).

A partir do cálculo da dificuldade do próximo item a ser apresentado, o programa consulta o banco de itens, buscando aquele com índice de dificuldade mais próximo possível. No caso de haver itens com dificuldades iguais no banco, o programa escolhe aquele que tenha sido menos apresentado nas aplicações até o momento. Além disso, o programa evita que o mesmo item seja apresentado mais de uma vez em uma mesma testagem. No total 20 itens são aplicados no TAVoc.

Raciocínio Verbal (RV). A prova RV faz parte da Bateria de Provas de Raciocínio (BPR-5) e é composta por analogias entre vocábulos (por exemplo, “dia está para noite, assim como claro está para...”), sendo necessário escolher uma alternativa correta entre cinco. Além de avaliar extensão de vocabulário, a compreensão da analogia requer inteligência fluida (Primi & Almeida, 2000Primi, R., & Almeida, L. S. (2000). Bateria de Provas de Raciocínio (BPR-5): Manual técnico. Casa do Psicólogo.). A pontuação é apresentada em escore padrão normalizado (média 100 e desvio padrão 15).

Raciocínio Abstrato (RA). A prova RA faz parte da Bateria de Provas de Raciocínio (BPR-5) e é composta por analogias entre figuras geométricas, sendo necessário escolher uma alternativa entre cinco. Considera-se que o instrumente avalie inteligência fluida (Primi & Almeida, 2000Primi, R., & Almeida, L. S. (2000). Bateria de Provas de Raciocínio (BPR-5): Manual técnico. Casa do Psicólogo.). A pontuação é apresentada em escore padrão normalizado (média 100 e desvio padrão 15).

Teste de Organização de Histórias (TOHE). O TOHE faz parte da Bateria Online de Inteligência Emocional (BOLIE) e é composto por figuras de personagens em situações emocionais que o participante deve organizar de maneira que formem uma sequência coerente. Em todos os itens, há sempre possibilidades de compor sequências que tenham emoções positivas e negativas. O TOHE possui dois escores: TOHE-O representa sequências coerentes, e avalia compreensão emocional, um aspecto de inteligência emocional; TOHE-S representa a proporção de emoções positivas e negativas, associado à sociabilidade, um aspecto de personalidade (Miguel, 2021Miguel, F. K. (2021). BOLIE: Bateria Online de Inteligência Emocional. Vetor.). Ambas as pontuações são apresentadas em escore z (média 0 e desvio padrão 1).

Procedimentos

Assim como no Estudo 1, a pesquisa foi divulgada em mídias sociais e aplicada via internet. Após a concordância com o Termo de Consentimento Livre e Esclarecido, o teste era apresentado na tela. As respostas dos participantes foram armazenadas em um banco de dados de acesso restrito apenas ao pesquisador, coordenador da pesquisa.

Análise de Dados

Considerando-se que extensão de vocabulário é um aspecto cognitivo (Schneider & McGrew, 2018Schneider, W. J., & McGrew, K. S. (2018). The Cattell-Horn-Carroll theory of cognitive abilities. Em D. P. Flanagan & E. M. McDonough (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (4th ed., pp. 73-163). Guilford Press.), as seguintes hipóteses de resultados foram elaboradas:

  • H1. Correlações fortes (ao redor de 0,50) entre TAVoc e RV.

  • H2. Correlações leves a moderadas (entre 0,20 e 0,30) com outros tipos de raciocínio, nomeadamente inteligência fluida (RA) e compreensão emocional (TOHE-O).

  • H3. Correlações fracas (abaixo de 0,20) com sociabilidade (TOHE-S), uma vez que desempenho cognitivo e personalidade tendem a não ser relacionados.

A literatura de CAT apresenta diversos procedimentos relativos ao critério de interrupção ou parada, isto é, em que momento a aplicação do teste adaptativo pode ser interrompida. Alguns critérios comuns são interromper a aplicação quando o erro-padrão de medida atingir um nível baixo o suficiente, ou então quando a diferença no cálculo do escore entre os itens atingir um nível baixo o suficiente. Nesses dois casos, a quantidade total de itens respondidos tende a ser variável entre as pessoas. Outro critério de interrupção recomendado é atingir uma quantidade fixa de itens. Essa modalidade é recomendada quando o instrumento for utilizado em contextos em que a diferença na quantidade de itens possa gerar questionamentos entre as pessoas avaliadas (por exemplo, em processos seletivos). Para o presente estudo, foram estudados dois critérios: diferença no cálculo dos escores e quantidade fixa de itens (Babcock & Weiss, 2012Babcock, B., & Weiss, D. (2012). Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective measurement? Journal of Computerized Adaptive Testing, 1(1), 1-18. https://doi.org/10.7333/1212-0101001
https://doi.org/10.7333/1212-0101001...
; Wang et al., 2019Wang, C., Weiss, D. J., & Shang, Z. (2019). Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 84(3), 749-771. https://doi.org/10.1007/s11336-018-9644-7
https://doi.org/10.1007/s11336-018-9644-...
; Yao, 2013Yao, L. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules. Applied Psychological Measurement, 37(1), 3-23. https://doi.org/10.1177/0146621612455687
https://doi.org/10.1177/0146621612455687...
; Yasuda et al., 2021Yasuda, J., Mae, N., Hull, M. M., & Taniguchi, M. (2021). Optimizing the length of computerized adaptive testing for the Force Concept Inventory. Physical Review Physics Education Research, 17(1), 010115. https://doi.org/10.1103/PhysRevPhysEducRes.17.010115
https://doi.org/10.1103/PhysRevPhysEducR...
).

Independentemente do critério de interrupção do teste, durante a aplicação do TAVoc, a pontuação da pessoa era calculada a partir do acerto e erro nos itens, com base na TRI, mais especificamente o modelo de 3 parâmetros, método de máxima verossimilhança, também utilizado durante o Estudo 1. Essa pontuação é representada pela letra grega theta. Esse cálculo permitiu o estudo do primeiro critério de parada. Como a sequência de itens implica em aumentos e diminuições nas suas dificuldades de acordo com o desempenho do participante, a estimativa do theta vai se tornando cada vez mais precisa, ou seja, a diferença entre o valor de theta no item atual e o valor de theta no item anterior torna-se cada vez menor. Nesse caso, após se obter uma precisão suficiente no cálculo do theta (a diferença entre o theta no item atual e o theta calculado no item anterior é menor que um valor pré-definido), considera-se a testagem encerrada, independentemente de quantos itens a pessoa respondeu até ali (Babcock & Weiss, 2012Babcock, B., & Weiss, D. (2012). Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective measurement? Journal of Computerized Adaptive Testing, 1(1), 1-18. https://doi.org/10.7333/1212-0101001
https://doi.org/10.7333/1212-0101001...
; Wang et al., 2019Wang, C., Weiss, D. J., & Shang, Z. (2019). Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 84(3), 749-771. https://doi.org/10.1007/s11336-018-9644-7
https://doi.org/10.1007/s11336-018-9644-...
).

Comumente as versões adaptativas de testes necessitam de uma quantidade menor do que sua versão com itens fixos para avaliar com a mesma precisão e índices de validade. A fim de estudar esse aspecto, utilizou-se também o critério de interrupção de 20 itens (ou seja, a quantidade do TVoc original). Nessa modalidade, os itens são escolhidos de maneira adaptativa, mas interrompe-se a aplicação após o 20º item. Portanto, três escores do TAVoc foram calculados: TAVoc-T, o valor de theta após responder 20 itens; TAVoc-50, o valor de theta quando a diferença em relação ao item anterior atingia o critério de 0,50; TAVoc-20, o valor de theta quando a diferença em relação ao item anterior atingia o critério de 0,20. O estudo da pertinência de cada uma dessas pontuações se deu por meio dos índices de correlação com os outros instrumentos, o que poderia indicar melhores ou piores evidências de validade.

Resultados e Discussão

A Tabela 3 apresenta as estatísticas descritivas dos instrumentos utilizados neste estudo. As médias e desvios padrões mostraram-se perto daqueles esperados, sendo que RV e RA mostraram-se ligeiramente abaixo da expectativa normativa (média 100). Não obstante, percebe-se adequada variabilidade nas pontuações de todos os instrumentos, cobrindo-se faixa ampla dos seus respectivos construtos.

Tabela 3
Estatísticas Descritivas dos Instrumentos

Especificamente em relação ao TAVoc, para se atingir o critério de 0,50, a média de itens necessários foi 7,47 (DP = 2,45); para se atingir o critério de 0,20, a média de itens necessários foi 16,87 (DP = 2,81). Sabe-se da literatura que há necessidade de mais itens para um maior nível de precisão (Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.), sendo que, no caso do TAVoc, o critério de 0,20 aproximou-se da quantidade total de 20 itens. Como reflexo disso, o valor médio de diferença de theta do item 19 para o item 20 foi 0,19 (DP = 0,06). Com essas informações, percebe-se que, caso fosse adotado um critério mais exigente (como diferença de 0,10), mais do que 20 itens seriam necessários.

A seguir foram estudados os níveis de associação do TAVoc com os outros instrumentos. A Tabela 4 apresenta os índices das correlações. Como esperado pelo fato do critério 0,20 ser muito próximo da pontuação total de 20 itens, a correlação entre TAVoc-T e TAVoc-20 foi muito alta. Já a correlação entre TAVoc-T e TAVoc-50, embora formalmente alta, foi abaixo do esperado ao se pensar em formas paralelas de um mesmo instrumento. Isso parece indicar que o critério de 0,50 é aquém do desejado para uma avaliação com adequada precisão. Como reflexo disso, percebe-se que as correlações do TAVoc-50 com as outras medidas foram menores do que TAVoc-T e TAVoc-20.

Tabela 4
Correlações entre os Instrumentos, com Índice r abaixo da Diagonal e n acima da Diagonal

No que diz respeito às hipóteses elaboradas, considera-se que a hipótese H1 foi corroborada para os escores TAVoc-T e TAVoc-20, não sendo comprovada para o escore TAVoc-50. Como mencionado anteriormente, o critério de 0,50 de diferença mínima para cálculo do escore final (theta) produziu um instrumento que apresenta uma relação moderada com outra medida de extensão de vocabulário, quando se esperava um nível forte de correlação.

Ademais, o escore TAVoc-20 apresentou correlação ligeiramente maior que TAVoc-T ao se comparar com RV. Trata-se de um resultado inesperado, pois o segundo escore (sempre 20 itens) apresenta mais itens que o primeiro, portanto, seria esperado que se mostrasse uma medida mais estável e de melhor indicador de validade. Esse resultado pode ser devido ao fato de que o TAVoc-T, por ter como critério uma quantidade fixa de 20 itens, continua apresentando itens, mesmo tendo ultrapassado um critério suficiente como 0,20. Possivelmente esses novos itens que continuam a ser apresentados sejam redundantes para o indivíduo respondendo, fazendo com que sofra influência de cansaço ou distração. Com os dados coletados na presente pesquisa não é possível confirmar essa hipótese explicativa, sendo necessário outros estudos que enderecem a questão de continuar a aplicação CAT mesmo após o critério de interrupção ter sido atingido. Não obstante, considera-se uma diferença extremamente pequena entre os dois índices de correlação (0,02), ainda sugerindo que ambos escores mostram-se semelhantemente relacionados à outra medida de vocabulário.

Ainda sobre a relação entre TAVoc e RV, considera-se esperado que o nível de correlação entre os dois testes fosse perto de 0,50 e não mais alto como 0,70. Apesar de ambos avaliarem extensão de vocabulário, RV o faz, utilizando analogias entre as palavras, o que também requer inteligência fluida (Primi & Almeida, 2000Primi, R., & Almeida, L. S. (2000). Bateria de Provas de Raciocínio (BPR-5): Manual técnico. Casa do Psicólogo.). Portanto, o escore de RV é um reflexo de dois processamentos cognitivos, e não apenas um, como acredita-se ser o caso do TAVoc. Possivelmente a relação do TAVoc com outro instrumento que avalie apenas extensão de vocabulário apresente índices mais elevados. Não obstante, considera-se os resultados atuais como evidência de validade convergente.

Em relação à hipótese H2, considera-se corroborada pelos resultados ao se encontrar associações leves a moderadas entre TAVoc e as medidas de inteligência fluida e compreensão emocional, também considerados aspectos cognitivos. Níveis leves a moderados de correlação são frequentemente encontrados em estudos com testes de diversos tipos de inteligência, o que se entende como indicador de um processamento central compartilhado por várias formas de raciocínio, frequentemente chamado de fator g (Schneider & McGrew, 2018Schneider, W. J., & McGrew, K. S. (2018). The Cattell-Horn-Carroll theory of cognitive abilities. Em D. P. Flanagan & E. M. McDonough (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (4th ed., pp. 73-163). Guilford Press.).

Além disso, embora não fosse o foco do presente estudo, percebe-se moderado nível de associação entre conhecimento emocional (TOHE-O) e raciocínio verbal (RV), corroborando o resultado de pesquisas anteriores com inteligência emocional que mostram associações moderadas com outras medidas de inteligência (Mayer, Caruso, & Salovey, 2016Mayer, J. D., Caruso, D. R., & Salovey, P. (2016). The ability model of emotional intelligence: Principles and updates. Emotion Review, 8(4), 290-300. https://doi.org/10.1177/1754073916639667
https://doi.org/10.1177/1754073916639667...
).

Apenas 1 participante respondeu RV e RA, não sendo possível estudar o nível de correlação entre as duas provas. O mesmo ocorreu com TOHE e RA.

Por fim, considera-se que a hipótese H3 foi corroborada. Como testes de inteligência e medidas de personalidade tendem a mostrar correlações fracas, considera-se esse resultado como evidências de validade divergente para o TAVoc, ou seja, o construto avaliado pelo instrumento pouco se relaciona com sociabilidade, um aspecto de personalidade.

Considerações Finais

O objetivo deste artigo foi apresentar os estudos de construção (Estudo 1) e validade (Estudo 2) do Teste Adaptativo de Extensão de Vocabulário (TAVoc). No Estudo 1, após a análise dos parâmetros psicométricos de 110 itens aplicados em uma extensa amostra, foi possível a criação de um banco de 96 itens para compor o teste. Esses itens apresentaram dificuldades estendendo-se em uma ampla faixa do construto, considerando-se adequados para a utilização na versão CAT do teste.

No Estudo 2, o TAVoc foi aplicado junto de outros instrumentos que avaliavam raciocínio verbal, inteligência fluida, compreensão emocional e sociabilidade. Três escores adaptativos do TAVoc foram estudados, sendo um com a aplicação de 20 itens (TAVoc-T), um seguindo o critério de diferença de 0,50 no cálculo do theta (TAVoc-50) e um seguindo o critério de diferença de 0,20 (TAVoc-20). Encontrou-se que o critério de 0,50 era inadequado, resultando em uma pontuação com evidências de validade aquém do esperado. Os escores TAVoc-T e TAVoc-20 mostraram-se dentro do esperado, isto é, correlacionaram-se fortemente com raciocínio verbal, leve a moderadamente com inteligência fluida e compreensão emocional, e fracamente com sociabilidade.

Devido à proximidade dos resultados desses dois escores, considera-se na prática que a utilização de um ou de outra seria indiferente. Contudo, deve-se considerar a existência de contextos de avaliação que o uso de testes adaptativos sem quantidade fixa de itens pode gerar questionamentos (American Educational Research Association, American Psychological Association, & National Council on Measurement in Education, 2014American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.; Chen et al., 2020Chen, C., Wang, W., Chiu, M. M., & Ro, S. (2020). Item selection and exposure control methods for computerized adaptive testing with multidimensional ranking items. Journal of Educational Measurement, 57(2), 343-369. https://doi.org/10.1111/jedm.12252
https://doi.org/10.1111/jedm.12252...
; Primi, 2010Primi, R. (2010). Avaliação psicológica no Brasil: Fundamentos, situação atual e direções para o futuro. Psicologia: Teoria e Pesquisa, 26(especial), 25-35. https://doi.org/10.1590/S0102-37722010000500003
https://doi.org/10.1590/S0102-3772201000...
; Wang et al., 2019Wang, C., Weiss, D. J., & Shang, Z. (2019). Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 84(3), 749-771. https://doi.org/10.1007/s11336-018-9644-7
https://doi.org/10.1007/s11336-018-9644-...
). Em avaliações em que o resultado do teste tem uma maior importância percebida (como desempenho escolar ou processo seletivo para uma vaga), uma pessoa pode se sentir prejudicada por responder, por exemplo, apenas 12 itens e ter um desempenho inferior a outra pessoa que respondeu 15 itens. Sabe-se, por meio dos estudos de validade do TAVoc, que seus desempenhos permaneceriam semelhantes mesmo se cada pessoa respondesse 20 itens, uma vez que o cálculo do theta se mostrou estável (segundo o critério de 0,20 entre o item anterior e o atual) próximo dessa quantidade de itens. Porém, trata-se de uma situação que diz respeito à validade consequencial da testagem, isto é, um aspecto do funcionamento do teste impactando negativamente o indivíduo. Uma forma de se endereçar essa questão (não apenas para o TAVoc, mas outros testes adaptativos) seria permitir a aplicação em dois formatos: utilizando-se o critério de interrupção (como a diferença suficiente entre thetas), recomendado para situações em que a quantidade total de itens tem pouco ou nenhum impacto na percepção das pessoas avaliadas; ou aplicação de um número fixo de itens (mesmo que já se tenha atingido o critério de interrupção), recomendado para situações em que a quantidade variável de itens poderia provocar vieses na percepção da pessoa sobre a avaliação.

No que diz respeito ao desenvolvimento de testes adaptativos, o presente estudo contribui para um corpo crescente de evidências relacionadas à utilização dessa modalidade para avaliação. Deve-se considerar que a literatura não aponta para um caminho único para o funcionamento CAT, apresentando diversas propostas de escolha de itens, cálculo de precisão e critérios de interrupção. É possível encontrar estudos mostrando que instrumentos em formato CAT reduzem a quantidade total de itens necessários para avaliação do construto (Babcock & Weiss, 2012Babcock, B., & Weiss, D. (2012). Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective measurement? Journal of Computerized Adaptive Testing, 1(1), 1-18. https://doi.org/10.7333/1212-0101001
https://doi.org/10.7333/1212-0101001...
; Yao et al., 2013Yao, L. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules. Applied Psychological Measurement, 37(1), 3-23. https://doi.org/10.1177/0146621612455687
https://doi.org/10.1177/0146621612455687...
), enquanto há estudos mostrando que a redução de itens pode implicar em perda da precisão no cálculo do escore (Yasuda et al., 2021Yasuda, J., Mae, N., Hull, M. M., & Taniguchi, M. (2021). Optimizing the length of computerized adaptive testing for the Force Concept Inventory. Physical Review Physics Education Research, 17(1), 010115. https://doi.org/10.1103/PhysRevPhysEducRes.17.010115
https://doi.org/10.1103/PhysRevPhysEducR...
). No caso do TAVoc, ao se comparar a utilização de uma quantidade fixa de itens (20 itens) com quantidade flexível baseada na precisão do cálculo do theta, encontrou-se indicadores de validade muito semelhantes, enquanto um critério de interrupção que permitisse menor número de itens mostrou que a precisão do theta ficava prejudicava, o que resultou em indicadores insuficientes de validade. Percebe-se, assim, que ainda há muitos estudos a serem desenvolvidos em CAT, e que provavelmente a melhor escolha de critérios de funcionamento do instrumento esteja relacionada ao formato dos seus itens e construto sendo avaliado (Thompson & Weiss, 2011Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.).

Os estudos aqui apresentados foram os primeiros com o TAVoc. Logicamente, recomenda-se a ampliação das pesquisas para se continuar verificando a validade do teste. Por exemplo, uma vez que a aquisição de vocabulário está diretamente relacionada com idade e escolaridade (Ferracini et al., 2006Ferracini, F., Capovilla, A. G. S., Dias, N. M., & Capovilla, F. C. (2006). Avaliação de vocabulário expressivo e receptivo na educação infantil. Revista Psicopedagogia, 23(71), 124-133.; León et al., 2019León, C. B. R., Almeida, Á., Lira, S., Zauza, G., Pazeto, T. C. B., Seabra, A. G., & Dias, N. M. (2019). Consciência fonológica e habilidades iniciais de leitura e escrita na educação infantil: Dados normativos preliminares. Revista CEFAC , 21(2), e7418. https://doi.org/10.1590/1982-0216/20192127418
https://doi.org/10.1590/1982-0216/201921...
; Nóro & Mota, 2019Nóro, L. A., & Mota, H. B. (2019). Relação entre extensão média do enunciado e vocabulário em crianças com desenvolvimento típico de linguagem. Revista CEFAC , 21(6), e4419. https://doi.org/10.1590/1982-0216/20192164419
https://doi.org/10.1590/1982-0216/201921...
), recomenda-se pesquisas relacionando o desempenho escolar com o TAVoc; ou ainda, considerando-se que déficits cognitivos frequentemente se associam a perda de vocabulário (Guaresi et al., 2013Guaresi, R., Pereira, V. W., Portuguez, M. W., & Viali, L. (2013). Nomeação e fluência verbal em portadores de esclerose múltipla. Letras de Hoje, 48(1), 40-49. Recuperado de https://revistaseletronicas.pucrs.br/index.php/fale/article/view/11900
https://revistaseletronicas.pucrs.br/ind...
; Schirmer et al., 2004Schirmer, C. R., Fontoura, D. R., & Nunes, M. L. (2004). Distúrbios da aquisição da linguagem e da aprendizagem. Jornal de Pediatria, 80(2), 95-103. https://doi.org/10.1590/S0021-75572004000300012
https://doi.org/10.1590/S0021-7557200400...
), pesquisas futuras poderiam verificar o funcionamento do TAVoc em pacientes com comprometimento intelectual.

Por fim, algumas limitações podem ser apontadas na presente pesquisa, como a amostra de nível escolar predominantemente mais alto e maior concentração nas regiões Sudeste e Sul do Brasil. Apesar disso os resultados encontrados foram positivos quanto aos indicadores de validade do TAVoc, recomendando-se a continuidade de pesquisas com esse instrumento para verificar sua utilidade na avaliação da extensão de vocabulário.

Referências

  • American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.
  • Andrade, S. A., Santos, D. N., Bastos, A. C., Pedromônico, M. R. M., Almeida-Filho, N., & Barreto, M. L. (2005). Ambiente familiar e desenvolvimento cognitivo infantil: Uma abordagem epidemiológica. Revista de Saúde Pública, 39(4), 606-611. https://doi.org/10.1590/S0034-89102005000400014
    » https://doi.org/10.1590/S0034-89102005000400014
  • Araújo, M. V. M., Marteleto, M. R. F., & Schoen-Ferreira, T. H. (2010). Avaliação do vocabulário receptivo de crianças pré-escolares. Estudos de Psicologia (Campinas), 27(2), 169-176. https://doi.org/10.1590/S0103-166X2010000200004
    » https://doi.org/10.1590/S0103-166X2010000200004
  • Armonia, A. C., Mazzega, L. C., Pinto, F. C. de A., Souza, A. C. R. F., Perissinoto, J., & Tamanaha, A. C. (2015). Relação entre vocabulário receptivo e expressivo em crianças com transtorno específico do desenvolvimento da fala e da linguagem. Revista CEFAC, 17(3), 759-765. https://doi.org/10.1590/1982-021620156214
    » https://doi.org/10.1590/1982-021620156214
  • Babcock, B., & Weiss, D. (2012). Termination criteria in computerized adaptive tests: Do variable-length CATs provide efficient and effective measurement? Journal of Computerized Adaptive Testing, 1(1), 1-18. https://doi.org/10.7333/1212-0101001
    » https://doi.org/10.7333/1212-0101001
  • Basílio, C. S., Puccini, R. F., Silva, E. M. K., & Pedromônico, M. R. M. (2005). Living conditions and receptive vocabulary of children aged two to five years. Revista de Saúde Pública , 39(5), 725-730. https://doi.org/10.1590/S0034-89102005000500005
    » https://doi.org/10.1590/S0034-89102005000500005
  • Borges, M. T., & Azoni, C. A. S. (2021). A literacia familiar no desenvolvimento de habilidades linguísticas e metalinguísticas de pré-escolares. Revista CEFAC , 23(4), e2521. https://doi.org/10.1590/1982-0216/20212342521
    » https://doi.org/10.1590/1982-0216/20212342521
  • Brancalioni, A. R., Marini, C., Cavalheiro, L. G., & Keske-Soares, M. (2010). Desempenho em prova de vocabulário de crianças com desvio fonológico e com desenvolvimento fonológico normal. Revista CEFAC , 13(3), 428-436. https://doi.org/10.1590/S1516-18462010005000011
    » https://doi.org/10.1590/S1516-18462010005000011
  • Carbonieri, J., & Lúcio, P. S. (2020). Avaliação do vocabulário em crianças brasileiras: Revisão sistemática de estudos com três instrumentos. CoDAS, 32(3), e20180245. https://doi.org/10.1590/2317-1782/20202018245
    » https://doi.org/10.1590/2317-1782/20202018245
  • Chen, C., Wang, W., Chiu, M. M., & Ro, S. (2020). Item selection and exposure control methods for computerized adaptive testing with multidimensional ranking items. Journal of Educational Measurement, 57(2), 343-369. https://doi.org/10.1111/jedm.12252
    » https://doi.org/10.1111/jedm.12252
  • Ferracini, F., Capovilla, A. G. S., Dias, N. M., & Capovilla, F. C. (2006). Avaliação de vocabulário expressivo e receptivo na educação infantil. Revista Psicopedagogia, 23(71), 124-133.
  • Gândara, J. P., & Befi-Lopes, D. M. (2010). Tendências da aquisição lexical em crianças em desenvolvimento normal e crianças com alterações específicas no desenvolvimento da linguagem. Revista da Sociedade Brasileira de Fonoaudiologia, 15(2), 297-304. https://doi.org/10.1590/S1516-80342010000200024
    » https://doi.org/10.1590/S1516-80342010000200024
  • Guaresi, R., Pereira, V. W., Portuguez, M. W., & Viali, L. (2013). Nomeação e fluência verbal em portadores de esclerose múltipla. Letras de Hoje, 48(1), 40-49. Recuperado de https://revistaseletronicas.pucrs.br/index.php/fale/article/view/11900
    » https://revistaseletronicas.pucrs.br/index.php/fale/article/view/11900
  • Gurgel, L. G., Plentz, R. D. M., Joly, M. C. R. A., & Reppold, C. T. (2010). Instrumentos de avaliação da compreensão de linguagem oral em crianças e adolescentes: Uma revisão sistemática da literatura. Neuropsicologia Latinoamericana, 2(1), 1-10.
  • León, C. B. R., Almeida, Á., Lira, S., Zauza, G., Pazeto, T. C. B., Seabra, A. G., & Dias, N. M. (2019). Consciência fonológica e habilidades iniciais de leitura e escrita na educação infantil: Dados normativos preliminares. Revista CEFAC , 21(2), e7418. https://doi.org/10.1590/1982-0216/20192127418
    » https://doi.org/10.1590/1982-0216/20192127418
  • Limissuri, R. C., & Befi-Lopes, D. (2009). Fonologia e vocabulário na percepção de educadoras sobre comunicação de pré-escolares. Revista Brasileira de Estudos Pedagógicos, 90(225), 433-448. https://doi.org/10.24109/2176-6681.rbep.90i225.518
    » https://doi.org/10.24109/2176-6681.rbep.90i225.518
  • Lodi, R. G., & Holanda, A. F. (2019). Há gamificação na psicologia brasileira? Uma revisão bibliográfica sistemática. Perspectivas em Psicologia, 23(1), 112-138. https://doi.org/10.14393/PPv23n1a2019-51040
    » https://doi.org/10.14393/PPv23n1a2019-51040
  • Mayer, J. D., Caruso, D. R., & Salovey, P. (2016). The ability model of emotional intelligence: Principles and updates. Emotion Review, 8(4), 290-300. https://doi.org/10.1177/1754073916639667
    » https://doi.org/10.1177/1754073916639667
  • Menezes, M. L. N. (2003). A construção de um instrumento para avaliação do desenvolvimento da linguagem: Idealização, estudo piloto para padronização e validação [Tese de Doutorado, Programa de Pós-Graduação em Saúde da Criança e da Mulher, Fundação Oswaldo Cruz]. Recuperado de https://www.arca.fiocruz.br/handle/icict/3380
    » https://www.arca.fiocruz.br/handle/icict/3380
  • Miguel, F. K. (2017). Instrumentos informatizados e testagem adaptativa computadorizada. Em B. F. Damásio & J. C. Borsa (Eds.), Manual de desenvolvimento de instrumentos psicológicos (pp. 195-214). Vetor.
  • Miguel, F. K. (2021). BOLIE: Bateria Online de Inteligência Emocional. Vetor.
  • Nóro, L. A., & Mota, H. B. (2019). Relação entre extensão média do enunciado e vocabulário em crianças com desenvolvimento típico de linguagem. Revista CEFAC , 21(6), e4419. https://doi.org/10.1590/1982-0216/20192164419
    » https://doi.org/10.1590/1982-0216/20192164419
  • Pereira, M. P. (2007). Desenvolvimento da linguagem. Em C. Coll, Á. Marchesi, & J. Palácios (Eds.), Desenvolvimento psicológico e educação (Vol. 1, pp. 160-180). Artmed.
  • Primi, R. (2010). Avaliação psicológica no Brasil: Fundamentos, situação atual e direções para o futuro. Psicologia: Teoria e Pesquisa, 26(especial), 25-35. https://doi.org/10.1590/S0102-37722010000500003
    » https://doi.org/10.1590/S0102-37722010000500003
  • Primi, R., & Almeida, L. S. (2000). Bateria de Provas de Raciocínio (BPR-5): Manual técnico. Casa do Psicólogo.
  • Schirmer, C. R., Fontoura, D. R., & Nunes, M. L. (2004). Distúrbios da aquisição da linguagem e da aprendizagem. Jornal de Pediatria, 80(2), 95-103. https://doi.org/10.1590/S0021-75572004000300012
    » https://doi.org/10.1590/S0021-75572004000300012
  • Schneider, W. J., & McGrew, K. S. (2018). The Cattell-Horn-Carroll theory of cognitive abilities. Em D. P. Flanagan & E. M. McDonough (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (4th ed., pp. 73-163). Guilford Press.
  • Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment Research & Evaluation, 16(1), 1-9.
  • Wang, C., Weiss, D. J., & Shang, Z. (2019). Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 84(3), 749-771. https://doi.org/10.1007/s11336-018-9644-7
    » https://doi.org/10.1007/s11336-018-9644-7
  • Yao, L. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules. Applied Psychological Measurement, 37(1), 3-23. https://doi.org/10.1177/0146621612455687
    » https://doi.org/10.1177/0146621612455687
  • Yasuda, J., Mae, N., Hull, M. M., & Taniguchi, M. (2021). Optimizing the length of computerized adaptive testing for the Force Concept Inventory. Physical Review Physics Education Research, 17(1), 010115. https://doi.org/10.1103/PhysRevPhysEducRes.17.010115
    » https://doi.org/10.1103/PhysRevPhysEducRes.17.010115

Nota dos autores:

  • 1
    Agradecemos às participantes do projeto de pesquisa durante a fase de criação dos itens: Isabela de Lima Vieira, Mayra Guasque de Camargo, Miriam Chicalski, Nathalia Hitomi Watanabe Ricardo e Sumayla Luane Geha Moura.

Editado por

Editor: Gisele Magarotto Machado

Datas de Publicação

  • Publicação nesta coleção
    18 Out 2024
  • Data do Fascículo
    2024

Histórico

  • Recebido
    21 Fev 2023
  • Revisado
    18 Jan 2024
  • Aceito
    23 Fev 2024
Universidade de São Francisco, Programa de Pós-Graduação Stricto Sensu em Psicologia R. Waldemar César da Silveira, 105, Vl. Cura D'Ars (SWIFT), Campinas - São Paulo, CEP 13045-510, Telefone: (19)3779-3771 - Campinas - SP - Brazil
E-mail: revistapsico@usf.edu.br