Assessment with construct-response items: validity, reliability, comparability, and fairness

Toffoli, Sônia Ferreira Lopes; Andrade, Dalton Francisco de; Bornia, Antonio Cezar; Quevedo-Camargo, Gladys

doi:10.1590/S1517-9702201606135887

Abstract

Large-scale assessments may guide important decisions depending on the area in which they are applied. In educational exams, objectives may focus on individual differences, monitoring the performance of students in different contexts, as well as on the assessment of educational programs or projects, supporting or justifying actions in the political sphere. The validity of the measures and their interpretation are of paramount importance, as their consequences may affect the population involved and even the whole society. The key issues for large-scale assessment are validity, reliability, comparability, and fairness. These terms should be considered whenever value decisions are made based on the assessments. This article discusses the concepts of validity and reliability, as well as the relationship between them. The comparison of assessments with construct-response items is currently an issue of great concern to experts, due to the increased use of shared reference matrices developed to guide curricula at all educational levels in several nations. This article also discusses fairness in evaluations, which is related to the requirement to ensure equal conditions to all participants. Quality assessment should provide all with opportunities for responses which ensure correct inferences about their performance in relation to the construct measured. The aim of this article is to describe the main theories present in large-scale assessments, providing information for the correct interpretation of the concepts involved in their processes.

Large-scale assessment; Validity; Reliability; Comparability; Fairness

[1] Sônia Ferreira Lopes Toffoli é mestre em matemática aplicada pela Universidade Estadual de Campinas (UNICAMP), doutora em engenharia de produção pela Universidade Federal de Santa Catarina e professora adjunta da Universidade Estadual de Londrina.

Dalton Francisco de Andrade é professor doutor titular aposentado do Departamento de Informática e Estatística da Universidade Federal de Santa Catarina. Atualmente, é professor voluntário junto aos programas de pós-graduação do Departamento de Engenharia de Produção (PPGEP), e do Programa de Pós-Graduação em Métodos e Gestão em Avaliação (PPGMGA), do Departamento de Informática e Estatística, ambos da Universidade Federal de Santa Catarina, e pesquisador associado da Fundação Vunesp.

Antonio Cezar Bornia é professor titular do Departamento de Engenharia de Produção e Sistemas, Universidade Federal de Santa Catarina. Possui graduação em engenharia mecânica pela Universidade Federal do Paraná (1985), mestrado em engenharia de produção pela Universidade Federal de Santa Catarina (1988) e doutorado em engenharia de produção pela Universidade Federal de Santa Catarina (1995).

Gladys Quevedo-Camargo é doutora em estudos da linguagem pela Universidade Estadual de Londrina. Professora do Departamento de Línguas Estrangeiras e Tradução, Universidade de Brasília, Brasília, DF.

Brasil

Brasil

Assessment with construct-response items: validity, reliability, comparability, and fairness

Abstract