Consumer satisfaction and item response theory: creating a measurement scale

Bortolotti, Silvana Ligia Vincenzi; Moreira Junior, Fernando de Jesus; Bornia, Antonio Cezar; Sousa Júnior, Afonso Farias de; Andrade, Dalton Francisco de

doi:10.1590/S0104-530X2012000200005

Abstracts

Today, people have increasingly demanded more from the state and enterprises. Consumer satisfaction is not an organizational option, but rather a matter of survival for any institution. The quest for measurement of consumer satisfaction has been ongoing in many areas of research, and researchers have concentrated efforts to demonstrate the psychometric quality of their measurements. However, the techniques employed by these commitments have not kept pace with the advances in psychometric theory and methods. The Item Response Theory (IRT) is an approach used for assessing latent trait. It is commonly used in educational and psychological tests and provides additional information beyond that obtained from classic psychometric techniques. This article presents a model of cumulative application of item response theory to measure the extent of students' satisfaction with their courses by creating a measurement scale. The Graded Response Model was used. The results demonstrate the effectiveness of this theory in measuring satisfaction since it places both items as individuals on the same scale. This theory may be valuable in the evaluation of customer satisfaction and many other organizational phenomena. The findings may help the decision maker of an enterprise with the correction of flows, processes, and procedures, and, consequently, it may help generate increased efficiency and effectiveness in daily tasks and in event management business. Finally, the information obtained from the analysis can play a role in the development and/or evaluation of institutional planning.

management; measurement of satisfaction; item response theory; deecision making

O tema deste trabalho é a utilização da Teoria da Resposta ao Item (TRI) como ferramenta de avaliação de aspectos organizacionais específicos. O objetivo é aplicar um modelo cumulativo da TRI para criar uma medida de satisfação de alunos com seus cursos, avaliando também a satisfação no ensino e criando uma escala de medida. Muito utilizada nas áreas educacional e psicológica, a Teoria de Resposta ao Item (TRI) é uma abordagem utilizada para avaliação de traço latente e fornece informações adicionais além daquelas obtidas a partir de técnicas psicométricas clássicas. Neste estudo, foi utilizado o Modelo de Resposta Gradual de Samejima. Um instrumento foi aplicado a 525 alunos e gerou-se uma escala para mensurar a satisfação com seus cursos. Os resultados obtidos demonstram a eficácia da teoria na obtenção da medida de satisfação, uma vez que coloca tanto os itens como os indivíduos numa mesma escala. Também se concluiu que esta teoria pode ser valiosa na avaliação da satisfação do consumidor e de vários outros fenômenos organizacionais. Seus resultados podem auxiliar o tomador de decisão do empreendimento para a retificação de fluxos, processos e procedimentos, assim como para a geração de incremento de eficiência e eficácia nos eventos empresariais. Por fim, as informações obtidas das análises podem atuar na elaboração e/ou avaliação do planejamento institucional, principalmente nas elaborações de objetivos, ações e metas institucionais .

gestão; medida do nível de satisfação; teoria de resposta ao item; tomada de decisão

Avaliação do nível de satisfação de alunos de uma instituição de ensino superior: uma aplicação da teoria da resposta ao item

Consumer satisfaction and item response theory: creating a measurement scale

Silvana Ligia Vincenzi Bortolotti^I; Fernando de Jesus Moreira Junior^II; Antonio Cezar Bornia^III; Afonso Farias de Sousa Júnior^IV; Dalton Francisco de Andrade^V

^IUniversidade Federal do Paraná - UFPR, Av. Brasil, 4232, CP 271, CEP 85884-000, Medianeira, PR, Brasil, e-mail: sligie@globo.com

^IIDepartamento de Estatística, Universidade Federal de Santa Maria - UFSM, Av. Roraima, 1000, Cidade Universitária, Camobi, CEP 97105-900, Santa Maria, RS, Brasil, e-mail: fmjunior@smail.ufsm.br

^IIIDepartamento de Engenharia de Produção, Universidade Federal de Santa Catarina - UFSC, Campus Universitário, CP 476, Trindade, SC, Brasil, e-mail: cezar@deps.ufsc.br

^IVUniversidade da Força Aérea - UNIFA, Av. Marechal Fontelnelle, 1200, CEP 21740-000, Rio de Janeiro, RJ, Brasil, e-mail: bvfire@gmail.com

^VDepartamento de Informática e Estatística, Universidade Federal de Santa Catarina - UFSC, Campus Universitário, CP 476, Trindade, SC, Brasil, e-mail: dandrade@inf.ufsc.br

RESUMO

O tema deste trabalho é a utilização da Teoria da Resposta ao Item (TRI) como ferramenta de avaliação de aspectos organizacionais específicos. O objetivo é aplicar um modelo cumulativo da TRI para criar uma medida de satisfação de alunos com seus cursos, avaliando também a satisfação no ensino e criando uma escala de medida. Muito utilizada nas áreas educacional e psicológica, a Teoria de Resposta ao Item (TRI) é uma abordagem utilizada para avaliação de traço latente e fornece informações adicionais além daquelas obtidas a partir de técnicas psicométricas clássicas. Neste estudo, foi utilizado o Modelo de Resposta Gradual de Samejima. Um instrumento foi aplicado a 525 alunos e gerou-se uma escala para mensurar a satisfação com seus cursos. Os resultados obtidos demonstram a eficácia da teoria na obtenção da medida de satisfação, uma vez que coloca tanto os itens como os indivíduos numa mesma escala. Também se concluiu que esta teoria pode ser valiosa na avaliação da satisfação do consumidor e de vários outros fenômenos organizacionais. Seus resultados podem auxiliar o tomador de decisão do empreendimento para a retificação de fluxos, processos e procedimentos, assim como para a geração de incremento de eficiência e eficácia nos eventos empresariais. Por fim, as informações obtidas das análises podem atuar na elaboração e/ou avaliação do planejamento institucional, principalmente nas elaborações de objetivos, ações e metas institucionais .

Palavra-chave: gestão. medida do nível de satisfação. teoria de resposta ao item. tomada de decisão.

ABSTRACT

Today, people have increasingly demanded more from the state and enterprises. Consumer satisfaction is not an organizational option, but rather a matter of survival for any institution. The quest for measurement of consumer satisfaction has been ongoing in many areas of research, and researchers have concentrated efforts to demonstrate the psychometric quality of their measurements. However, the techniques employed by these commitments have not kept pace with the advances in psychometric theory and methods. The Item Response Theory (IRT) is an approach used for assessing latent trait. It is commonly used in educational and psychological tests and provides additional information beyond that obtained from classic psychometric techniques. This article presents a model of cumulative application of item response theory to measure the extent of students' satisfaction with their courses by creating a measurement scale. The Graded Response Model was used. The results demonstrate the effectiveness of this theory in measuring satisfaction since it places both items as individuals on the same scale. This theory may be valuable in the evaluation of customer satisfaction and many other organizational phenomena. The findings may help the decision maker of an enterprise with the correction of flows, processes, and procedures, and, consequently, it may help generate increased efficiency and effectiveness in daily tasks and in event management business. Finally, the information obtained from the analysis can play a role in the development and/or evaluation of institutional planning.

Keywords: management. measurement of satisfaction. item response theory. deecision making.

1 Introdução

Os últimos vinte anos premiaram os Estados, as empresas e a sociedade com inúmeros novos serviços, invenções e inovações para aplicação direta e indireta na vida dos consumidores. As empresas passaram a olhar com mais cuidado para o pós-venda e a continuar valorizando o cliente - mesmo após a compra do produto ou serviço. Fidelizar o consumidor é tarefa árdua e exige competência específica para lidar com este quesito nas dimensões locais, regionais e globais.

Frente às mudanças e transformações técnicas e socioeconômicas, é importante encontrar novos métodos que gerem condições apropriadas para o desenvolvimento das diversas áreas demandadas. A avaliação de procedimentos ou de processos, nesse caso, apresenta-se como ferramenta para compreensão dos problemas existentes e identificação de causas, ao mesmo tempo em que poderá permitir que novas medidas corretivas ou alternativas possam aumentar a eficácia e a eficiência dessas transformações. Avaliação, no sentido de medição, compreende tanto a avaliação de desempenho, como a avaliação da satisfação por determinado produto.

A avaliação da gestão institucional ajuda a perceber os óbices socioadministrativos, uma vez que proporciona a obtenção de informações necessárias para identificar e compreender as causas dos sucessos e fracassos dos empreendimentos, tanto nas questões individuais quanto naquelas relativas às equipes ou divisões (locais, regionais, globais etc.). As informações obtidas por meio da avaliação podem auxiliar na elaboração e revisão do planejamento estratégico e em outras tomadas de decisão. Mattar (2005), relativamente ao processo de administração de marketing, salienta que a disponibilidade de informações a respeito do mercado, do meio ambiente, do macroambiente de marketing e da própria empresa, em quantidade e com qualidade, é fundamental para a redução do risco na tomada de decisão. Evrard (1995) ratifica essa posição e evidencia que as informações obtidas por meio da avaliação da satisfação são utilizadas para traçar a estratégia de melhoria da qualidade e para implantar ações que efetivamente melhorem a satisfação, assim como a compreensão dos processos de formação da satisfação é empregada como ferramenta para a tomada de decisão.

As decisões gerenciais que são amparadas em fatos e dados, e não meramente na intuição, tendem a ser mais significativas na geração de resultados financeiros positivos para a empresa e ainda é importante verificar a satisfação dos consumidores e confrontar o desempenho da empresa com os concorrentes (PERILLO, 2000).

Empresas que promovem educação buscam a satisfação de seus alunos nos cursos que promovem. Este trabalho tem como objetivo utilizar a Teoria de Resposta ao Item como ferramenta de avaliação de aspectos organizacionais específicos, com aplicação do Modelo de Resposta Gradual de natureza cumulativa da TRI, na avaliação da satisfação de alunos quanto ao curso que frequentam, desenvolvendo uma escala de medida, em que se localizam os itens de satisfação e os respondentes numa mesma unidade de medida.

A avaliação de medida aplicada ao ensino para averiguar a satisfação de alunos quanto ao curso é essencial para as instituições de ensino, pois proporciona uma reflexão sobre os métodos empregados, bem como fornece subsídios para a melhoria da qualidade do ensino dos cursos oferecidos pela instituição. A pesquisa foi realizada com alunos da Universidade Tecnológica Federal do Paraná, na cidade de Medianeira.

Enfatiza-se que a Teoria de Resposta ao Item compreende modelos para avaliar traços latentes. Esses modelos apresentam formas de representar a relação entre o traço latente de um indivíduo, na área de conhecimento a ser avaliada ou verificada, o qual não pode ser observado diretamente, e a probabilidade dele dar uma certa resposta a um item. (ANDRADE; TAVARES; VALLE, 2000).

O artigo está estruturado da seguinte forma: no início, apresenta-se um breve referencial teórico sobre satisfação e a Teoria da Resposta ao Item, explicitando-se conceitos utilizados neste trabalho. Na sequência, foi abordado o método e apresentam-se os resultados, em que se destacam a coleta de dados, análise da dimensionalidade, estimação dos parâmetros, testes de ajustes, criação da escala de satisfação e posição dos respondentes na escala desenvolvida. As discussões e conclusão encerram o artigo.

2 Satisfação: conceitos e compreensão

A satisfação do consumidor vem sendo abordada por diversas áreas. Atualmente, na era da qualidade total, da globalização da economia e da administração estratégica, este conceito se dissemina em toda a organização.

Um importante critério para avaliar a qualidade das empresas é a satisfação dos consumidores. Este item representa 30% na avaliação geral para o prêmio Malcolm Baldrigde nos Estados Unidos, como também é levado em consideração na avaliação do Prêmio Deming no Japão, e ainda refere-se a 17% da pontuação total na avaliação para o Prêmio Nacional de Qualidade - PNQ, no Brasil (Rossi; Slongo, 1997).

Além disso, a importância do estudo da satisfação também pode ser evidenciada pelo fato de que vários países estão realizando a avaliação geral de satisfação de seus Clientes - Cidadãos e utilizando esse índice como uma forma de mensurar o desempenho de suas economias. O primeiro país a medir a satisfação de seus consumidores foi a Suécia, com o SCSB (Swedish Customer Satisfaction Barometer), em 1989. Em seguida, a Alemanha realizou suas análises em 1992, com o Deutsche Kundenbarometer (DK), os Estados Unidos em 1994 implementaram o seu ACSI (American Customer Satisfaction Index), a Nova Zelândia e Taiwan iniciaram as suas avaliações em 1996 e a União Europeia recomendou aos seus membros que fizessem o mesmo (MEDEIROS; FARIA, 2003; FORNELL et al., 1996).

A satisfação do consumidor é relevante para as empresas, porque seus lucros estão relacionados diretamente com a satisfação do consumidor. Os lucros são maximizados quando o consumidor está satisfeito e permanece leal ao seu produto. Isso é corroborado por Oliver (2009), quando enfatiza que a satisfação do consumidor vem sendo vista como fator crucial para o sucesso dos mais variados tipos de organizações, sobretudo por influenciar diretamente a lealdade à marca, repetição de compras, comunicação boca a boca (positiva), lucratividade e participação de mercado. Seguramente, toda a organização que deseja prosseguir com sucesso no mercado gostaria de saber como influenciar e controlar essas dimensões, especialmente porque o maior escopo das empresas é a maximização do lucro em médio e longo prazos. Assim, quando o assunto é lucratividade, essa relação torna a satisfação do consumidor um aspecto prioritário a ser levado em consideração no planejamento organizacional.

Clientes satisfeitos são mais fiéis à marca, com alto índice de retorno para fazer novos negócios. É dessa forma que a empresa consegue um percentual de fechamento superior a seus concorrentes. Além disso, o cliente fiel não somente volta como indica a companhia e a torna referência, pois suas opiniões são mais consideradas do que toda a propaganda paga e sem nenhum custo adicional.

Os benefícios proporcionados pela pesquisa de satisfação do consumidor, como: a) percepção mais positiva dos consumidores quanto à empresa; b) relações de fidelidade com os consumidores, baseadas em ações corretivas; c) dados precisos e atualizados quanto às necessidades dos consumidores; e d) confiança desenvolvida em função de maior aproximação com o consumidor, fazem com que os recursos destinados a aumentar a satisfação do consumidor sejam considerados como investimentos e não como despesas.

Desse modo, o consumidor passou a ser considerado peça primordial para o sucesso e desenvolvimento da empresa, pois a sua satisfação representa lucro e permanência no mercado (HASTREITER, 1998).

Na literatura, encontram-se vários conceitos de satisfação. Dentre eles, destacam-se os apresentados por Kotler (1994, p. 50), "[...] satisfação é o nível de sentimento de uma pessoa resultante da comparação do desempenho (ou resultado) de um produto em relação a suas expectativas.", e Mowen (1995, p. 511), "[...] é a atitude geral referente a um produto ou serviço depois de sua aquisição e uso. É a avaliação pós-compra resultante de uma seleção de compra específica.".

O termo "avaliação" pressupõe a existência de um parâmetro. Para a maioria dos autores, o grau de satisfação deriva de uma comparação realizada pelo consumidor, comparação essa que confronta o resultado da transação com uma referência anteriormente existente (SPRENG; MACKENZIE; OLSHAVSKY, 1996). O resultado desse processo comparativo pode ser positivo, negativo ou neutro, gerando satisfação ou insatisfação.

A satisfação é definida como um estado psicológico (EVRARD, 1995) e não pode ser observada diretamente. Ela é considerada uma variável latente e referida como traço latente ou construto, devendo ser inferida a partir da observação de variáveis secundárias que estejam relacionadas a ela. Dessa forma, tem-se procurado desenvolver escalas para medi-la. Frequentemente, essa medida é feita por levantamentos periódicos, empregando-se questionários de pesquisa que abordam questões qualitativas e quantitativas.

A análise para obter a expectativa, a percepção e o grau de satisfação dos consumidores, assim como a percepção da administração, é realizada por meio de técnicas estatísticas, como a análise fatorial (utilizando, principalmente, o método de componentes principais) e a análise de regressão.

Assim, medir a satisfação de um consumidor é uma questão de sobrevivência para qualquer organização. A empresa necessita liderar o processo para a busca contínua da satisfação, pois é um dos resultados mais importantes de um atendimento de boa qualidade. É necessário, então, haver um instrumento que indique se o caminho trilhado está ou não em conformidade com a expectativa do consumidor.

3 Teoria da Resposta ao Item e escala de medida

A TRI foi desenvolvida principalmente para suprir limitações da Teoria Clássica de Medidas (TCM). Uma das limitações da TCM é que o instrumento de medida depende das características dos respondentes que se submetem ao teste ou ao questionário (Hambleton; Swaminatan; ROGERS, 1991).

Inicialmente as aplicações da TRI foram desenvolvidas no âmbito educacional e, posteriormente, ela foi encontrando espaço em outras áreas, especialmente na área de gestão e produção com os trabalhos de Alexandre et al. (2002) e Vargas et al. (2008).

Dentre as vantagens da Teoria de Resposta ao Item sobre a Teoria Clássica de Medidas, destaca-se que a TRI:

a) Permite fazer comparações entre traço latente de indivíduos de populações diferentes quando são submetidos a testes ou questionário que tenham alguns itens comuns e, ainda, permite a comparação de indivíduos de mesma população submetidos a testes totalmente diferentes (ANDRADE; TAVARES; VALLE, 2000);

b) Possibilita uma melhor análise de cada item que forma o instrumento de medida, pois considera suas características específicas de construção de escalas;

c) Os itens e os indivíduos estão na mesma escala. Assim, o nível de uma característica que um indivíduo possui pode ser comparado ao nível da característica exigida pelo item, facilitando a interpretação da escala gerada e permitindo conhecer quais itens estão produzindo informação ao longo da escala (EMBRETSON; REISE, 2000);

d) Possui o princípio da invariância, isto é, os parâmetros dos itens não dependem do traço latente do respondente e os parâmetros dos indivíduos não dependem dos itens apresentados. Este princípio é um dos grandes benefícios da TRI (Hambleton; Swaminatan; ROGERS, 1991).

A TRI surgiu como uma forma de considerar cada item particularmente, sem relevar os escores totais. Portanto, as conclusões não dependem do teste ou questionário como um todo, como é feito na TCM, mas sim de cada item que o compõe (ARAUJO; ANDRADE; BORTOLOTTI, 2009).

A partir das respostas obtidas de respondentes a um conjunto de itens, a TRI possibilita a estimação dos parâmetros dos itens e dos indivíduos em uma escala de medida. Por exemplo, considere-se o construto nível de satisfação: uma análise feita por meio da TRI pode estimar o nível de satisfação do respondente (isto é, um parâmetro do indivíduo) e também os parâmetros dos itens, de modo a criar uma escala de medida do nível de satisfação.

Os modelos utilizados na TRI requerem dois pressupostos relevantes (EMBRETSON; REISE, 2000), a Curva Característica do Item - CCI e a independência local ou dimensionalidade.

A forma de uma curva característica do item descreve como a mudança do traço latente relaciona-se com a mudança na probabilidade de uma resposta específica (EMBRETSON; REISE, 2000).

A independência local é obtida quando, controlados pelo nível do traço latente, os itens do teste são independentes. Assim, a probabilidade de responder a um item é precisamente determinada pelo nível do traço latente do respondente e não por suas respostas a outros itens do conjunto (EMBRETSON; REISE, 2000; ANDRADE; TAVARES; VALLE, 2000). A independência local é vista como consequência da correta determinação da dimensionalidade dos dados (LORD, 1980). A dimensionalidade pode ser verificada por meio de uma Análise Fatorial apropriada para dados categorizados (EMBRETSON; REISE, 2000; ANDRADE; TAVARES; VALLE, 2000).

Os vários modelos existentes da TRI distinguem-se na forma matemática da função característica do item e/ou no número de parâmetros especificados no modelo. Todos os modelos podem conter um ou mais parâmetros relacionados aos itens e ao indivíduo (ANDRADE; BORTOLOTTI, 2007).

Foram desenvolvidos diversos modelos da Teoria da resposta ao item e a diferença principal entre estes modelos refere-se à suposição quanto ao relacionamento entre a seleção de opções de uma resposta e o nível do traço latente. Dentre os modelos desenvolvidos para itens com resposta gradual, destaca-se o Modelo de Resposta Gradual (MRG) de Samejima (1969, 1972, 1997). No MRG de Samejima, são estimados dois parâmetros relacionados com o item (EMBRETSON; REISE, 2000):

1º) b_i,k, parâmetro de dificuldade da k-ésima categoria do item i: este parâmetro é conhecido como o parâmetro "limiar". O parâmetro de dificuldade refere-se ao nível do traço latente no qual a probabilidade de um indivíduo selecionar uma categoria de resposta (por exemplo, insatisfeito) ou uma categoria mais alta ordenada (por exemplo, pouco insatisfeito, satisfeito ou muito satisfeito) é 0,5. Assim, ele representa o ponto na escala do traço latente onde há 50% de probabilidade de que uma dada categoria de resposta ou uma categoria mais alta ordenada seja selecionada, isto é, estes parâmetros representam os limiares entre as categorias de resposta;

2º) a_i, parâmetro de discriminação do item i: este parâmetro representa o quanto um item discrimina entre os respondentes de diferentes níveis do traço latente, determinando a "qualidade" do item. Quanto maior o valor deste parâmetro, melhor é o item e a discriminação entre os indivíduos nos diferentes níveis de traço latente .

Suponha que os escores das categorias de um item i sejam arranjados em ordem do menor para o maior e denotados por k = 0; 1; ...; m_i, em que (m_i + 1) é o número de categorias do i-ésimo item. A probabilidade de um indivíduo j escolher uma particular categoria de resposta ou outra mais alta do item i pode ser dada por uma extensão do Modelo Logístico de dois parâmetros (ML2) (ANDRADE; TAVARES; VALLE, 2000), conforme a Equação 1 :

com i = 1, 2, ..., I, j = 1, 2, ..., n, e k = 0, 1, ..., m_i, em que:

b_i,k e a_i já foram definidos anteriormente,

θ_j representa o traço latente do respondente j, neste caso, o nível de satisfação do respondente em relação ao curso que frequenta, e

D é uma constante de escala igual a 1; utiliza-se o valor 1,7 quando se quer que os valores da função logística aproximem-se da função ogiva norma 1.

No MRG de Samejima, a discriminação de uma categoria específica de resposta depende tanto do parâmetro de discriminação a, comum a todas as categorias do item, quanto da distância das categorias de dificuldade adjacentes. Necessariamente, deve haver uma ordenação entre o nível de dificuldade das categorias de um dado item, de acordo com a classificação de seus escores, ou seja, b_i,1< b_i,2< ... < b_i,mi.

Desse modo, a probabilidade de um indivíduo j receber um escore k no item i é dada pela expressão da Equação 2, que define o MRG de Samejima:

de tal forma que:

Observa-se que, em um item com (m_i + 1) categorias, m_i valores de dificuldade necessitam ser estimados, além do parâmetro de inclinação do item. Assim, para cada item, o número de parâmetros a ser estimado será dado pelo seu número de categorias de resposta. Neste trabalho, na medida de satisfação, com quatro categorias de respostas, são estimados três parâmetros de dificuldade e um de discriminação.

A Figura 1 apresenta a curva característica do item 22 ("medidas adotadas para aprimorar a metodologia das aulas nas disciplinas do curso") que compõe o instrumento de medida avaliado neste trabalho. Cada item contém quatro categorias de respostas: insatisfeito, pouco insatisfeito, satisfeito e muito satisfeito.

Na Figura 1, o traço latente (θ - nível de satisfação) está representado no eixo x e a probabilidade de selecionar uma determinada categoria de resposta em um dado nível do traço latente está representada no eixo y. A curva característica do MRG tem a seguinte interpretação: respondentes que possuem nível de satisfação inferior a -1,48 têm maior probabilidade de responder a categoria 1 (insatisfeito), respondentes que estão situados entre -1,48 e 0,80 têm maior probabilidade de responder a categoria 2 (pouco insatisfeito), respondentes que possuem nível de satisfação entre 0,80 e 2,89 têm maior probabilidade de responder a categoria 3 (satisfeito) e respondentes que apresentam o nível de satisfação maior que 2,89 têm maior probabilidade de responder a categoria 4 (muito satisfeito).

Nos modelos politômicos, o parâmetro de discriminação deve ser interpretado cuidadosamente (Matteucci: Stracqualursi, 2006). Para avaliar a quantia de discriminação que um item fornece, utiliza-se a curva de informação do item (CCI). A função de informação do item é dada pela expressão da Equação 3:

em que P_ik'(θ) é a primeira derivada da curva de resposta da categoria avaliada em um particular nível do traço latente. A curva de informação total do teste é a soma das informações fornecidas por cada item que o compõe. A curva de informação do total é utilizada para avaliar o desempenho dos itens, ou seja, o quão bem um conjunto de itens está avaliando o traço latente. A função de informação está relacionada com a precisão necessária para estimar o traço latente, de forma que o erro padrão de medida pode ser estimado como o inverso da raiz quadrada do valor da informação total do teste em cada nível do traço latente.

A estimação dos parâmetros do MRG pode ser feita por Máxima Verossimilhança ou métodos bayesianos (BAKER, 1992). O processo de estimação dos parâmetros dos itens e dos respondentes está implementado em softwares tais como MULTILOG (THISSEN, 1991; TOIT, 2003) e PARSCALE (MURAKI; BOCK, 1997; TOIT, 2003). Neste trabalho, os parâmetros do modelo foram estimados no software MULTILOG (THISSEN, 2003), por meio do método da Máxima Verossimilhança Marginal .

O Modelo de Resposta Gradual avalia somente um traço latente, ou seja, é unidimensional. A verificação da unidimensionalidade é feita por meio da Análise Fatorial. Neste trabalho, considera-se o critério de Reckase (1979), o qual sugere que os resultados podem indicar um fator dominante quando o primeiro fator corresponde pelo menos a 20% da variância total.

Para interpretar os valores dos parâmetros dos itens (a, b), é necessário conhecer a escala na qual foram determinados (ANDRADE; TAVARES; VALLE, 2000). A construção da escala é feita definindo-se níveis âncora e identificando-se itens âncora. Na identificação de itens âncora, utilizam-se três condições. Considerando-se dois níveis no traço latente, X e Y, com X < Y, um item é âncora para um nível Y se, e somente se, satisfizer as condições das Equações 4,5,6 (BEATON; ALLEN, 1992):

Isto significa que, para um item ser considerado âncora em um determinado nível âncora Y, é necessário que seja respondido positivamente por pelo menos 65% dos respondentes com este nível do traço latente e por uma proporção menor do que 50% dos respondentes de um nível de traço latente imediatamente inferior X. E, ainda, que a diferença entre a proporção de respondentes destes dois níveis consecutivos deve ser pelo menos de 30% (BEATON; ALLEN, 1992). Portanto, um item é considerado âncora quando for típico daquele nível ancora Y e atender às três condições das Equações 4,5,6). Entretanto, neste trabalho, considerou-se também que um item que atende pelo menos a duas das três condições é como "quase âncora" e deve ser incluído no seu respectivo nível âncora. Essas condições são válidas para os Modelos Logísticos (dicotômicos) da TRI, porém podem ser adaptadas ao MRG (MAFRA, 2010), no qual não é verificado se um item é âncora, mas se uma categoria do item é âncora .

4 Método e resultados

4.1 Coleta de dados

O instrumento utilizado faz parte de um questionário de avaliação, referente ao ensino, desenvolvido pela UNIOESTE, Cascavel, PR, e encontra-se no ^{Apêndice A} Apêndice A . O instrumento continha 35 itens, e cada item apresentava seis categorias de resposta: 1) totalmente insatisfeito, 2) insatisfeito, 3) pouco insatisfeito, 4) pouco satisfeito, 5) satisfeito, 6) totalmente satisfeito. Foi aplicado a 525 discentes dos cursos de Tecnologia daquela Instituição .

Estudos anteriores sobre o modelo de resposta gradual indicam que é necessária uma amostra de pelo menos 500 respondentes para obter uma calibração adequada dos itens (REISE; YU, 1990). Entretanto, itens com 6 categorias necessitam de uma amostra maior, já que muitas categorias ficam com poucas respostas, o que prejudica a estimação dos parâmetros. Por isso, os itens foram agrupados em 4 categorias: 1) insatisfeito, compreendendo as categorias 1 e 2; 2) pouco insatisfeito, compreendendo as categorias 3 e 4; 3) satisfeito, compreendendo a categoria 5; e 4) muito satisfeito, compreendendo a categoria 6.

4.2 Análise de dimensionalidade

A suposição de unidimensionalidade foi verificada por meio da Análise Fatorial seguindo o critério de Reckase (1979). Segundo o autor, os resultados podem indicar um fator dominante quando o primeiro fator corresponde pelo menos a 20% da variância total. A Tabela 1 mostra o resultado da extração dos autovalores da análise fatorial pelo método dos componentes principais.

Thumbnail

Os resultados da análise foram obtidos por meio do software SPSS, versão 17. Observa-se que o primeiro fator explica 33% da variância, atendendo ao critério de Reckase (1979). Portanto, pode-se concluir que há um fator dominante nos dados, satisfazendo a condição de unidimensionalidade para o uso do Modelo de Resposta Gradual .

4.3 Análises dos itens por meio do Modelo de Resposta Gradual

O processo de estimação dos parâmetros dos itens é denominado de calibração. Na Tabela 2, são visualizadas as estimativas dos parâmetros dos itens (a_i e b_i,k) para cada categoria (b_i,1, b_i,2 e b_i,3), obtidas por meio do software MULTILOG .

Thumbnail

O parâmetro b_i,1 indica o ponto de inflexão da curva da primeira categoria (insatisfeito). O b_i,3 (muito satisfeito), indica o ponto de inflexão da curva da última categoria. Os "b_i,k" intermediários referem-se aos pontos médios dos picos entre duas categorias adjacentes (pouco insatisfeito e satisfeito) (EMBRETSON; REISE, 2000). Neste trabalho, só existe um b intermediário, no caso o b_i,2, cujo valor é a média entre os pontos de picos entre as categorias 2 e 3. Já a média dos valores dos "b_i,k" indica qual a posição do item na escala. Os três itens com maior valor de b_i,k médio foram, em ordem crescente, os itens 20, 21 e 13. Já os itens com menor valor de b_i,k médio, também em ordem crescente, foram os itens 34, 35, 10 e 31.

Observa-se na Tabela 2 que os parâmetros de discriminação variaram de 0,79 a 2,17. Isto indica que todos os itens possuem um poder de discriminação satisfatório. Os três itens com maior grau de discriminação foram, em ordem crescente, 29, 22 e 24. Já os itens com menor poder de dificuldade, também em ordem crescente, foram os itens 19, 9 e 7. Os itens 32 e 33 apresentaram um baixo parâmetro de discriminação (<0,7); logo, são itens que não discriminam indivíduos satisfeitos dos que não estão satisfeitos. Estes itens foram eliminados da análise para a obtenção dessa calibração final.

A Figura 2 apresenta a curva característica e a função de informação do item 1. Este item possui a seguinte descrição: "Qualidade do curso de graduação que realiza". O parâmetro de discriminação é igual a 1,30, enquanto que o parâmetro de localização deste item, na escala (0, 1), é igual a -0,28. Indivíduos com satisfação nesta escala menor que -2,95 têm maior probabilidade de responder a categoria 1 (insatisfeito), indivíduos com grau de satisfação entre -2,95 e -0,40 têm maior probabilidade de responder a categoria 2 (pouco insatisfeito), indivíduos com grau de satisfação entre -0,40 e 2,52 têm maior probabilidade de responder a categoria 3 (satisfeito) e indivíduos com grau de satisfação maior que 2,52 têm maior probabilidade de responder a categoria 4 (muito satisfeito). É possível verificar os valores dos b_i,k nesse gráfico: o b_i,1 (-2,94) é o ponto de inflexão da categoria 1 (insatisfeito), o b_i,2 é o ponto médio na escala entre o valor máximo da categoria 2 (-1,6) e o máximo da categoria 3 (1,0), e o b_i,3 (2,52) é o ponto de inflexão da categoria 4 (muito satisfeito). Observa-se que esse item fornece informação praticamente constante no intervalo entre -3 e 3.

A Figura 3 apresenta a curva de informação do instrumento. Observa-se que o instrumento de medida tem maior informação no intervalo de -2,5 a 3. Isso significa que ele é mais adequado para medir a satisfação de indivíduos que possuem nível de satisfação entre -2,5 e 3, ou seja, ele é adequado para praticamente todos os indivíduos. A linha pontilhada representa o erro padrão. Nota-se que, nas regiões do nível de satisfação em que há quantidades maiores de informações, o erro padrão é menor.

4.4 Teste de ajuste do modelo

A Tabela 3 apresenta a distribuição de frequências dos 35 itens em relação à quantidade χ².gL^-1 (a razão entre o coeficiente qui-quadrado de ajuste da distribuição e os graus de liberdade), obtida por meio do programa MODFIT Web Demo (DRASGOW et al., 1995). Segundo Drasgow et al. (1995), para se ter um bom ajuste do modelo, deve-se obter χ².gL^-1 < 3. A primeira linha (Singlets) refere-se ao ajuste de cada um dos itens individualmente. A segunda linha (Doublets) refere-se ao ajuste de pares de itens, definidos dentro de grupos de itens de tamanho igual a três, os quais contêm itens de diferentes graus de dificuldade, definidos pelo MODFIT Web Demo. A terceira linha (Triplets) refere-se ao ajuste de trios de itens, definidos dentro dos mesmos grupos utilizados nos Doublets. Os resultados do teste de ajuste dos modelos, de acordo com Drasgow et al. (1995), indicam que o ajuste de modelo da Resposta Gradual foi bom. Os valores médios foram baixos para χ².gL^-1 (<3) em todos os tipos de ajustes testados (Singlets, Doublets e Triplets).

Thumbnail

4.5 Construção da escala de medida de satisfação

Os parâmetros dos itens e os parâmetros dos indivíduos são estimados na mesma métrica, ou seja, média 0 (zero) e desvio padrão 1 (um). É possível, para efeitos práticos, transformar os valores dos parâmetros tanto dos itens como indivíduos em outros valores, mas que mantenham as mesmas relações de ordem entre seus pontos. Neste sentido, a escala para a satisfação com relação ao curso foi construída com média 100 e desvio padrão 10 e utilizaram-se as transformações apresentadas nas Equações 7, 8, 9, 10

A escala da satisfação foi construída com base nos níveis âncora e quase âncora definidos na seção 2. Os cálculos das probabilidades para b_i,1 , b_i,2, b_i,3 estão apresentados nos ^{Apêndices B} Apêndices B Apêndice B - Clique para ampliar , ^C e ^D , respectivamente. As probabilidades para b_i,1 representam a probabilidade de um respondente, com aquele nível de satisfação, estar situado na categoria pouco insatisfeito ou em uma categoria mais elevada. As probabilidades para b_i,2 representam a probabilidade de determinado respondente, com aquele nível de satisfação, estar localizado na categoria satisfeito ou em uma categoria mais elevada. Já as probabilidades calculadas para b_i,3 representam a probabilidade de determinado respondente, com aquele nível de satisfação, estar na categoria muito satisfeito, que é a categoria mais elevada. A probabilidade de obter a categoria mais baixa ou superior (insatisfeito ou mais elevada) é igual a 1,0.

Com base nas probabilidades acumuladas, obtiveram-se os níveis âncoras e quase âncoras. Foram identificados seis níveis âncoras: níveis: 80, 90, 110, 110, 120 e 130. Nenhum item foi identificado para o nível 70. As Tabelas 4, 5 apresentam os níveis âncoras e quase âncoras, respectivamente, com seus relativos itens âncoras para as categorias pouco satisfeito, satisfeito e muito satisfeito.Fundamentando-se no conteúdo dos itens, os níveis da escala de satisfação podem ser assim definidos:

Thumbnail

Nível 80 - Caracteriza-se por identificar respondentes que estão pouco insatisfeitos com a organização na exposição de conteúdos, com as formas de avaliação utilizadas para avaliar os níveis de aprendizagem, com a seriedade demonstrada pelos docentes e dos alunos, com a qualidade do curso e com o nível de formação dos alunos que concluem o curso.

Nível 90 - Além das características anteriores, este nível identifica os respondentes que estão pouco insatisfeitos com a capacidade e qualificação manifestada pelos alunos para leitura e escrita de textos científicos, com a oportunidade de iniciação dos alunos na pesquisa, com as medidas adotadas para aprimorar a metodologia das aulas e avaliação dos alunos nas disciplinas, com os procedimentos adotados pelo curso para a qualificação dos conteúdos desenvolvidos nas disciplinas, com a dinâmica das aulas para manter a atenção dos alunos, com os mecanismos de atendimento e orientação acadêmica dos alunos no dia a dia dos cursos, com o comprometimento efetivo dos docentes com a qualificação do curso, do conhecimento da situação dos alunos que concluíram o curso, com o nível de formação dos alunos que ingressam no curso e com a oportunidade de treinamento e inserção no mercado de trabalho oferecido pelo curso.

Nível 100 - Caracteriza-se por identificar respondentes que estão satisfeitos com relação ao nível de formação atingido pelos alunos que concluem o curso e com a qualidade do curso e com a dinâmica das aulas para manter a atenção dos alunos, além das características dos níveis anteriores.

Nível 110 - Caracteriza-se por identificar respondentes que estão satisfeitos quanto à organização de conteúdos pelos docentes, com a qualidade dos planos de ensino, bem como com a estrutura curricular do curso, com a criatividade demonstrada, oportunidade de iniciação dos alunos na pesquisa, com as condições para a dedicação ao curso, com o atendimento da orientação acadêmica, com o comprometimento dos docentes e conhecimento deles quanto à qualificação do curso, além das características dos níveis anteriores.

Nível 120 - Caracteriza-se por identificar respondentes que estão satisfeitos com as medidas para superar as dificuldades dos alunos com deficiências nas disciplinas, com as medidas adotadas para aprimorar a metodologia das aulas, bem como a avaliação e com a capacidade dos alunos para a leitura e escrita de trabalhos científicos, além das características dos níveis anteriores.

Nível 130 - Caracteriza-se por identificar respondentes que estão muito satisfeitos quando a qualidade do curso que realiza, bem como com as condições dos alunos quanto à dedicação ao curso e com o comprometimento dos docentes com a qualificação do curso e dinâmica das aulas para manter a atenção dos alunos, além das características dos níveis anteriores.

4.6 Localização dos respondentes na escala de medida de satisfação

A Figura 4 apresenta a distribuição dos respondentes nos níveis da escala de satisfação.

Nota-se que a maioria dos respondentes (aproximadamente 94%) está concentrada nos níveis 100 e 110, ou seja, 52,38% dos respondentes encontram-se no nível 100 e 41,90% situam-se no nível 110, indicando que eles estão satisfeitos com os itens relativos a estes níveis. Apenas 0,95% situam-se no nível 120. Nota-se uma porcentagem muito pequena de respondentes localizados nos níveis 80 e 90, isto é, 0,19% e 4,5%, respectivamente, sugerindo que eles estão pouco satisfeitos (ou insatisfeitos) com os itens relativos a estes níveis. Não há nenhum respondente no nível 130.

5 Discussão e conclusão

A utilização da Teoria da Resposta ao Item (TRI) em avaliações é uma tendência universal. A TRI tem sido utilizada na área educacional, proporcionando uma avaliação mais precisa do fenômeno estudado e também está encontrando espaço em outras áreas, avaliando outros tipos de traços latentes, principalmente os relacionados com fenômenos organizacionais.

Embora a TRI possua muitas vantagens (EMBRETSON; REISE, 2000), ela apresenta também algumas limitações. Uma delas está relacionada quanto ao tamanho da amostra. Para se obter estimativas dos parâmetros dos itens com baixos erros padrões, deve-se ter uma amostra significativa de respondentes. O número de respondentes depende do número de parâmetros a serem estimados e do número de categorias de respostas no item. No presente estudo, foram estimados 140 parâmetros (Tabela 1), com uma amostra de 525 respondentes. A análise de dimensionalidade mostrou que o instrumento de medida avalia um traço latente dominante que, no caso, é o nível de satisfação, satisfazendo o critério de unidimensionalidade do MRG.

Os resultados deste estudo mostram que o modelo de Escala Gradual foi adequado para a análise e construção de uma escala para avaliar satisfação quando os itens possuem mais de duas categorias de respostas ordenadas.

As estatísticas de ajuste obtidas pelo programa MODFIT Web Demo mostraram que os dados se ajustaram bem ao modelo MRG para os três tipos de ajustes testados (Singlets, Doublets e Triplets).

O instrumento utilizado neste trabalho para avaliar o curso continha 35 itens. Na calibração dos itens, dois foram eliminados por apresentarem um valor baixo de discriminação, restando 33 itens para a construção da escala. A Teoria de Resposta ao Item permitiu a criação de uma escala de medida de satisfação baseada em níveis âncoras e quase âncoras. Nesta escala, é possível caracterizar o nível no qual cada respondente se encontra, quanto a sua satisfação em relação ao curso. Neste trabalho, foram criados seis níveis padronizados. Cada nível continha características relativas aos itens nele especificados.

Os resultados mostraram que a maioria dos respondentes situou-se em dois níveis na escala, indicando que os alunos estão satisfeitos com os itens investigados, bem como com as práticas desenvolvidas no curso.

O uso do Modelo de Resposta Gradual (MRG) e um instrumento de medida com respostas graduadas permite obter mais informação das respostas dos indivíduos, uma vez que leva em consideração a probabilidade de ele responder cada categoria de resposta.

Ressalta-se, ainda, que a TRI possibilita, por meio de um processo denominado equalização, que novos itens sejam adicionados a este instrumento de medida e sejam calibrados na mesma escala, permitindo a criação de um banco de itens para avaliar satisfação. Uma vez que os itens já estão calibrados, também é possível conhecer o nível de satisfação de outra amostra de respondentes.

Com esta aplicação, verificou-se que a TRI fornece estimativas consistentes para medidas de traços latentes. Na medida de satisfação, a aplicação da TRI permite uma avaliação do fenômeno em estudo com mais precisão e consistência e, consequentemente, fornece informações relevantes na tomada de decisões e no planejamento estratégico, podendo trazer uma grande contribuição na área de gestão .

Os resultados da TRI suprimem a intuição e fortalecem a racionalidade para a tomada de decisão. A importância da TRI reside no método aplicado e nos resultados obtidos, para posterior aplicação de medidas corretivas ou alternativas.

Recebido em 12/3/2011

Aceito em 29/8/2011

Suporte financeiro: Nenhum.

Apêndice A - Clique para ampliar

Apêndice A

Apêndice B - Clique para ampliar

Apêndices B Apêndice B - Clique para ampliar

Apêndice C - Clique para ampliar

Apêndice D - Clique para ampliar

ALEXANDRE, J. W. C. et al. Uma proposta de análise de um construto para a medição dos fatores críticos da gestão pela qualidade através da teoria da resposta ao item. Gestão & Produção, v. 9, n. 2, p. 129-141, 2002.
ANDRADE, D. F.; BORTOLOTTI, S. L. V. Aplicação de um modelo de desdobramento graduado generalizado - GGUM da teoria da resposta ao item. Estudos em Avaliação Educacional, v. 18, n. 37, 2007.
ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria de Resposta ao Item: conceitos e aplicações. In: SIMPÓSIO NACIONAL DE PROBABILIDADE E ESTATÍSTICA - SINAPE, 4., 2000, Caxambu. Anais.. Caxambu: Associação Brasileira de Estatística, 2000.
ARAUJO, E. A. C.; ANDRADE, D. F.; BORTOLOTTI, S. L. V. Teoria da Resposta ao item. Revista da Escola de Enfermagem USP, v. 43, n. especial, p. 1000-1008, 2009.
BAKER, F. B. Item response theory parameter estimation techniques New York: Marcel Dekker, 1992.
BEATON, A. E.; ALLEN, N. L. Interpreting scales through scale anchoring. Journal of Educational Statistics, v. 17, p. 191-204, 1992. http://dx.doi.org/10.2307/1165169
DRASGOW, F. et al. Fitting Polytomous Item Response Theory Models to Multiple-Choice Tests. Applied Psychological Measurement, v. 19, n. 2, p. 143-165, 1995. http://dx.doi.org/10.1177/014662169501900203
EMBRETSON, S.; REISE, S. P. Item Response Theory for Psychologists New Jersey: Lawrence Erlbaum Associates, Inc. Publishers, 2000.
EVRARD, Y. A satisfação dos consumidores: situação das pesquisas. Tradução de Ana Maria Machado Toaldo. Porto Alegre: PPGA/UFRGS, 1995. Tradução para fins acadêmicos.
FORNELL, C. et al. The American Customer Satisfaction Index: Nature, Purpose, and Findings. Journal of Marketing, v. 60, p. 7-18, 1996. http://dx.doi.org/10.2307/1251898
HAMBLETON, R. K.; SWAMINATHAN, H.; ROGERS, H. J. Fundamentals of item response theory Newbury Park: Sage, 1991.
HASTREITER, S. T. Satisfação do consumidor em Shopping Centers de Curitiba 1998. Dissertação (Mestrado em Ciências Sociais)-Universidade Federal do Paraná, Curitiba, 1998.
KOTLER, P. Administração de Marketing: Analise, Planejamento, Implementação e Controle. 5. ed. São Paulo: Atlas, 1998.
LORD, F. M. Applications of item response theory to practical testing problems. Hillsdale: Lawrence Erlbaum, 1980.
MAFRA, P. M. R. Proposta de uma sistemática para a modelagem de risco de crédito sob a perspectiva da teoria da criação do conhecimento: uma abordagem da teoria da resposta ao item. 2010. Tese (Doutorado em Engenharia e Gestão do Conhecimento)-Universidade Federal de Santa Catarina, Florianópolis, 2010.
MATTAR, F. N. Pesquisa de marketing 6. ed. São Paulo: Atlas, 2005. vol. 1.
MATTEUCCI, M.; STRACQUALURSI, L. Student assessment via Graded Response Model. Statistica, v. 66, n. 4, p. 435-447, 2006.
MEDEIROS, M. F.; FARIA, E. T. (Org.). Educação a distância: cartografias pulsantes em movimento. Porto Alegre: EDIPUCRS, 2003.
MOWEN, J. C. Consumer Behavior 5th ed. Englewood Cliffs: Prentice-Hall, 1997.
MURAKI, E.; BOCK, R. D. Parscale: IRT Based Test Scoring and Item Analysis for Graded Open-Ended Exercises and Performance Tasks. Chicago: Scientific Software Inc., 1997.
OLIVER, R. L. Satisfaction: a behavioral perspective on the consumer. 2nd ed. New York: M. E. Sharpe, 2009.
PERILLO, R. D. Índice de Satisfação Ponderado pela Importância: Um modelo para avaliar a satisfação de consumidores. 2000. 162 f. Dissertação (Mestrado em Administração)-Universidade de Brasília, Brasília, 2000.
RECKASE, M. D. Unifactor latent trait models applied to multifactor tests: Results and implications. Journal of Educational Statistics, v. 4, p. 207-230, 1979. http://dx.doi.org/10.2307/1164671
REISE, S. P.; YU, J. Parameter recovery in the graded response model using MULTILOG. Journal of Educational Measurement, n. 27, p. 133-144, 1990. http://dx.doi.org/10.1111/j.1745-3984.1990.tb00738.x
ROSSI, C. A. V.; SLONGO, L. A. Pesquisa de satisfação de consumidores: o estado-da-arte e proposição de um método brasileiro. Revista de Administração Contemporânea, v. 1, n. 1, 1998.
SAMEJIMA, F. Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph Supplement, n. 17, 1969.
SAMEJIMA, F. A general model for free response data. Psychometrika Monograph Supplement, n. 18, 1972.
SAMEJIMA, F. Graded response model. In: VAN DER LINDEN, W. J.; HAMBLETON, R. K. (Eds.). Handbook of modern item response theory New York: Springer, 1997. p. 85-100.
SPRENG, R. A.; MacKenzie, S. B.; OLSHAVSKY, R. W. A Reexamination of the Determinants of Consumer Satisfaction. Journal of Marketing, v. 6, n. 3, p. 15-32, 1996. http://dx.doi.org/10.2307/1251839
THISSEN, D. Multilog User's Guide: Multiple, Categorical Item Analysis and Testing Score using Item Response Theory. Chicago: Scientific Software, Inc, 1991.
THISSEN D. Multilog 7. 0.Multiple: categorical item analysis and test scoring using item response theory. Lincolnwood: Scientific Software International, 2003.
TOIT, M. IRT from SSI: BILOG-MG, MULTILOG, PARSCALE, TESTFACT. Chicago: Scientific Software, Inc.; 2003.
VARGAS, V. C. C. et al. Avaliação dos intangíveis: uma aplicação em capital humano. Gestão & Produção, v. 15, n. 3, p. 619-634, 2008.