SciELO - Scientific Electronic Library Online

 
vol.28 número68A área de ciências nas avaliações internacionais de larga escalaAvaliação no contexto do laboratório Latino-Americano de avaliação da qualidade da educação índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Compartilhar


Estudos em Avaliação Educacional

versão impressa ISSN 0103-6831versão On-line ISSN 1984-932X

Est. Aval. Educ. vol.28 no.68 São Paulo maio/ago. 2017  Epub 09-Out-2025

https://doi.org/10.18222/eae.v28i68.4584 

ARTIGOS

Funcionamento diferencial dos itens de ciências do PISA: Brasil e Japão

Funcionamento diferencial de los ítems de ciencias del PISA: Brasil y Japón

Differential functioning of PISA science items in Brazil and Japan

Andriele Ferreira MuriI 

Tufi Machado SoaresII 

Alicia BonaminoIII 

IPontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), Rio de Janeiro, Rio de Janeiro, Brasil

IIUniversidade Federal de Juiz de Fora (UFJF), Juiz de Fora, Minas Gerais, Brasil

IIIPontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), Rio de Janeiro, Rio de Janeiro, Brasil


Resumo

O Programa Internacional de Avaliação dos Estudantes (PISA) é uma avaliação comparada, aplicada a uma amostra de estudantes de 15 anos de idade. Juntamente com vários outros países, Brasil e Japão participam desde a primeira edição, em 2000. Com o objetivo de identificar fatores capazes de explicar as diferenças de resultados encontradas no Letramento em Ciências, entre alunos brasileiros e japoneses, na edição de 2006, foi utilizada a análise de DIF (Differential Item Functioning), que possibilitou extrair, dos resultados dos testes, padrões de efeitos diferenciados. Para identificar os itens que apresentaram funcionamento diferencial entre Brasil e Japão, empregou-se o modelo bayesiano integrado que, além de confirmar a ocorrência, também pode explicar o DIF. Encontramos DIF em todas as covariáveis elegidas, embora nem sempre esse comportamento diferencial tenha privilegiado um dos dois países. Há competências que discriminam mais os alunos brasileiros e áreas de aplicação dos itens ora mais fáceis para o Brasil, ora para o Japão.

Palavras-Chave: Differential Item Functioning - DIFF; Pisa; Letramento Científico; Ciências

Resumen

El Programa Internacional de Evaluación de Estudiantes (PISA) es una evaluación comparada, aplicada a una muestra de estudiantes de 15 años de edad. Junto con varios otros países, Brasil y Japón participan desde la primera edición, en el 2000. Con el objetivo de identificar factores capaces de explicar las diferencias de resultados encontradas en el Letramento en Ciencias entre alumnos brasileños y japoneses en la edición de 2006, se utilizó el análisis de DIF (Differential Item Functioning), que hizo posible que se extrajera de los resultados de las pruebas patrones de efectos diferenciados. Para identificar los ítems que presentaron funcionamiento diferencial entre Brasil y Japón se utilizó el modelo bayesiano integrado que, además de confirmar la ocurrencia, también puede explicar el DIF. Encontramos DIF en todas las covariables elegidas, aunque no siempre este comportamiento diferencial privilegie uno de los dos países. Hay competencias que discriminan más a los alumnos brasileños y a las áreas de aplicación de los ítems, que a veces son más fáciles para Brasil y otras para Japón.

Palabras clave: Differential Item Functioning - DIFF; Pisa; Letramento Científico; Ciencias

Abstract

The Programme for International Student Assessment (PISA) is an international comparative assessment program applied to samples of 15-year-old students. Together with other countries, Brazil and Japan have participated in this program since its first edition in 2000. DIF (Differential Item Functioning) analysis was used to identify factors that could explain performance differences in scientific literacy between Brazilian and Japanese students, in the 2006 edition. Based on the test results, this analysis showed patterns of differentiated effects. To identify the items that showed differential functioning between Brazil and Japan, we used the Bayesian integrated model. In addition to confirming this occurrence, this model may also explain the DIF. DIF was found in all covariates selected. However, differential functioning did not always favor either of the two countries. There are competencies that discriminate more against the Brazilian students and areas of application of the items that sometimes were easier for Brazilian and sometimes for Japanese students.

Keywords: Differential Item Functioning - DIFF; PISA; Scientific Literacy; Sciences

Introdução

O PISA - Programme for International Student Assessment - queem português foi traduzido como Programa Internacional deAvaliação de Estudantes, é um programa internacional deavaliação comparada, aplicado a uma amostra de estudantesde 15 anos de idade. Para o PISA, essa é a idade em que sepressupõe o término da escolaridade básica obrigatória namaioria dos países. Esse programa é desenvolvido e coordenadointernacionalmente pela Organização para a Cooperaçãoe Desenvolvimento Econômico (OCDE) e, no Brasil, peloInstituto Nacional de Estudos e Pesquisas Educacionais AnísioTeixeira (Inep). As avaliações do PISA acontecem a cada trêsanos e abrangem três áreas do conhecimento - Leitura, Matemáticae Ciências - havendo, a cada edição do Programa,maior ênfase em uma dessas áreas.

Desde o primeiro ciclo de avaliação, realizado em 2000,em função do desempenho insatisfatório dos alunos brasileiros,a divulgação dos resultados tem como foco as conclusõesenfáticas de que, em termos educacionais, o Brasil nãoapresenta um bom nível de proficiência nas diferentes áreas avaliadas pelo Programa. Estudos comparativos de sistemas

educacionais, no entanto, não devem se limitar apenas a medire comparar os resultados educacionais brutos dos alunos,precisando recorrer a metodologias que possibilitem identificaros principais fatores capazes de explicar as diferençasde rendimento encontradas e analisar o modo como essesfatores interagem entre si. (FERRER, 2003).

Analisamos aqui os itens do PISA 2006, já que, nessaedição do Programa, a área de Ciências foi avaliada mais detalhadamente.Ou seja, além da escala global, foi possívelverificar o desempenho dos estudantes também nas competênciasde “identificar questões científicas”, “explicar fenômenoscientificamente” e “usar evidência científica”. Aênfase sobre essa área do conhecimento foi novamente objetodo Programa em 2015, mas os resultados haviam sidorecém-publicados no momento da elaboração deste artigo.As edições do PISA de 2006 e 2015 avaliaram, portanto,com maior ênfase o denominado Letramento Científico dosalunos participantes, descrevendo-o como

[...] a capacidade de empregar o conhecimento científicopara identificar questões, adquirir novos conhecimentos,explicar fenômenos científicos e tirar conclusões baseadasem evidências sobre questões científicas. Também fazparte do conceito de Letramento Científico a compreensãodas características que diferenciam a ciência comouma forma de conhecimento e investigação; a consciênciade como a ciência e a tecnologia moldam nosso meiomaterial, cultural e intelectual; e o interesse em engajar-seem questões científicas, como cidadão crítico capaz decompreender e tomar decisões sobre o mundo natural eas mudanças nele ocorridas. (BRASIL, 2008, p. 34)

Nosso objetivo foi identificar fatores capazes de explicaras diferenças de rendimentos encontradas no LetramentoCientífico, entre alunos brasileiros e japoneses. O Japão foiescolhido tanto em razão de uma experiência vivida numprograma de treinamento de professores oferecido por essepaís, entre 2007 e 2009, como em virtude da sua posição dedestaque nos testes comparativos internacionais.

Considerando que os sistemas são diferentes e que as característicasque os distinguem têm consequências nos diversosmodos de elaboração e desenvolvimento do currículo e,ainda, que os conteúdos são selecionados pelos professores eabordados com ênfases diferenciadas, procuramos identificaras características dos itens do teste, em relação a competências,áreas do conhecimento, áreas de aplicação, âmbito, tipoe idioma que, por exemplo, sinalizam a existência de ênfasescurriculares diferenciadas nesses dois países. Sendo a análisede DIF (Differential Item Functioning) uma ferramenta estatísticaque possibilita extrair dos resultados dos testes esses padrõesde efeitos diferenciados, a análise consistiu na aplicação demétodos para detectar e identificar os itens de Ciências queapresentaram funcionamento diferencial entre Brasil e Japão.

A necessária e relevante padronização ou uniformizaçãodas condições de aplicação dos instrumentos de medidaé um dos pressupostos mais importantes da avaliação, sejano âmbito psicológico, seja no educativo (ANASTASI, 1988;PASQUALI, 2000). O estudo do DIF está intimamente ligadoao suposto da padronização das condições de aplicação dosinstrumentos de medida de um teste avaliativo. “Deve-se terclaro que a presença de DIF num teste é um fator que podetornar o processo avaliativo injusto” (ANDRIOLA, 2001).

A comparação de resultados nos testes educacionais, entendidoscomo o resultado dos escores que medem a proficiênciados alunos, é possível graças à utilização da Teoria daResposta ao Item (TRI). Tal comparabilidade decorre do fatode a TRI utilizar modelos estatísticos em que a dificuldadedos itens é parametrizada na mesma escala de proficiênciadas habilidades cognitivas dos alunos. Além disso, é necessárioempregar itens comuns aos diferentes testes e essesitens devem apresentar o mesmo funcionamento nos diversosgrupos de alunos para que uma boa comparabilidade sejaalcançada. Em avaliações de larga escala como o PISA, essacomparabilidade é muito mais crítica, tendo em vista quenem todos os itens mostram o mesmo funcionamento.

A TRI é composta de um conjunto de modelos matemáticosque representam, grosso modo, a probabilidade dedeterminada resposta a um item ser escolhida em função dos parâmetros que o caracterizam e do nível do respondentequanto ao traço latente1 que está sendo medido. De acordocom Soares (2005), para possibilitar a comparabilidade dosresultados, é essencial que o modelo utilizado na avaliaçãogaranta o pressuposto de que o item apresente o mesmo funcionamentopara os diversos grupos populacionais que estãosendo avaliados. Para uma boa comparação entre resultadosde grupos tão diferentes, como é o caso de alunos brasileirose japoneses, é imprescindível, por exemplo, uma atenção especialà construção dos itens, a fim de que estes não apresentemo funcionamento diferencial.

O FUNCIONAMENTO DIFERENCIAL DO ITEM - DIF

Um item de múltipla escolha, ou dicotômico, apresenta DIFquando alunos que possuem a mesma habilidade cognitivanão têm igual probabilidade de acertá-lo. Assim, na estimaçãodas proficiências, o ideal é evitar a utilização de itenscom DIF elevado, isto é, que favoreçam demasiadamente umdeterminado grupo de alunos. Todavia, o DIF, quando moderadoe restrito a poucos itens, interfere minimamente naestimação da proficiência e sua análise pode ser uma ferramentade diagnóstico do sistema educacional bastante útilno que se refere às diferenças curriculares, socioculturais e,no caso de estudos internacionais, como o PISA, à diversidadede realidades educacionais e à disparidade de resultadoentre países. Por esse motivo principal, justifica-se a escolhado emprego dessa metodologia para conduzir um estudocomparativo entre dois países de realidades socioeconômicase culturais tão distintas, como é o caso de Brasil e Japão.

Estudos visando a identificar itens que sejam favoráveisa determinado grupo, em detrimento de outros, ganhamdestaque no campo da psicometria, pois ajudam a assegurarque os testes sejam tão imparciais quanto possível (AGUIAR,2008). Nesse sentido, Soares, Genovez e Galvão (2005) destacamque a preocupação com o funcionamento diferencialdo item antecede ou, ainda, extrapola o contexto da TRI, naqual a ausência do DIF é requisito para uma boa equalizaçãoentre resultados de grupos diferentes de alunos.

ESTUDOS SOBRE DIF

Historicamente, a preocupação com o DIF está fortementeassociada ao desejo de se construírem questões de testeque não sejam afetadas por características étnico-culturaisdos grupos submetidos aos testes de avaliação educacional(COLE, 1993). A partir de achados em estudos sobre o viés2 de itens e testes realizados em 1951 por pesquisadores daUniversidade de Chicago, que haviam encontrado variaçõesnos itens em aspectos peculiares, tais como conteúdo e formato,surgem os primeiros dados a respeito dos problemas técnicospresentes em determinados itens utilizados na avaliaçãoda aprendizagem (HAMBLETON; SWAMINATHAN; ROGERS,1991). Segundo Aguiar (2008), um desses problemas técnicosdiz respeito ao uso indevido da linguagem escrita; muitas vezes,termos empregados nos testes são mais familiares a determinadogrupo em detrimento de outro. O’Neil e McPeek (1993),Schmitt e Bleistein (1987), Berberoglu (1995) e Gierl et al. (2003)mostraram que as diferenças entre os grupos podem tambémestar relacionadas às características étnicas, de sexo, denível socioeconômico, entre outras.

Soares, Genovez e Galvão (2005) apresentam uma análisedo comportamento diferencial dos itens de geografiaaplicados aos alunos da 4a série no Programa de Avaliação daRede Pública de Educação Básica, o Proeb-2001, nas diferentesregiões do estado de Minas Gerais. Os resultados sugeremque itens relacionados a questões ambientais são mais fáceispara os alunos da região metropolitana de Belo Horizontedo que para aqueles do interior do estado. Por outro lado, ositens que avaliam a relação entre o espaço urbano e o espaçorural se mostram mais fáceis para os alunos do interior.

Barroso e Franco (2008) realizaram uma análise comparativaentre países participantes do PISA 2000, utilizando aTRI e a identificação de questões que apresentavam DIF. Oobjetivo dos autores era verificar se o desempenho dos estudantesbrasileiros teria ou não características diferentes dealunos de outros países, e se essas características poderiamrevelar diferentes ênfases curriculares no ensino de Ciências,apesar de o foco da edição investigada ter sido linguagem.Os resultados obtidos indicaram a existência de itens com DIF, mas não permitiram a explicação desse comportamentocom base nos parâmetros escolhidos associados àsênfases curriculares. Isso se deveu, segundo os autores, aopequeno número de itens disponíveis em 2000, apenas 34,o que apontava para a necessidade de técnicas estatísticasmais elaboradas e a utilização dos dados do PISA 2006 paraavançar nesse objetivo.

Aguiar (2008), a partir dos dados do PISA 2003, comparouas diferenças nas ênfases curriculares em Matemática,no Brasil e em Portugal. Os resultados do estudo mostraramque alguns itens de Matemática apresentam funcionamentodiferencial entre alunos brasileiros e portugueses. Para o autor,os aspectos que explicam tal ocorrência estão relacionadoscom ênfases diferenciadas não apenas em determinadosconteúdos da Matemática, mas também a processos cognitivose ao formato do item.

Gamerman, Soares e Gonçalvez (2010) realizaram umaanálise bayesiana na Teoria da Resposta ao Item aplicada aoPISA 2003 e identificaram uma série de indicadores que diferenciamos sistemas educativos dos países de língua inglesaparticipantes do Programa (Grã-Bretanha, Canadá, Austrália,Irlanda, Estados Unidos e Nova Zelândia). Esses indicadores,segundo os autores, podem ajudar a compreender a naturezae as possíveis origens da diferença entre esses países emostrar um possível caminho para a incorporação de práticasque favorecem o aprendizado nesses sistemas de ensino.

Segundo Aguiar (2008), as análises sugerem que, emvez de entendermos o item do teste como a única causa dofuncionamento diferencial, devemos considerar, também,questões de equidade educacional em nossas escolas e emnossa sociedade. O adequado entendimento dos resultadosde DIF passa, necessariamente, pelo reconhecimento dessasdesigualdades socioeducacionais. Aliados à gama de evidênciasempíricas produzidas pelos trabalhos de análise de DIF,muitos métodos estatísticos foram desenvolvidos no intuitode dar maior suporte a esse tipo de abordagem.

MÉTODOS DE DETECÇÃO DE ITENS CO M DIF

Existem vários procedimentos formais para se estudar o funcionamento diferencial dos itens. Grosso modo, esses procedimentos podem ser divididos em dois grupos:

  • os clássicos, que dependem, direta ou indiretamente,de uma estimativa prévia da proficiência, como, porexemplo, o método de Mantel-Haenszel (HOLLAND;THAYER, 1988) e o método de regressão logística(SWAMINATHAN; ROGERS, 1990);

  • os baseados nos modelos da TRI, que utilizam osparâmetros dessa teoria e, apesar de não precisaremde uma proficiência já conhecida, demandam umcritério alternativo para a equalização dos indivíduosa priori, tais como um subconjunto de itens quenão possuam DIF, genericamente chamados deitens âncora. Exemplos bastante conhecidos dessesmétodos são o IRT-D2 (THISSEN, 2001), o IRT-LR(THISSEN; STEINBERG; WAINER, 1993), e o métodousado no BILOGMG (ZIMOWSKI et al., 1996).

Outros métodos ainda podem ser encontrados em Clausere Mazor (1998) e em Andriola (2001). O método de Mantel--Haenszel é o mais utilizado para a análise de DIF, inclusiveno Educational Testing Service (ETS), nos exames do National Assessmentfor Educational Progress (Naep); e aqui no Brasil, naanálise do Sistema de Avaliação da Educação Básica (Saeb).

De acordo com Soares, Gonçalves e Gamerman (2009), a detecçãodos itens com DIF é um passo importante na análise deDIF, mas uma análise completa também requer alguns outrospassos. Isso inclui uma satisfatória classificação do DIF encontrado,a identificação dos fatores a ele associados e, possivelmente,uma análise confirmatória das hipóteses. Schmitt, Hollande Dorans (1993) sugerem que estudos especialmente planejadosdevem ser utilizados para confirmar as hipóteses formuladas apartir do estudo dos fatores de DIF. Nesse contexto, é naturala construção de modelos de regressão que associam covariáveis,relacionadas com certas características dos itens, à magnitude doDIF. As covariáveis representariam os fatores de DIF de tal maneiraque os resultados da análise de regressão podem confirmarou não as hipóteses formuladas.

Os métodos de análise de DIF englobam várias etapas: detecção,explicação, confirmação; e neles, mesmo a detecçãodeve ser executada também em múltiplas etapas, como, porexemplo, detecção, purificação, nova detecção, confirmação.

Em uma nova proposta, Soares, Gonçalves e Gamerman(2009) descrevem um modelo bayesiano integrado para detecçãoe análise de DIF que elimina a necessidade de utilizaçãodessas etapas separadas. Para o modelo proposto poresses autores, se existir um subconjunto de itens âncora, istoé, itens sem DIF, que é conhecido a priori, admite-se que osparâmetros dos demais itens possam variar entre os gruposde indivíduos, cabendo ao modelo indicar a probabilidadede eles apresentarem DIF. Assim, sempre que houver itensâncoras a priori, está garantida a correta identificação do DIFpelo modelo. Contudo, ele também pode ser usado quandonão se conhece a priori um grupo de itens que não tenhamDIF. Nesse último caso, é preciso que haja informação suficienteque possa ser expressa em uma probabilidade a priorisobre a não existência de DIF em alguns itens e/ou informaçãoa priori sobre as distribuições de proficiências dos gruposfocais e de referência. Por exemplo, pode-se admitir a priorique as proficiências dos alunos japoneses são mais elevadasdo que as dos brasileiros.

Como resultado, não é necessário fixar um conjunto deitens que não apresentem DIF a priori, como itens âncoraspara identificar o modelo. Estudos simulados, realizados pelosautores (SOARES; GONÇALVES; GAMERMAN, 2009), mostraramuma boa recuperação dos parâmetros gerados emvárias situações, sendo que um exemplo real demonstroua viabilidade da utilização do modelo em situações práticascom resultados satisfatórios e consistentes. Por essas, entreoutras vantagens, no presente estudo utilizamos esse modelointegrado que elimina etapas, dado que uma análise deregressão associada aos parâmetros do DIF é introduzida nomodelo de tal forma que, além de confirmar a ocorrência,também possibilita, simultaneamente, explicar o DIF.

METODOLOGIA

Ao dar início a este estudo, objetivando identificar os itensque apresentaram DIF, utilizamos o modelo integrado propostopor Soares, Gonçalves e Gamerman (2009). O modelo,como descrito na seção anterior, é integrado no sentido depermitir a detecção e explicação do DIF simultaneamente,ou seja, numa só etapa de inferência. Assim, ele utiliza apenaso pressuposto de que um subconjunto no total de itensanalisados não possui DIF, sem que seja necessário os identificar,sendo capaz de calcular a probabilidade de cada itempossuir DIF, assim como os parâmetros para cada item emcada grupo e a diferença entre eles. Adicionalmente, o algoritmocalcula as proficiências, médias e desvio padrão, decada grupo.

O modelo foi implementado no solver OpenBUGS®,3 que permite a realização de inferência bayesiana utilizandoamostragem de Gibbs.4 Os valores das variáveis indicadorassão estimados diretamente no modelo, indicando quais itensapresentam DIF e quais não. Soares, Gonçalves e Gamerman(2009), a partir de dois estudos simulados - um para mostraras vantagens do modelo integrado sobre aqueles que fixamitens âncoras a priori, e outro que compara o modelo integradoaos métodos mais utilizados na detecção de DIF para diferentesconfigurações de DIF - e de uma análise do ProgramaNova Escola, demonstram a eficiência do referido método.

Apesar de o PISA ser corrigido utilizando-se o modelode Rasch, que permite identificar DIF apenas no parâmetrode dificuldade (parâmetro bj), para as análises de DIF do presenteestudo ajustamos o modelo da TRI de três parâmetros(3PL). O ajuste desse modelo contempla uma maior flexibilidadedas formas da Curva Característica do Item (CCI) queespecifica a relação matemática entre a proficiência e a probabilidadede acerto de um item.

O modelo 3PL resulta da incorporação do parâmetro c,que representa a probabilidade de acerto ao acaso, ao modelode dois parâmetros que leva em conta, além do parâmetrode dificuldade, o parâmetro de discriminação do item(parâmetro aj). O acerto casual pode representar, inclusive,a influência de um “chute” nos testes de múltipla escolha, relacionando, inclusive, a uma resposta dada devido a outro traço que não exatamente aquele avaliado no teste ou ainda à resposta aleatória.

Métodos tradicionais para análise de DIF são baseadosem habilidades pré-calculadas para a análise DIF. No entanto,como apontam Soares, Gonçalves e Gamerman (2009), ahabilidade assim pré-calculada está contaminada justamentepelo possível DIF existente. Embora essa contaminação possaser pequena e não interferir no resultado da análise, os autoressugerem no método proposto que proficiência e detecçãodo DIF sejam realizadas simultaneamente. Num cenário emque haja muito DIF em um teste, principalmente, naquele emque a presença de DIF que favorece substancialmente um grupoem detrimento de outro, a estimação simultânea do DIFapresenta considerável superioridade em relação aos métodostradicionais. Por esse motivo, preferimos aqui reestimar asproficiências no processo de detecção do DIF.

No estudo, não consideramos a possibilidade de DIF no parâmetroc. Apesar de ser possível, a aplicabilidade desse casoé substancialmente limitada tanto pela sabida dificuldade deestimação desse parâmetro como por restrições práticas.

Isso posto, além dos parâmetros dos modelos, é importanteque os seguintes conceitos sejam definidos:

  • daj representa a diferença entre o parâmetro aj dogrupo focal menos tal parâmetro no grupo de referência,ele indica o quanto o item j discrimina maisno grupo focal em relação ao de referência;

  • dbj representa a diferença entre o parâmetro bj dogrupo focal menos tal parâmetro no grupo de referência,ele indica o quanto o item j se apresenta maisdifícil no grupo focal em relação ao de referência;

  • Zaj mede a probabilidade de ocorrência de DIF noparâmetro aj no item j;

  • Zbj mede a probabilidade de ocorrência de DIF noparâmetro bj no item j.

Note-se que, como definido aqui, o parâmetro daj diferedo parâmetro original de DIF utilizado em Soares, Gonçalves eGamerman (2009). De fato, na notação desses autores o parâmetrode DIF é introduzido de forma multiplicativa, tal que a discriminação do item no grupo focal g é dada por e -du j2 a j1 , onde a j1 é a discriminação do item no grupo de referência.É fácil verificar que a relação entre os dois parâmetros,isto é, o parâmetro de DIF considerado aqui e o parâmetrode DIF naquele artigo é a seguinte: daj = a j1 - a j2 = a j1 - e -du j2 a j1

O modelo bayesiano proposto por Soares, Gonçalves eGamerman (2009) permite que se compute a probabilidade aposteriori de o item ter DIF nos parâmetros de discriminaçãoe dificuldade. Essas probabilidades são representadas aquipelos termos Zaj e Zbj. Nesta pesquisa consideramos comotendo DIF na discriminação e na dificuldade os itens queapresentavam valores para Zaj e Zbj maiores que 0,6. Apesarde Soares, Gonçalves e Gamerman (2009) consideraramcomo tendo DIF aqueles itens que apresentavam um Z maiordo que 0,5, o uso do valor 0,6 para a regra de classificação deDIF dá mais peso para as variáveis de regressão.

Como já mencionado, utilizamos aqui os dados do PISA 2006, do Brasil e do Japão, que são de domínio público. Trabalhamos apenas com itens dicotômicos, de forma que, de umtotal de 103 itens de Ciências, foram excluídos da análise seisitens com respostas corrigidas na forma de crédito parcial eum item não comum aos dois países, resultando num totalde 96 itens selecionados para a presente análise. A amostrade alunos do Brasil foi considerada o grupo de referência ea do Japão o grupo focal. Visando a utilizar ao máximo sem,no entanto, extrapolar a capacidade de processamento dosoftware OpenBUGS®, foi selecionada uma amostra com 3.500 casos, sendo 2.104 alunos brasileiros e 1.396 japoneses, a fimde obter cerca de 1.000 respostas para cada item, por amostragemaleatória simples sem reposição. No final, obteve-seuma média de 1.018 respostas para cada item, com um mínimode 949 e um máximo de 1.070 respostas.

Os objetivos principais do trabalho foram:

  • identificar os itens com DIF nos parâmetros de dificuldadee discriminação, analisando, ainda, amagnitude do DIF encontrado e verificando se elebeneficia um dos dois países estudados. Para essaetapa, o modelo de Soares, Gonçalves e Gamerman(2009) foi utilizado sem covariáveis explicativas; e

  • explicar a existência e a magnitude do DIF por meiode seis covariáveis: competências, áreas do conhecimento,áreas de aplicação, âmbito, tipo e idioma.Para essa etapa foram realizadas análises separadaspara cada covariável, uma vez que, conquanto o modelode Soares, Gonçalves e Gamerman (2009) possatestar todas as covariáveis simultaneamente, questõescomo multicolinearidade e excesso de covariáveisdecorrentes do número de categorias testadasem cada uma delas reduzem a eficácia e a sensibilidadena detecção do DIF. Por outro lado, emborao modelo desses autores permita, a implementaçãodo programa disponível fornece apenas a significânciaestatística para cada categoria da covariável naexplicação da magnitude do DIF dos itens com DIF,mas não comporta verificar estatisticamente se onúmero de itens com DIF para uma dada categoriaé maior do que para as outras categorias. Assim, afim de se mensurar estatisticamente se uma dadacategoria de uma covariável apresenta mais itenscom DIF do que as outras categorias, o que poderíamosdenominar num certo sentido de prevalênciade DIF, foram empregados testes estatísticos posterioresà identificação do DIF para comparar se umadada categoria de uma covariável apresenta ou nãomais itens com DIF do que as demais categorias, porexemplo. Naturalmente, os testes estatísticos diminuemseu poder nesse caso, mas não há outra opçãodevido à restrição nas saídas produzidas pelo programa.Em todos os casos, o nível de significância adotadofoi 0,05.

RESULTADOS E DISCUSSÃO

Do total de 96 itens analisados, 20 apresentaram DIF no parâmetroaj e 50 no parâmetro bj. Contudo, independentementedo parâmetro avaliado, a soma de itens com DIF é compostade apenas 62 itens, uma vez que oito itens registraram DIFtanto no parâmetro aj como no parâmetro bj.

Recorrendo a um item público, liberado para divulgaçãopelo consórcio que administra o PISA, exemplificamos, resumidamente,os procedimentos adotados na identificação doDIF. Esclarecemos que o mesmo procedimento foi adotadocom os demais itens de Ciências do PISA 2006, mas eles nãoserão apresentados aqui.

O item S426Q03 (Figura 1) é de múltipla escolha e tratao tema do “meio ambiente” no âmbito “social”. A competênciaenvolvida é a de “explicar fenômenos cientificamente”,sobretudo no que diz respeito ao conhecimento de “terra esistemas espaciais”. Esse item foi elaborado pelo institutoaustraliano ACER originalmente em inglês.

Fonte: Brasil (2008)

FIGURA 1 Unidade Grand Canyon, Questão 3. Código S426Q03 

A resposta correta dessa questão - letra D - requer que o aluno saiba que a água congela quando a temperatura está abaixo de zero grau, assim como conheça a propriedade daágua de se expandir ao congelar, relacionando um fenômenofísico com um efeito geológico visível. Há um nítido contrastedo percentual válido de respostas certas entre os alunosdo Brasil (31%) e os do Japão (68%). No Relatório Nacional doInep, os técnicos apontam como fator favorável aos estudantesda OCDE, cujo percentual de acerto foi um pouco menordo que o do Japão - 66,3% -, a maior convivência deles comas características do fenômeno de congelamento da água, devidoao clima frio. Esse fator também pode ser atribuído aosestudantes japoneses, para os quais esse item é mais fácil.

A partir da análise gráfica da Figura 2, observa-se a presençado DIF tanto na dificuldade (diferença no parâmetrobj) quanto na discriminação (diferença no parâmetro aj). Deimediato percebe-se que as curvas características de Brasile Japão são diferentes. A do Brasil é mais vertical do que ado Japão, indicando que o item discrimina mais os alunosbrasileiros (daS426Q03= - 0,5274). A probabilidade de acertoao item, no entanto, é mais alta entre os alunos japoneses,indicando que, para quase todas as faixas de proficiências, oitem é mais fácil para o Japão (db S426Q03=1,234).

Fonte: Dados do PISA 2006 (elaboração própria a partir do software Matlab. 2017)

FIGURA 2 Curva característica do item S426Q03 

Normalmente, os itens que apresentam DIF elevados esistemáticos são identificados em pré-testes e análises estatísticaspreliminares, realizados antes de serem utilizadospara a produção da proficiência do aluno. São dedicadosesforços e recursos substanciais para alcançar amplitude eequilíbrio culturais e linguísticos dos instrumentos da avaliação.Aplicam-se mecanismos rigorosos de garantia de qualidadena tradução, na amostragem e na coleta de dados. Nãose espera, em princípio, que se encontrem itens com padrõesbem definidos associados à existência de DIF. No entanto,alguns itens que exibem algum grau de comportamentodiferencial, como o que foi mostrado acima, podem trazerinformação adicional relevante para entender algumas daspossíveis diferenças educacionais existentes entre os paísesanalisados. Na sequência, descrevemos cada uma das característicasrelacionadas aos itens, buscando associá-las com osentido e a magnitude do DIF.

DIF SEGUNDO AS CO MPETÊNCIAS

Considerando os dois países, encontramos DIF em todas ascompetências avaliadas pelo PISA 2006. A competência commaior concentração de DIF no parâmetro discriminação - a -foi “identificar questões científicas” (28,6% dos itens dessacompetência apresentam DIF em a comparada a 24,5% e 7,7%dos itens das competências “explicar fenômenos cientificamente”e “usar evidência científica”, respectivamente). Noque diz respeito à dificuldade do item - b -, a competênciaem que os itens mais se comportam de maneira diferentepara alunos brasileiros e japoneses é “explicar fenômenoscientificamente” (57,1% dos itens dessa competência apresentamDIF em b comparados a 42,9% e 50,0% dos itens dascompetências “identificar questões científicas” e “usar evidência científica”, respectivamente).

A competência cujos itens menos apresentam DIF noparâmetro aj é “usar evidência científica”. Apenas 7,7% dositens classificados nessa competência apresentaram DIF.Para testar estatisticamente a hipótese de que essa competênciaconcentra menos itens com DIF do que as demais, foi construída uma tabela de contingência 2x2 segundo a qualse verifica a significância da diferença entre as distribuiçõesdo número de itens com e sem DIF para a competência “usarevidência científica” e para as demais consideradas conjuntamente.O teste x2 de Pearson para associação confirma ahipótese com um p-valor de 0,053, sugerindo uma tendênciaà ocorrência de itens com DIF no parâmetro aj menor nessacompetência do que nas outras.

Na Tabela 1, apresentamos os resultados referentes àdireção e à intensidade do DIF, no parâmetro de discriminaçãoa (daj). Se houvesse valores em média positivos, elesindicariam que os itens alocados em determinada competênciaseriam mais discriminantes no Japão. Contudo, todosos coeficientes médios são negativos e, portanto, discriminammais os itens para os alunos brasileiros do que paraos japoneses. Esse resultado é estatisticamente significativo(p=0,059). Sendo assim, os itens da prova de Ciências do PISA2006, segundo as competências avaliadas no Programa, sãomais eficazes em diferenciar alunos brasileiros, em relaçãoaos japoneses, com níveis distintos de proficiência. O testepost hoc demonstra que a diferença das médias tambémé significativa ao nível de 0,05: a começar pelos itens queusam evidência científica, seguidos daqueles que identificamquestões científicas até chegar naqueles que explicamfenômenos cientificamente, de modo geral, os itens com DIFno parâmetro aj, segundo a competência, discriminam maisos alunos brasileiros.

TABELA 1 Direção e intensidade do DIF, entre Brasil e Japão, segundo as competências no parâmetro aj nos itens de Ciências do PISA 2006 

COMPETÊNCIA N MÉDIA DESVIO PADÃO ERRO PADRÃO
Explicar fenômenos cientificamente 49 -0,1322 0,25601 0,03657
Identificar questões científicas 31 -0,0246 0,17434 0,03804
Usar evidência científica 26 -0,0238 0,16701 0,03275

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,059).

As diferenças no parâmetro bj não são tão expressivasquanto aquelas apresentadas no parâmetro aj. As faixas percentuaisde presença e ausência de DIF no parâmetro bj, segundoa competência do item, estão distribuídas quase queuniformemente, em torno de 50%, indicando que, considerando-se a dificuldade, praticamente não há comportamentodiferencial dos itens que favoreça ou prejudique algum dosdois grupos analisados. Todas as competências apresentam,portanto, a mesma prevalência de DIF (p=0,532).

DIF SEGUNDO A ÁREA DO CONHECI MENTO DO ITEM

Os conhecimentos científicos presentes na avaliação do PISA2006 eram de dois tipos: conhecimento de Ciência; e conhecimentosobre Ciência. Os conhecimentos de Ciências relacionam--se diretamente ao conhecimento dos alunos sobre o mundonatural e foram selecionados a partir dos principais campos daFísica, Química, Biologia, Ciências da Terra e do Espaço e Tecnologia.

O conhecimento sobre Ciência tem mais relação com aCiência propriamente dita. A primeira categoria, “investigaçãocientífica”, centra-se em inquérito como o processo central daciência e os vários componentes desse processo, ou seja, comoos cientistas obtêm os dados. A segunda categoria, intimamenterelacionada com a investigação, é “explicações científicas” e serefere mais aos resultados da investigação científica e à formacomo os cientistas utilizam os dados colhidos.

Encontramos DIF em todas as áreas de conhecimentoavaliadas pelo PISA 2006. Na área do conhecimento de Ciência,o descritor com maior concentração de DIF no parâmetrodiscriminação - aj - foi “terra e sistemas espaciais” (36,4%dos itens dessa área apresentaram DIF em a comparada àsdemais áreas). Nenhuma das outras áreas contempladas atingiumais do que 25% de probabilidade de apresentarem DIFem a. No que diz respeito à dificuldade do item - b -, a concentraçãoocorreu em “sistemas vivos” (68,2% dos itens dessedescritor apresentaram DIF). Ao contrário do que aconteceuno parâmetro aj, todas as áreas do conhecimento apontaramprobabilidades, se não superiores, bem próximas a 50% deconcentrarem DIF. Quando o conhecimento aferido foi sobre Ciência, os DIFs se concentraram em “investigações científicas”(27,30% dos itens apresentam DIF nessa área, contra12,50% dos itens na área “explicações científicas”) no parâmetroaj e em “explicações científicas” (43,80% comparadosa 40,90% de presença em “investigações científicas”) no parâmetrobj.

Assim, aparentemente, os itens com DIF estão distribuídoshomogeneamente. Não há concentrações tão representativasque sugiram uma incidência maior ou menor daocorrência de DIF em determinada área de conhecimentonem no parâmetro aj e tampouco no parâmetro bj. Aindaassim, pelo fato de 68% dos itens alocados na área do conhecimento“sistemas vivos” apresentarem DIF no parâmetrobj, testamos a hipótese de esse descritor estar concentrandomais itens com DIF do que os demais, podendo, assim, estarfavorecendo um grupo de alunos em detrimento do outro.Para tanto, construímos uma tabela 2x2 apenas considerandoa correlação entre a distribuição de se ter DIF ou não,no parâmetro bj, para a área do conhecimento sobre Ciência“sistemas vivos” com a distribuição dos outros descritoresagregados, inclusive aqueles do conhecimento sobre Ciência,conforme pode ser visto na Tabela 2. O teste x2 de Pearson porassociação, contudo, não confirmou tal hipótese, com ump-valor de 0,069, não se podendo afirmar que haja uma maiorocorrência de DIF em itens alocados na área de conhecimento“sistemas vivos”, ainda que esta tenha uma quantidaderepresentativa de itens com DIF.

TABELA 2 DIF , entre Brasil e Japão, segundo as áreas do conhecimento no parâmetro bj dos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,069).

Da mesma forma, no parâmetro aj, a área de conhecimentodos itens de Ciências do PISA 2006 não privilegiouBrasil ou Japão. Apesar de todos os descritores apresentaremvalores em média negativos no parâmetro daj (Tabela 3),o que tornaria os itens um pouco mais discriminantes noBrasil, as diferenças em relação ao Japão não são estatisticamentesignificativas (p=0,564).

TABELA 3 Direção e intensidade do DIF, entre Brasil e Japão, segundo as áreas do conhecimento no parâmetro aj nos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,564).

No parâmetro bj, inicialmente, apenas os itens alocadosnos conhecimentos de “terra e sistemas espaciais” e “sistemastecnológicos” estariam favorecendo um pouco os alunosjaponeses. Todos os demais, por apresentarem valores emmédia negativos, seriam mais fáceis para os alunos brasileiros(Tabela 4). Contudo, essas diferenças encontradas no parâmetrobj, assim como aquelas observadas no parâmetro aj,entre Brasil e Japão, não são estatisticamente significativas(p=0,470) e, portanto, não se pode afirmar que este ou aqueledescritor esteja favorecendo um grupo em detrimento dooutro.

TABELA 4 Direção e intensidade do DIF , entre Brasil e Japão, segundo as áreas do conhecimento no parâmetro bj nos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,470).

DIF SEGUNDO A ÁREA DE APLICAÇÃO DO ITEM

Além das competências e das áreas do conhecimento, outracaracterística pública dos itens de Ciências do PISA 2006 ésua área de aplicação, que está centrada em seu emprego emrelação a contextos pessoais, sociais e globais, tais como: saúde,recursos naturais, meio ambiente, fenômenos naturais elimites da ciência e da tecnologia.

Tanto no parâmetro aj quanto no bj há ocorrência deitens com DIF em todas as áreas avaliadas. Contudo, no parâmetroaj, os itens com DIF estão mais concentrados nas áreasde “meio ambiente” e “limites da ciência e da tecnologia”,33,3% dos itens em ambos os casos. Já no parâmetro bj, asáreas que apresentam mais itens com DIF são “fenômenosnaturais” (76,9%) e “saúde” (72%).

Para testar a hipótese de que “meio ambiente” e “limitesda ciência e da tecnologia” estariam concentrando itenscom DIF no parâmetro aj, recodificamos a variável “área deaplicação” em “área de aplicação.rec”, ou seja, numa nova variávelem que foi agregado o conjunto de áreas de aplicaçãodiferentes de “meio ambiente” e “limites da ciência e da tecnologia”.Consideramos, portanto, apenas a correlação entrea distribuição de se ter DIF ou não, no parâmetro aj para essasduas áreas, com a distribuição das demais áreas agregadas,conforme pode ser visto na Tabela 5. O teste x2 de Pearsonpor associação confirma a hipótese com um p-valor de 0,045,sugerindo uma inclinação maior à ocorrência de DIF, no parâmetro aj, em itens alocados nessas áreas de “meio ambiente” e “limites da ciência e da tecnologia” do que nas demais.

TABELA 5 DIF , entre Brasil e Japão, segundo as áreas de aplicação 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

Apesar de concentrarem os itens com DIF no parâmetroaj, as áreas “meio ambiente” e “limites da ciência e da tecnologia”não fazem distinção entre brasileiros e japoneses, ouseja, do ponto de vista estatístico, não se pode afirmar que ositens alocados nessas duas ou nas demais áreas de aplicaçãode Ciências do PISA 2006 discriminem mais os estudantesbrasileiros do que os japoneses e vice-versa (p=0,801). Decidimosfiltrar a categoria “outras”, por esta apresentar apenasdois itens, mas ainda assim não se encontrou um p-valorque permitisse sustentar a hipótese de que itens de qualquerdas áreas discriminassem mais no Brasil ou no Japão(p=0,071).

Os resultados da ocorrência de DIF no parâmetro bj, segundoas áreas de aplicação, apontam uma concentração deitens com DIF nas áreas “fenômenos naturais” e “saúde”. Diferentementedo que se observou no parâmetro aj, no quediz respeito à dificuldade (parâmetro bj), os itens de fato secomportam de maneira diferente para alunos brasileiros ejaponeses. O teste x2 de Pearson por associação confirma oDIF segundo a área de aplicação no parâmetro bj com ump-valor de 0,020. Filtramos a categoria “outras”, novamentepor esta apresentar apenas dois itens, mas ainda assimencontrou-se um p-valor que sustenta a hipótese de que as áreas de aplicação avaliadas pelo PISA concentram itens com DIF considerando Brasil e Japão (p=0,071).

A fim de verificar a direção e a intensidade do DIF, em bj(dbj), construímos a Tabela 6 considerando a correlação entrea distribuição da direção e da intensidade do DIF das áreasde aplicação, excluindo a categoria “outras”, com apenasdois itens. Três delas, “meio ambiente”, “saúde” e “recursosnaturais”, tendem a apresentar valores em média negativos,enquanto as demais - “limites da ciência e da tecnologia” e“fenômenos naturais” - apresentam, em média, valores positivos.Como vimos, os valores em média positivos indicam queos itens alocados em determinada competência seriam maisfáceis para o Japão. Ao contrário, aqueles negativos seriammais fáceis para os alunos brasileiros em relação aos japoneses. Esse resultado é estatisticamente significativo (p=0,050).

TABELA 6 Direção e intensidade do DIF , entre Brasil e Japão, segundo as áreas de aplicação no parâmetro bj nos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,050).

DIF SEGUNDO O ÂMBITO OU CON TEXTO DO ITEM

No PISA 2006, as situações da vida real que demandam doaluno posicionamento ou conhecimentos podem correspondera três âmbitos ou círculos concêntricos de abrangênciada questão: pessoal, social e/ou global. O contexto que maisapresentou DIF no parâmetro aj foi o “pessoal”. Contudo, nenhumdos contextos registra mais de 25% de DIF no parâmetroaj. Já no parâmetro bj, observa-se maior predominânciade DIF no contexto “global” (68,8%), seguido pelo “pessoal”(61,5%) e, por fim, mais de 40% no contexto “social”.

De fato, os dois primeiros contextos descritos anteriormente,“global” e “pessoal”, tendem a concentrar mais DIFno parâmetro de dificuldade do item (b) do que o contexto“social” (p=0,035). Essa hipótese foi testada a partir de umatabela de contingência 2x2 que agregou os contextos “global”e “pessoal”, associando-os ao contexto “social” responsávelpela maior quantidade de itens no teste, com 54 nototal, contra 42 dos outros dois contextos juntos (Tabela 7).Isso quer dizer que, mesmo em menor número no teste ejuntos, os itens alocados nos contextos “global” e “pessoal”concentram mais comportamento diferencial do que aquelesconstruídos no âmbito “social”.

TABELA 7 DIF , entre Brasil e Japão, segundo o contexto no parâmetro bj nos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

Não se encontraram diferenças estatisticamente significativasentre as médias dos coeficientes de daj e dbj, de intensidadedo DIF na dificuldade e/ou discriminação dos itens.Isso significa que o DIF aparentemente está distribuído demaneira uniforme entre os itens dos diferentes contextos, enão privilegia nem prejudica nenhum dos dois países. Apesarde a maioria das médias dos coeficientes ter sido negativa e,assim, sugerir uma maior discriminação e/ou facilidade dositens para o Brasil, os p-valores encontrados não foram estatisticamentesignificativos (p-valor de 0,927 para a diferença noparâmetro aj (daj) e de 0,350 para o parâmetro bj (dbj)).

DIF SEGUNDO O TIPO DE ITEM

Os tipos de itens empregados no teste de Ciência do PISA2006 foram de múltipla escolha e resposta construída. Ositens de múltipla escolha eram, no entanto, padronizadoscom quatro alternativas de respostas, a partir das quais osalunos eram obrigados a selecionar a melhor; ou complexos,apresentando várias declarações para cada um, entre asquais os estudantes deviam escolher uma das várias possíveisrespostas (sim / não, verdadeiro / falso, correto / incorreto,etc.). Os itens de resposta construída também foramclassificados de forma diferenciada pelo PISA. Nos itens deresposta construída fechada, era necessário que os alunosconstruíssem uma resposta numérica dentro de restriçõesmuito limitadas, ou apenas uma palavra ou uma curta frasecomo resposta. Os itens de resposta construída aberta exigiamrespostas mais completas ou extensas, que frequentementeabarcavam alguma explicação ou justificativa.

Todos os tipos de item apresentaram DIF. No entanto, aocorrência de comportamento diferencial no parâmetro aj(50%) não foi tão expressiva quanto no parâmetro bj (70,4%).O DIF encontrado na dificuldade e na discriminação dos itensnão se mostrou associado ao tipo de item, de tal forma queesse aspecto não torna um item mais ou menos discriminante,mais fácil ou mais difícil, para os alunos de nenhum dosdois países. Em outras palavras, não se encontraram diferençassignificativas entre as médias de intensidade do DIF nadificuldade do item para os diferentes tipos de itens (p-valorde 0,516) e tampouco entre as médias de intensidade do DIFna discriminação do item para os diferentes tipos de itens deCiências do PISA 2006 (p-valor de 0,107). Isso quer dizer que,embora existam itens com DIF, não há indícios suficientesde que o DIF esteja privilegiando um grupo em detrimentodo outro, facilitando ou discriminando mais, por exemplo, odesempenho dos alunos brasileiros e/ou dos japoneses.

DIF SEGUNDO O IDIOMA DO ITEM

Os itens de Ciências do PISA 2006 foram originalmente escritos em dez idiomas distintos. No entanto, mais de 30% do total foi escrito originalmente em inglês e 11 itens em inglês apresentam DIF no parâmetro aj e 12 no parâmetro bj. Contudo, itens com DIF em a não necessariamente apresentam DIF em b e vice-versa (p=0,283). Os itens escritos, originalmente,na língua inglesa mostram mais DIF no parâmetro ajdo que os itens escritos nos demais idiomas (correlação testadaestatisticamente pelo teste qui-quadrado para associaçãoentre variáveis, tendo-se encontrado um p-valor de 0,007).Isso pode ser observado na Tabela 8 de contigência 2x2 apresentadaa seguir.

No entanto, comparando-se a intensidade e direção do DIF,por meio dos coeficientes daj calculados para cada item, nãose encontram diferenças significativas entre as suas médias(- 0,2938 para os itens escritos em outros idiomas e - 0,0865 paraaqueles em inglês), segundo um teste t para diferenças entremédias para o qual se encontrou um p-valor de 0,439.

Os DIFs encontrados no parâmetro bj dos itens tambémnão se mostraram associados ao idioma (p-valor de 0,477),de tal forma que o idioma não torna mais fácil ou mais difícilum item para os alunos de nenhum dos dois países. Damesma forma, não se encontraram diferenças significativasentre as médias de intensidade do DIF na dificuldade do itempara os diferentes idiomas (p-valor de 0,283). Isso quer dizerque, embora existam itens com DIF segundo o idioma, nãohá indícios suficientes de que o DIF esteja privilegiando umgrupo em detrimento do outro, facilitando, por exemplo, odesempenho dos alunos brasileiros e/ou dos japoneses.

TABELA 8 DIF , entre Brasil e Japão, segundo o idioma no parâmetro aj nos itens de Ciências do PISA 2006 

Fonte: Dados do PISA 2006 (elaboração própria a partir dos resultados das análises de DIF).

* Pearson Chi-Square (p=0,007).

CONCLUSÃO

As análises comparativas realizadas demonstram que, nãoobstante os cuidados que cercam a elaboração e seleção deitens dessa avaliação internacional de grande porte, há significativapresença de DIF nos itens de Ciências do PISA 2006,quando se comparam o Brasil e o Japão. Cabe lembrar quemesmo os itens diagnosticados com DIF nem sempre são capazesde comprometer o processo avaliativo ao privilegiar umgrupo em detrimento do outro.

Neste estudo, no total de 96 itens analisados, foram identificados62 com DIF, oito dos quais com DIF tanto no parâmetroaj quanto no bj. As conclusões sobre as características doDIF a que chegamos, após os resultados estimados pelo modelobayesiano integrado, podem ser assim expressas:

  • considerando o número de itens, a prova de Ciênciasfoi mais fácil para o Japão - 28 dos 50 itens com DIFno parâmetro bj foram mais fáceis para os alunosjaponeses. Contudo, o DIF encontrado nesses itensnão afeta significativamente os resultados gerais doteste, tendo em vista que ele está localizado em umaparte dos itens e que alguns são mais fáceis para oJapão e outros para o Brasil. Por outro lado, sob omesmo critério de número de itens, a prova discriminamais os alunos brasileiros. Dos 20 itens comDIF no parâmetro aj, 14 discriminam mais a “população”de alunos do Brasil;

  • no que diz respeito às competências:

  • itens que mobilizam a competência “usar evidênciacientífica” tendem a apresentar menosDIF no parâmetro aj quando comparada às demaiscompetências;

  • os itens de Ciências apresentam mais DIF nasdiscriminações favoráveis ao Brasil. Isso significaque a maior parte dos itens que apresentamDIF no parâmetro de discriminação é favorávelao Brasil;

  • as diferenças no parâmetro bj estão distribuídasquase que uniformemente entre os gruposde itens das diferentes competências e indicam que, considerando-se a dificuldade do item, aproporção de itens que favorecem um grupo eoutro se distribui igualmente entre os diferentesgrupos de itens formados pelas diferentes competências.Assim, não há uma competência emque o DIF se concentre ou que apresente menosDIF do que o achado no teste como um todo. Issoaponta para o fato de que todas as competênciasapresentam a mesma prevalência de DIF;

  • de acordo com a área de conhecimento do itemnão se pode afirmar que os itens dos testes deCiência privilegiem o Brasil ou o Japão. Apesarde terem sido identificados itens com DIF emtodos os descritores avaliados, não há evidênciaestatística que mostre que um ou outro descritorconcentre maior prevalência de DIF e tampoucoque esses comportamentos diferenciais tomemum sentido único de privilegiar um dos países;

  • quanto à área de aplicação dos itens:

  • há uma tendência de maior ocorrência de DIFno parâmetro aj em itens alocados nas áreas de“meio ambiente” e “limites da ciência e da tecnologia”do que nas demais áreas avaliadas peloPISA em 2006. No entanto, essa tendência nãotem um sentido definido, ou seja, o DIF observadoora indica maior discriminação nos alunos doJapão ora nos do Brasil;

  • itens em três das áreas avaliadas - “meio ambiente”,“saúde” e “recursos naturais” - tendem a apresentarvalores de dbj negativos e, assim, são maisfáceis para os alunos brasileiros, enquanto os dasdemais áreas - “limites da ciência e da tecnologia”e “riscos” - tendem a apresentar valores de dbj positivose mostram-se, portanto, mais fáceis para osalunos japoneses do que para os brasileiros;

  • itens que medem habilidades nos contextos “global”e “pessoal” tendem a concentrar mais DIF noparâmetro de dificuldade do que aqueles relacionadosao contexto “social”;

  • os DIF encontrados na dificuldade e na discriminaçãodos itens não se mostraram associados aoformato do item, de tal maneira que esse aspectonão torna um item mais ou menos discriminante,ou mais fácil ou mais difícil, para os alunos de umdos dois países. Assim, embora existam itens comDIF, não há indícios suficientes de que o DIF estejaprivilegiando um grupo em detrimento do outro, facilitandoou discriminando mais, por exemplo, o desempenhodos alunos brasileiros ou dos japoneses;

  • embora os itens sejam elaborados em diferentesidiomas e, posteriormente, traduzidos para o idiomade cada país avaliado, o vocabulário e os termosutilizados não se constituem, a priori, num obstáculoà resolução do item tanto para os alunos japonesescomo para os brasileiros que seja traduzido naanálise do DIF.

Os modelos mais tradicionais da TRI pressupõem queos itens apresentem o mesmo funcionamento em diferentesgrupos. Uma boa e justa comparação entre resultados degrupos diferentes de alunos requer, portanto, que os itensque compõem o teste não apresentem comportamento diferencialexcessivo, pois, do contrário, isso significaria que umgrupo em particular estaria sendo privilegiado em detrimentode outro. Diante desse pressuposto, usualmente busca-seproduzir itens de teste que não apresentem DIF, ainda queessa seja uma tarefa muito difícil quando as populações avaliadassão tão distintas como é o caso de alunos de diferentespaíses. No entanto, parece que o teste do PISA tem sido produzidocom qualidade o suficiente para a boa comparabilidadedos resultados entre os alunos do Brasil e do Japão.

REFERÊNCIAS

AGUIAR, Glauco. Estudo comparativo entre Brasil e Portugal, sobre diferenças nas ênfases curriculares de Matemática, a partir da análise do Funcionamento Diferencial do Item (DIF) do PISA2003 2008 . 246f. Tese (Doutorado em Educação) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2008. [ Links ]

ANASTASI, Anne. Psychological testing. New York: MacMillan. 1988. [ Links ]

ANDRIOLA, Wagner. Descrição dos principais métodos para detectar o funcionamento diferencial dos itens (DIF). Psicologia: Refl e Crítica, Rio Grande do Sul, v. 14, n. 3, p. 643-652, 2001. [ Links ]

BARROSO, Marta; FRANCO, Creso. Avaliações educacionais: o PISA e o ensino de ciências. In: ENCONTRO DE PESQUISA EM ENSINO DE FÍSICA, 11.,2008, Curitiba. Anais... Curitiba, 2008. Disponível em: Disponível em: http://www.if.ufrj.br/~marta/artigosetal/2008-epef11-PISA.pdf . Acesso em: 27 jul. 2014. [ Links ]

BERBEROGLU, Giray. Differential item functioning (DIF) analysis of computation, word problem and geometry questions across gender and SES groups. Studies in Educational Evaluation, Great Britain, v. 21, n. 4, p. 439-456, 1995. [ Links ]

BRASIL.. Resultados nacionais - PISA 2006: Programa Internacional de Avaliação de Alunos (PISA). Brasília, DF: Inep Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, 2008. [ Links ]

CLAUSER, Brian; MAZOR, Kathleen. Using statistical procedures to identify differential item functioning test items. Educational Measurement: Issues and Practice, Philadelphia, v. 17, n. 1, p. 31-44, 1998. [ Links ]

COLE, Nancy. History and development of DIF. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential item functioning. Hilldsdale, NJ: Lawrence Erlbaum, 1993. [ Links ]

FERRER, Alejandro Tiana. Que variáveis explicam os melhores resultados nos estudos internacionais? In: AZEVEDO, Joaquim. Avaliação dos resultados escolares. Porto: ASA, 2003. [ Links ]

GAMERMAN, Dani; LOPES, Hedibert. Markov Chain Monte Carlo: Stochastic simulation for Bayesian inference. New York: Chapman & Hall / CRC, 2006. [ Links ]

GAMERMAN, Dani; SOARES, Tufi GONÇALVES, Flávio. Bayesian analysis in item response theory applied to a large-scale educational assessment. In: O’HAGAN, Anthony; WEST, Mike. The Oxford handbook of applied Bayesian analysis. New York: Oxford University, 2010. p. 624-652. [ Links ]

GIERL, Mark; BISANZ, Jeffrey; BISANZ, Gay; BOUGHTON, Keith. Identifying content and cognitive skills that produce gender differences in mathematics: a demonstration of the DIF analysis framework. Journal of Educational Measurement, Philadelphia , v. 40, n. 4, p. 281-306, 2003. [ Links ]

HAMBLETON, Ronald; SWAMINATHAN, H.; ROGERS, Jane. Fundamentals of Item Response Theory. Newburry Parks: Sage, 1991. [ Links ]

HOLLAND, Paul; THAYER, Dorothy. Differential item performance and the Mantel-Haenszel procedure. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential item functioning. Hilldsdale, NJ: Lawrence Erlbaum , 1988. p. 129-145. [ Links ]

LINN, Robert; DRASGOW, Fritz. Implications of the golden rule settiemernt for test construction. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential item functioning. Hilldsdale, NJ: Lawrence Erlbaum , 1993. [ Links ]

O’NEIL, Kathleen; McPEEK, Miles. Item and test characteristics that are associated with differential item functioning. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential item functioning. Hilldsdale, NJ: Lawrence Erlbaum Associates , 1993. p. 255-276. [ Links ]

PASQUALI, Luiz. Psicometria: teoria dos testes psicológicos. Brasília, DF: Prática, 2000. [ Links ]

SCHMITT, Alicia P.; BLEISTEIN, Carole A. Factors affecting differential item functioning for black examinees on scholastic aptitude test analogy items (ETS RR-87-23). Princeton, NJ: Educational Testing Service, 1987. [ Links ]

SCHMITT, Alicia; HOLLAND, Paul; DORANS, Neil. Evaluating hypotheses about differential item functioning. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential Item Functioning. Hilldsdale, NJ: Lawrence Erlbaum , 1993. p. 281-316. [ Links ]

SOARES, Tufi Utilização da Teoria de Resposta ao Item na produção de indicadores sócio-econômicos. Pesquisa Operacional, Rio de Janeiro, v. 25, n. 1, p. 83-112, jan./abr. 2005. [ Links ]

SOARES, Tufi GENOVEZ, Silene; GALVÃO, Ailton. Análise do Comportamento Diferencial dos Itens de Geografi estudo da 4a série avaliada no Proeb/Simave, 2001. Estudos em Avaliação Educacional, São Paulo, v. 16, n. 32, p. 81-110, jul./dez. 2005. [ Links ]

SOARES, Tufi GONÇALVES, Flávio; GAMERMAN, Dani. Na integrated Bayesian model for DIF analysis. Journal of Educational ad Behavioral Statistics, Washington, v. 34, n. 3, p. 348-377, Sep. 2009. [ Links ]

SWAMINATHAN, Hariharam; ROGERS, Jane. Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, Philadelphia , v. 27, p. 361-370, 1990. [ Links ]

THISSEN, David. IRTLRDIF v.2.0.b: software for the computation of the statistics involved in item response theory Likelihood-Ratio Tests for differential item functioning. 2001. [ Links ]

THISSEN, David; STEINBERG, Lynne; WAINER, Howard. Detection of differential item functioning using the parameters of item response models. In: HOLLAND, Paul W.; WAINER, Howard (Ed.). Differential Item Functioning. Hilldsdale, NJ: Lawrence Erlbaum , 1993. p. 67-114. [ Links ]

ZIMOWSKI, Michele F.; MURAKI, Eiji; MISLEVY, Robert J.; BOCK, R. Darrell. BILOG-MG: Multiple Group IRT Analysis and test maintenance for binary items. Computer software. Chicago: Scientifi Software International, 1996 [ Links ]

1 A competência cognitiva dos alunos e, neste estudo, a proficiência em Ciências no PISA

2Um item é enviesado se sujeitos de habilidades iguais, mas de culturas diferentes, não têm a mesma probabilidade de acertar o item (LINN; DRASGOW, 1993).

3BUGS é um pacote de software para a realização de inferência bayesiana utilizando amostragem de Gibbs. O usuário especifica um modelo estatístico, de complexidade arbitrária, simplesmente dizendo as relações entre as variáveis relacionadas. O software inclui um “sistema especialista”, que determina um regime adequado MCMC (cadeia de Markov Monte Carlo), com base no amostrador de Gibbs para analisar o modelo especificado.

4Amostragem de Gibbs é um algoritmo iterativo para gerar uma sequência de amostras a partir de uma distribuição posterior conjunta por amostragem repetida a partir da distribuição condicional plena. Sob condições apropriadas, pode ser demonstrado que a sequência aleatória que representa os desenhos aleatórios sucessivos constituem uma cadeia de Markov que converge para uma distribuição estacionária igual à distribuição posterior conjunta. Para mais detalhes, ver Gamerman e Lopes (2006).

Recebido: 1 de Março de 2017; Aceito: 1 de Agosto de 2017

Creative Commons License Este é um artigo publicado em acesso aberto sob uma licença Creative Commons