Os estudos sobre avaliação educacional têm obtido um incremento significativo de interesse nos últimos anos, mas os que focam as concepções de professores sofrem com a falta de instrumentos quantitativos no Brasil, apesar de serem comuns em outros países (Ribeiro, Kasmirski, Gusmão, Batista, Jacomini & Crahay, 2018). Pesquisas apontam que as concepções dos professores sobre vários aspectos do processo educacional, como ensino, aprendizagem, avaliação e currículo, influenciam fortemente o modo como eles ensinam (Santos, 2020). As concepções de avaliação dos professores são moldadas de acordo com a forma como conceituam o ensino e a aprendizagem. As concepções que os docentes têm sobre as avaliações são um produto de suas experiências educacionais como estudantes, sugerindo que concepções semelhantes podem ser encontradas entre os docentes e os discentes. A literatura também indica associações entre as concepções de avaliação dos professores e o desempenho acadêmico dos alunos (Brown, 2008).
Dessa forma, todos os fatores supracitados justificam esta pesquisa, que busca compreender as concepções de avaliação de professores. De maneira mais específica, o objetivo deste trabalho é apresentar a adaptação e a validação do questionário Teachers' Conceptions of Assessment (TCoA-III) para o contexto educacional brasileiro.
Concepções de avaliação de professores
O senso comum, por vezes, concebe a avaliação como sinônimo de medida e hierarquização. Porém, dentro de uma perspectiva pedagógica, a dimensão da avaliação torna-se mais ampla. O ato de avaliar não pode resumir-se, somente, a atribuir notas, mas realizar uma série de objetivos que se traduzem em mudanças de comportamento dos alunos (Lamy & Galieta, 2019). Além disso, ao se pensar a avaliação como um processo que contribui para o ensino e a aprendizagem, as funções mais usuais presentes na literatura são: diagnóstica, formativa e somativa. Miquelante, Pontara, Cristovão e Silva (2019) apontam que a avaliação diagnóstica é aquela efetuada antes do início de uma instrução, podendo ser o ponto de partida do ensino (p. 268). A formativa tem uma característica processual, como foco no decorrer do ensino e da aprendizagem (p. 269). Por fim, a somativa ocorre ao final do ensino, ou seja, ela julga o valor de um programa após ter sido terminado (p. 270). Por isso, compreender as funções e os propósitos da avaliação é imprescindível para o estudo das concepções de avaliação dos professores, pois esses conceitos estão relacionados. Lamy e Galieta (2019) enfatizam, ainda, que a formação inicial de professores deve ter como foco reflexões sobre as finalidades da avaliação. Na literatura, identificam-se quatro grandes grupos de concepções de avaliação dos professores (Brown, 2008), que se vinculam com diversas funções e propósitos da avaliação, descritas a seguir.
A avaliação melhora o ensino e a aprendizagem (melhora). A principal premissa dessa concepção é que a avaliação melhora o aprendizado dos alunos e a qualidade do ensino. Às vezes, também é referida como avaliação para o aprendizado ou avaliação formativa. Silva, Carvalho, Ligabo, Rodrigues Jr e Rodrigues (2020) definem que a avaliação formativa (de melhora) deve ajudar o discente a desenvolver suas capacidades cognitivas, por meio de um acompanhamento progressivo. Dessa maneira, essa categoria é baseada na suposição de que o dever dos professores é melhorar a aprendizagem de seus alunos e que a avaliação é um método utilizado para a obtenção de informações que contribuam para esse processo. Logo, os educadores seriam capazes de usar a avaliação formativa para incentivar a aprendizagem (a avaliação é legítima se resultar em ação que consiga mudar o que os alunos sabem ou podem fazer). Na concepção da melhora, são avaliados os conhecimentos com o objetivo de gerar informações para que a melhoria no desempenho dos alunos possa ser alcançada.
A avaliação torna os professores e as escolas responsáveis pela sua eficácia (responsabilização da escola - accountability). O termo accountability tem sido traduzido como responsabilização, mas ele abrange uma complexidade de significados em sua tradução. Na educação, pode ser definido como uma política de tornar escolas e professores responsáveis pelo progresso acadêmico dos alunos, ligando esse progresso com recursos para salários, manutenção das escolas, entre outros. Desse modo, essa concepção focaliza o uso dos resultados da avaliação para demonstrar publicamente que professores e escolas estão fazendo um bom trabalho, o que impõe consequências caso eles não atinjam os padrões estabelecidos (Araujo, Leite & Passone 2018). Duas lógicas estão postas aqui: demonstrar, de forma pública, que as escolas e professores promovem um ensino de qualidade e melhorar a qualidade do ensino. As consequências da responsabilização podem ser positivas ou negativas. Além disso, podem tanto possuir um alto impacto quanto um baixo impacto (Araujo et al. 2018); por exemplo, o professor recebe bonificação por uma melhora em resultados de avaliação dos estudantes (consequência positiva e de alto impacto, uma vez que resulta em uma remuneração diferente para o docente); ou uma escola é publicamente exposta por ter resultados de avaliações ruins quando comparadas com outras (consequência negativa e de alto impacto, podendo resultar no recebimento de menos recursos, em críticas dos pais ou na diminuição do número de matrículas).
A avaliação torna os alunos responsáveis pelo seu aprendizado (responsabilização do aluno). Essa concepção destaca a noção de que a avaliação torna o aluno individualmente responsável pelo seu aprendizado, mediante notas ou certificados ou fornece informações de resultados para os pais, futuros empregadores e outros educadores. Essas avaliações podem ter consequências importantes para os estudantes como um diploma, a aprovação em uma disciplina ou um concurso, uma bolsa, entre outras.
A avaliação é irrelevante e os professores respondem negativamente a ela (irrelevante). A premissa dessa concepção é que a avaliação não tem um lugar legítimo dentro do ensino e da aprendizagem, baseando-se na visão de que os processos de avaliação são inadequados, imprecisos ou irrelevantes para a habilidade do professor de melhorar o aprendizado do aluno. Assim, não haveria a necessidade de realizar qualquer tipo de avaliação, além de processos intuitivos que ocorrem automaticamente enquanto os docentes interagem com os discentes. Isso seria garantido pelo conhecimento dos professores sobre os alunos, baseado em um longo relacionamento com eles e em uma profunda compreensão do currículo. Os processos avaliativos podem ser considerados irrelevantes, também, por causa de seus efeitos prejudiciais sobre a autonomia do educador e seu poder de “distração” do verdadeiro propósito de ensinar. Tratar a avaliação como irrelevante, portanto, é comumente ligado às seguintes alegações: a avaliação equivale a testes e há uma pressuposição de que os testes são ruins para a educação e a avaliação responsabiliza os professores, as escolas e os alunos, o que é considerado ruim para a qualidade da educação. Alguns docentes consideram a avaliação irrelevante em função das consequências negativas nos alunos (Brown, 2008).
Os professores tendem a ter uma orientação direcionada a uma concepção ou uma combinação de várias delas. Dessa maneira, um mesmo docente pode relatar que a avaliação serve para melhorar o aprendizado e que ela é injusta, devendo ser ignorada (concepções de avaliação que parecem ser opostas e conflitantes). A natureza extremamente complexa do fenômeno educacional experienciado por alunos e professores parece contribuir para essa diversidade de concepções. Outra explicação para essa diversidade de concepções em um mesmo sujeito, reside no fato de existirem múltiplas funções da avaliação (as concepções estão ligadas a essas funções).
O Teachers Conceptions of Assessment - TcoA
O TCoA foi desenvolvido em 2004 por Brown, na Nova Zelândia, e investiga as concepções de professores sobre a avaliação. O primeiro questionário desenvolvido foi o Teachers Conceptions of Assessment (TCoA-I), constituído de 115 itens e respondido por 84 professores. Os itens do TCoA-I estão agrupados em três grandes concepções: responsabilização (das escolas e dos alunos), melhora e irrelevância. A Análise Fatorial reteve 65 itens e levou a 10 fatores razoavelmente consistentes: 2 fatores de responsabilização, 5 fatores de melhora e 3 fatores de irrelevância. Esse estudo não foi capaz de correlacionar vários fatores (devido ao tamanho pequeno da amostra), mas conseguiu demonstrar que as principais concepções descritas pela literatura poderiam ser facilmente identificadas no pensamento dos professores. Segundo Brown (2008), quase metade dos itens do TCoA-I não se adaptaram ao modelo. Assim, mais itens foram elaborados com base em uma análise mais aprofundada da literatura sobre as concepções de avaliação de professores (Brown, 2008).
A segunda versão do questionário (TCoA-II) teve 105 itens e foi aplicada em 188 participantes. Os itens dessa versão foram agrupados em três concepções: responsabilização (das escolas e dos alunos), melhora e irrelevância. Baseado em 46 itens retidos pela Análise Fatorial, três fatores foram obtidos: a concepção de responsabilização tinha 12 itens; a concepção de melhora tinha 24 itens; a concepção de irrelevância tinha 10 itens (Brown, 2008). Para a terceira versão (TCoA-III), adicionaram-se 19 itens. Além disso, a concepção de responsabilização foi dividida em duas, ficando quatro grupos de concepções de avaliação de professores: melhora, responsabilização da escola, responsabilização do aluno e irrelevância. Foi analisada uma amostra de 525 docentes. Através da Análise Fatorial foram removidos 15 itens. Os itens foram retirados do questionário por diversos motivos, como: variância de erro negativa ou por apresentarem cargas fatoriais baixas nos fatores. A versão final ficou com 50 itens (Brown, 2008). O TCoA-III é a versão mais atual do instrumento. O formato de respostas é uma escala Likert de seis pontos: discordo fortemente, discordo na maior parte, concordo ligeiramente, concordo moderadamente, concordo na maior parte, concordo fortemente. O TCoA III apresenta uma estrutura fatorial complexa, com fatores de primeira e segunda ordem (Figura 1).

Fonte: BROWN, 2004.
Figura 1 Estrutura fatorial original do Teachers Conceptions of Assessment - TCoA III.
O fator de segunda ordem Melhora (Improvement) possui quatro fatores de primeira ordem: descrição (describe - a avaliação descreve habilidades do aluno, conhecimento e pensamento); aprendizado do aluno (student learning - a avaliação melhora o aprendizado do aluno); válida (valid - a informação da avaliação é válida devido à sua confiabilidade) e ensino (teaching - a avaliação melhora o ensino) (Brown, 2004). O fator de segunda ordem Irrelevância (Irrelevance) possui três fatores de primeira ordem: ruim (bad - a avaliação é ruim para o ensino); ignorada (ignore - os professores ignoram a avaliação) e imprecisa (inaccurate - a avaliação é imprecisa) (Brown, 2004). Os fatores Responsabilização da escola e Responsabilização do aluno são apenas fatores de primeira ordem (Brown, 2004).
Existe, também, uma versão abreviada do questionário. O TCoA-IIIA (Brown, 2008) possui 27 itens e avalia as mesmas quatro grandes concepções. O TCoA III ainda averigua as definições de avaliação, que são representadas por uma lista de práticas avaliativas. Esta parte não foi analisada no presente trabalho.
Estudos anteriores com o Teachers Conceptions of Assessment - TCoA
O Teachers Conceptions of Assessment foi utilizado em mais de 25 estudos nos seguintes países: Nova Zelândia, Hong Kong, Grécia, Espanha, Egito, China e Estados Unidos. Alguns desses estudos serão apresentados abaixo. Nos casos em que existe mais de uma pesquisa realizada no país, apresentamos um trabalho como exemplo. No total, oito trabalhos foram selecionados.
Brown (2004), por meio do questionário Teachers Conceptions of Assessment - TCoAIII, estudou as concepções de avaliação dos professores da Nova Zelândia e a relação dessas concepções com o ensino, o currículo e a eficácia do professor. O questionário utilizado possui 50 itens. Participaram 81 professores. O modelo de Análise Fatorial mostrou um bom ajuste de um modelo hierárquico multidimensional para os dados. Nos resultados, percebeu-se que os professores concordavam moderadamente com as concepções de melhora e de responsabilização da escola e discordavam que a avaliação é irrelevante. As concepções de melhora, responsabilização da escola e responsabilização do aluno foram correlacionadas positivamente. A concepção de irrelevância foi inversamente associada com a concepção de melhora e não associada com a concepção de responsabilização da escola2. Brown, Kennedy, Fok, Chan e Yu. (2009) pesquisaram as concepções e as práticas de avaliação de 374 docentes de Hong Kong por meio do TCoA-IIIA, com 27 itens. Os docentes de Hong Kong concordam mais fortemente com a concepção de melhora e rejeitam a concepção de irrelevância. A correlação entre a concepção de responsabilização dos estudantes e a de melhora foi alta (r = 0,91). Isso sugere que os docentes de Hong Kong veem a responsabilização do aluno associada à melhora da aprendizagem. Brown, Hui, Yu e Kannedy (2011), para desenvolver estudos comparativos entre Hong Kong e a província chinesa de Guangdong, desenvolveram um outro questionário: o C-TCoA, com 31 itens. Assim, o C-TCoA passou a ter duas concepções a mais do que o TCoA: desenvolvimento (a avaliação cultiva qualidades morais, éticas e valores positivos em estudantes que contribuem para a sua aprendizagem ao longo da vida) e controle (a avaliação controla o comportamento e as ações dentro e fora da sala de aula. A avaliação é utilizada para melhorar e manter o controle e o domínio da opinião do professor sobre o aluno). As outras quatro concepções são as mesmas para os dois instrumentos. Além disso, outros itens foram acrescentados. Participaram 1014 professores de Hong Kong e 898 da China. Essa análise apontou a existência de invariância fatorial entre os dois grupos de professores. Os professores da China concordaram de forma moderada para forte com a concepção de irrelevância. Brown e Michaelides (2011) fizeram um estudo comparativo por meio do TCoA-IIIA (27 itens) entre os professores cipriotas-gregos e os neozelandeses (249 cipriotas-gregos e 929 da Nova Zelândia). No processo de adaptação, o questionário passou a ter 26 itens. Ao contrário dos neozelandeses, os professores gregos concordam mais com as concepções de responsabilização da escola e irrelevância, mas essas duas concepções apresentam uma correlação negativa para esse grupo de docentes. Deneen e Brown (2011) examinaram as concepções de avaliação de seis professores em Nova Iorque nos Estados Unidos por meio de entrevistas semiestruturadas. Essas entrevistas foram construídas em torno das quatro concepções de avaliação do TCoA, versão abreviada (27 itens). A concepção dominante foi de irrelevância (os participantes viam a avaliação como algo negativo, como se ela não tivesse um lugar legítimo dentro do processo de ensino e aprendizagem). Brown e Remesal (2012) estudaram as concepções de avaliação de licenciandos da Nova Zelândia e da Espanha. Participaram 627 espanhóis e 324 neozelandeses (versão abreviada, TCoA-IIIA). Os neozelandeses concordaram com as concepções de melhora, responsabilização da escola e responsabilização dos alunos. Os espanhóis concordaram com a concepção de irrelevância. Gebril e Brown (2014) estudaram as concepções de avaliação de professores do Egito (versão abreviada do TCoA). Participaram 507 professores. As respostas obtidas foram separadas em nove fatores de primeira ordem, que estão correlacionados com as quatro grandes concepções (segunda ordem). Os professores egípcios concordaram mais com as concepções de melhora e responsabilização dos alunos. Essas duas concepções tiveram uma correlação forte e positiva.
Evidencia-se que o Teachers Conceptions of Assessment (TCoA) é instrumento adaptado e utilizado em diversos países. Trata-se de uma escala já bem fundamentada e descrita na bibliografia. Assim, utilizar o TCoA possibilita a análise e comparação dos resultados brasileiros com outros países (pesquisa transcultural).
Método
Para a adaptação e validação do instrumento, seguiu-se o modelo de Pasquali (1999), que indica três grandes polos: teórico, empírico (experimental) e analítico (estatístico). Nos procedimentos teóricos, inicialmente, realizamos a tradução da versão original em inglês do questionário TCoA-III para o português. Nessa primeira tradução em comitê, participaram os autores deste trabalho e uma tradutora. Depois, realizou-se o procedimento de back translation (tradução inversa), no qual três tradutores independentes, que não se envolveram na tradução original, fizeram a tradução da versão em português para o inglês. A partir da análise dessas traduções, foi possível chegar a uma versão final da tradução do questionário. Participaram da etapa final da tradução em comitê os autores deste trabalho. Em seguida, fez-se a análise semântica, que tem por objetivo confirmar se os itens do instrumento estão claros para a população a que se destina. Uma das maneiras mais eficazes de testar a compreensão dos itens é realizar uma entrevista com pequenos grupos (Pasquali, 1999). Dez docentes participaram de entrevistas semiestruturadas. Os professores foram separados em dois grupos: um com 6 docentes e outro com 4. Todos os participantes eram de escolas públicas. A partir das entrevistas, algumas alterações no TCoA-III foram feitas.
O polo empírico (experimental) é a etapa de aplicação do questionário, que envolve a definição da amostra, as instruções de aplicação do instrumento e a coleta das informações. Efetuou-se um estudo piloto com 10 professores de escolas públicas. Após os docentes responderem, eles não relataram nenhum problema ou dúvida. Assim, depois da aplicação do teste piloto, não houve necessidade de mudanças no questionário. Posteriormente, aplicou-se a versão final do questionário na amostra total e disponibilizou-se, também, uma versão on-line do instrumento.
O polo analítico envolve as análises estatísticas (Pasquali, 1999). Essa etapa é complementar a todas as outras. Utilizaram-se métodos quantitativos ligados à adaptação e à validação de instrumentos: Análise Fatorial Exploratória (AFE), consistência interna (coeficiente Alfa de Cronbach) e evidências de validade do instrumento. Segundo Souza, Alexandre e Guirardello (2017), “a validade refere-se ao fato de um instrumento medir exatamente o que se propõe a medir” (p. 652). Pesquisadores e desenvolvedores de testes apontam que a tradução do instrumento não é suficiente para estabelecer sua validade em uma segunda língua (Junior, Lupi, Dias, Guimaraes & Valle 2016). A Análise Fatorial, a consistência interna e as correlações entre os fatores são fontes de evidências sobre padrões de convergência e divergência do instrumento (um dos aspectos da validade do construto). Evitou-se utilizar os termos validade convergente/discriminante, pois na bibliografia eles são mais empregados na comparação com testes diferentes (variáveis externas). A validação convergente deve apresentar uma correlação alta com outro teste que mede um traço teoricamente relacionado ao que o teste mede. Em contraste, a validação discriminante deve mostrar uma correlação nula com outro teste com o qual foi destinado a diferir (Pasquali, 1999). No entanto, produziu-se uma matriz de correlação entre os fatores como mais uma forma de coletar fontes de evidência de validade.
O software MPLUS versão 7.2 foi utilizado para realizar a AFE, que foi conduzida com uso de um estimador robusto para variáveis categóricas chamado mean and variance-adjusted weighted least squares (WLSMV). Usou-se o método de rotação oblíqua oblimin, cujos fatores extraídos são correlacionados (Matos & Rodrigues, 2019). O tipo de correlação utilizada para produzir os resultados foi a correlação policórica, empregada quando as variáveis são ordinais. O MPLUS apresenta os resultados da AFE de uma maneira diferente de outros pacotes estatísticos. Na AFE, são fornecidos os mesmos índices de ajuste de uma Análise Fatorial Confirmatória (AFC).3 Os índices de ajuste do modelo utilizados foram: o índice de ajuste comparativo (CFI), a raiz do erro quadrático médio de aproximação (RMSEA) e a raiz do resíduo quadrático médio padronizado (SRMR). Um bom ajuste dos dados ocorre quando o CFI é ≥0,95, o RMSEA ≤0,05 e o SRMR ≤ 0,08. No CFI, os valores entre 0,90 e 0,95 sugerem um ajuste de dados aceitável, bem como os valores do RMSEA entre 0,05 e 0,08. Valores fora desses limites sugerem que o modelo não deve ser aceito (Fan & Sivo, 2007). Portanto, o critério de corte de CFI ≥0,95, RMSEA ≤0,05 e SRMR ≤0,08 foi usado no presente trabalho para estabelecer um ajuste adequado. Assim, no MPLUS, é necessário estabelecer um número mínimo e máximo de fatores a serem extraídos, com o objetivo de comparar os índices de ajuste de soluções com número de fatores diferentes.
Participantes
Participaram da pesquisa professores da educação básica [N=179; 110 mulheres (61,5%) e 69 homens (38,5%); idade M=37,6 anos, DP=10,5] de cinco estados do Brasil (Minas Gerias, 151; São Paulo, 16; Espírito Santo, 6; Rio Grande do Sul, 1 e Paraná, 1). Dentre os respondentes, 109 possuem pós-graduação; 144 dão aulas em instituições públicas, 22 em escolas privadas e 12 em ambas; 84 são professores iniciantes e 95 professores experientes (aqueles que possuem oito anos ou mais de prática docente); 48 são docentes do ensino fundamental, 58 do ensino médio e 60 de ambos os segmentos (Tabela 1).
Tabela 1 Caracterização da amostra
| Categoria | N |
|---|---|
| Sexo | |
| Feminino | 110 (61.45%) |
| Masculino | 69 (38.55%) |
| Experiência | |
| Iniciantes | 84 (46.92%) |
| Experientes | 95 (53.08%) |
| Pós-graduação | |
| Sim | 109 (60.89%) |
| Não | 60 (33.51%) |
| Dados ausentes | 10 (5.6%) |
| Instituição | |
| Pública | 144 (80.45%) |
| Privada | 22 (12.29%) |
| Ambas | 12 (6.7%) |
| Dados ausentes | 1 (0.56%) |
| Segmento | |
| Fundamental | 48 (26.82%) |
| Médio | 58 (32.40%) |
| Ambos | 60 (31.52%) |
| Dados ausentes | 13 (7.26%) |
A maioria dos docentes participantes é do sexo feminino, de Minas Gerais, possuem pós-graduação e trabalham em escolas públicas. Na experiência, a amostra é equilibrada, com uma pequena porcentagem maior de professores experientes (isso também acontece na média de idade). Os segmentos da educação básica estão equilibrados, com pequeno número maior de docentes do ensino médio. A amostra é não-probabilística. No entanto, tentou-se garantir a maior heterogeneidade possível.
Resultados
Conforme indicado, no software MPLUS, é preciso estabelecer um número mínimo e máximo de fatores a serem extraídos, com o objetivo de comparar os índices de ajuste de soluções com número de fatores diferentes. Indicou-se ao programa soluções entre 1 e 12 fatores. A solução com 12 fatores não convergiu. A Tabela 2 apresenta os índices de ajuste dos 11 modelos.
Tabela 2 Comparação de índices de ajuste da AFE: Concepções de avaliação
| Modelos | χ2 | gl | CFI | RMSEA | SRMR |
|---|---|---|---|---|---|
| 1 fator | 2228.104 | 1175 | 0.882 | 0.071 | 0.094 |
| 2 fatores | 1878.624 | 1126 | 0.916 | 0.061 | 0.076 |
| 3 fatores | 1607.503 | 1078 | 0.941 | 0.052 | 0.062 |
| 4 fatores | 1435.146 | 1031 | 0.955 | 0.047 | 0.055 |
| 5 fatores | 1355.154 | 985 | 0.959 | 0.046 | 0.051 |
| 6 fatores | 1275.294 | 940 | 0.963 | 0.045 | 0.048 |
| 7 fatores | 1210.875 | 896 | 0.965 | 0.044 | 0.045 |
| 8 fatores | 1131.523 | 853 | 0.969 | 0.043 | 0.042 |
| 9 fatores | 1051.890 | 811 | 0.973 | 0.041 | 0.039 |
| 10 fatores | 986.788 | 770 | 0.976 | 0.040 | 0.036 |
| 11 fatores | 923.658 | 730 | 0.978 | 0.038 | 0.033 |
Nota: Todos os valores χ2 foram estatisticamente significantes (p < . 0000). χ2: qui-quadrado, gl: graus de liberdade
Na Tabela 2, fica evidenciado que, a partir do modelo de 4 fatores, todos os índices de ajuste atendem ao critério de corte proposto. Sendo assim, qualquer escolha feita entre 4 e 11 fatores está justificada empiricamente. A partir desses resultados, fica claro que a decisão não deve ser apenas empírica, mas também teórica. Nesse sentido, optamos por analisar os modelos que mais se aproximassem da estrutura fatorial original do instrumento (FIG. 1). Escolheram-se dois modelos: o com 4 fatores (representando as quatro grandes concepções de avaliação de professores: melhora, responsabilização do aluno, responsabilização da escola e irrelevância) e o com 9 fatores (representando os 9 fatores de primeira ordem da estrutura fatorial original do TCoA: responsabilização do aluno, responsabilização da escola, melhora, descrição, aprendizado do aluno, válida, ensino, irrelevância, ruim, ignorada e imprecisa).
Para o modelo de quatro fatores não se obteve o resultado esperado teoricamente, pois a hipótese inicial seria encontrar uma estrutura semelhante às quatro grandes concepções de avaliação de professores. Assim, esse resultado sugere uma estrutura fatorial diferente para o TCoA brasileiro. Da mesma forma, a partir dos resultados da AFE, fica evidente a impossibilidade de nomear (interpretar teoricamente) de maneira satisfatória o modelo de 9 fatores. Esse não foi o resultado esperado teoricamente, pois a hipótese era encontrar uma organização semelhante aos 9 fatores de primeira ordem da estrutura fatorial original do TCoA (FIG. 1). Vale ainda destacar que, no caso do modelo de 4 fatores, apesar de algumas diferenças, isso foi possível de ser feito em certa medida.
Logo, tomados em conjunto, os resultados da AFE sugerem uma estrutura fatorial diferente para o TCoA brasileiro. Dessa forma, análises adicionais foram realizadas e excluíram-se itens que se mostraram problemáticos. Utilizou-se uma combinação de critérios simultaneamente: carga fatorial baixa, comunalidade baixa e indeterminação fatorial. Os itens foram removidos em três análises subsequentes. Na primeira análise, foram excluídos 23 itens: 1, 5, 7, 11, 12, 16, 17, 19, 22, 28, 29, 30, 32, 34, 36, 37, 38, 39, 40, 44, 46, 48 e 49; na segunda, quatro itens: 6, 8, 21 e 47, e na terceira análise o item 35. Assim, foram excluídos 28 itens da versão original do TCoA (Anexo 1). O modelo final apresentou o seguinte ajuste: χ 2 (149, N= 179) = 269.134, p < 0.000, CFI= .960; RMSEA= .067; SRMR = .045. Dois índices indicaram bom ajuste do modelo (CFI e SRMR) e um índice indicou um ajuste dos dados considerado aceitável (RMSEA). As cargas fatoriais e as comunalidades dos itens do modelo final do TCoA brasileiro são apresentados na Tabela 3.
Tabela 3 Análise final TCoA brasileiro - 4 fatores
| Item | 1 | 2 | 3 | 4 | Comunalidade |
|---|---|---|---|---|---|
| 2 | .533* | -.018 | .098 | .226* | .345 |
| 3 | .734* | -.132* | .074 | .208* | .605 |
| 4 | .608* | .040 | .071 | .068 | .381 |
| 9 | .686* | .091 | -.020 | -.122* | .494 |
| 10 | .639* | .223* | .096 | -.254* | .532 |
| 13 | .633* | -.053 | .051 | -.141 | .426 |
| 14 | .791* | -.044 | -.070 | -.170* | .661 |
| 15 | .548* | .030 | -.300* | .099 | .401 |
| 18 | .087 | .586* | -.086 | -.096 | .367 |
| 20 | .605* | .112* | .000 | .103 | .389 |
| 23 | 0.038 | -.038 | .667* | .076 | .453 |
| 24 | .574* | -.096 | -.007 | .103 | .349 |
| 25 | .071 | -.053 | -.056 | .652* | .436 |
| 26 | .545* | .165* | -.127* | .211* | .385 |
| 27 | -.028 | .150* | .155* | .691* | .528 |
| 31 | .711* | .088 | -.208* | .032 | .557 |
| 33 | -.111* | .790* | -.069 | .116* | .655 |
| 41 | -.015 | .614* | .220* | .041 | .427 |
| 42 | .324* | .526* | -.073 | -.056 | .390 |
| 43 | .043 | .071 | .674* | -.077 | .467 |
| 45 | .351* | .505* | -.141* | -.049 | .400 |
| 50 | -.084 | -.074 | .731* | .073 | .552 |
Nota: as cargas fatoriais mais altas estão em negrito. Método de rotação: oblimin. *estatisticamente significante, p < .05
A estrutura original do TCoA é (Anexo 1): Melhora (descrição): 10, 22, 26, 32, 39, 48; Melhora (aprendizado do aluno): 4, 9, 12, 15, 21, 38, 45; Melhora (válida): 3, 13, 14, 24, 31; Melhora (ensino): 6, 7, 18, 33, 35, 41. Responsabilização da escola: 17, 30, 34, 37, 42, 44; Responsabilização do aluno: 2, 19, 20, 25, 27, 28, 47. Irrelevância (ruim): 1, 5, 8, 11, 16; Irrelevância (ignorada): 23, 43, 46, 49, 50; Irrelevância (imprecisa): 36, 29, 49.
Os resultados da AFE foram: Fator 1 itens: 2, 3, 4, 9, 10, 13, 14, 15, 20, 24, 26 e 31 (todos os 5 itens melhora-válida, 3 itens melhora-aprendizado do aluno, 2 itens melhora-descrição e 2 itens responsabilização do aluno); Fator 2 itens: 18, 33, 41, 42 e 45 (3 itens melhora-ensino, 1 melhora-aprendizado do aluno, 1 responsabilização da escola); Fator 3 itens: 23, 43 e 50 (todos irrelevância-ignorada); Fator 4 itens: 25 e 27 (responsabilização do aluno) (TAB. 3).
A partir da Tabela 3, é possível observar que o fator 1 representa prioritariamente a concepção de melhora. Nesse fator estão presentes 10 itens pertencentes a essa concepção. Os dois itens de responsabilização do aluno (2 e 20) possuem carga fatorial positiva (.533 e .605, respectivamente), o que faz sentido teoricamente, pois segundo Brown et al. (2009) as concepções de melhora e responsabilização do aluno possuem uma relação positiva com a autorregulação da aprendizagem. Além disso, nesse fator encontram-se todos os itens do fator de primeira ordem “válida” e todos os itens não removidos do fator de primeira ordem “descrição”. O fator 2 também representa prioritariamente a concepção de melhora. Nesse fator estão todos os itens não removidos do fator de primeira ordem “ensino” (18, 33 e 41). O item de responsabilização da escola (42) possui carga fatorial positiva (.526). O fator 3 representa a concepção de irrelevância “ignorada”. Por fim, o fator 4 representa a concepção responsabilização do aluno.
Portanto, para fins interpretativos da AFE, considerando o modelo final, nomeiam-se os fatores da seguinte forma: fator 1: melhora; fator 2: melhora-ensino; fator 3: irrelevância-ignorada e fator 4: responsabilização do aluno. Quanto ao resultado esperado teoricamente, a maior diferença é que na versão brasileira não apareceu a concepção de responsabilização da escola.
Também fica evidente na Tabela 3 que no modelo final não existem mais itens com cargas fatoriais baixas ou com indeterminação fatorial. Apesar de alguns itens apresentarem comunalidades abaixo do valor de 0,5, destaca-se que as decisões do pesquisador não devem se basear em apenas um critério. Portanto, em função dos índices de ajuste do modelo, foram mantidos alguns itens com comunalidades consideradas mais baixas. A consistência interna (confiabilidade) dos fatores é apresentada na Tabela 4.
Tabela 4 Consistência interna dos fatores do TCoA brasileiro
| Fator | Alfa de Cronbach |
|---|---|
| 1 (melhora) | .88 |
| 2 (melhora-ensino) | .77 |
| 3 (irrelevância-ignorada) | .70 |
| 4 (responsabilização do aluno) | .61 |
Como fica evidente a partir da Tabela 4, todos os fatores apresentaram confiabilidade satisfatória, com exceção do fator 4. Os valores nos quais o alfa de Cronbach > 0,70 são satisfatórios, mas para pesquisas exploratórias esse valor pode diminuir para 0,60 (Matos & Rodrigues, 2019). Provavelmente, o valor mais baixo do coeficiente no fator 4 se deve ao fato dele possuir apenas dois itens. Tecnicamente, é pouco adequado um fator com somente dois itens. Adicionalmente, produziu-se uma matriz de correlação entre os fatores como mais uma forma de coletar fontes de evidência de validade do questionário (Tabela 5).
Tabela 5 Correlação dos fatores
| 1 - Melhora | 2 - Melhora-ensino | 3 - irrelevância | 4 - responsabilização do aluno | |
|---|---|---|---|---|
| 1 | 1.000 | |||
| 2 | 0.405* | 1.000 | ||
| 3 | -0.350* | -0.232* | 1.000 | |
| 4 | -0.039 | 0.008 | 0.181* | 1.000 |
Nota: *estatisticamente significante, p < .05.
A partir da Tabela 5, quatro correlações estatisticamente significativas são perceptíveis: correlações positivas entre os fatores 1 e 2 (r = 0,405) (maior valor encontrado), o que era esperado teoricamente, uma vez que os dois fatores representam a concepção de melhora (fator 1: melhora; fator 2: melhora-ensino); e fatores 3 e 4 (r= 0,181), destaca-se que a correlação significativa, nesse caso, não era esperada, visto que o primeiro representa a concepção de irrelevância e o segundo a concepção de responsabilização do aluno. No entanto, o valor da correlação é baixo. Além disso, existem correlações negativas entre os fatores 1 e 3 (r= -0,350 e os fatores 2 e 3 (r = -0,232), ambas esperadas teoricamente, já que os fatores representam as concepções de melhora e irrelevância, respectivamente, nos dois casos.
Discussão
Nesta pesquisa, abordou-se um tema que é pouco pesquisado no Brasil: o desenvolvimento de instrumentos que avaliem as concepções de avaliação de professores. Como mencionado, testes com esse foco são escassos no Brasil (Ribeiro et al. 2010) e este trabalho avança nessa discussão. Entender como os professores estão concebendo a avaliação pode nos apontar caminhos para uma melhor compreensão das práticas avaliativas que têm sido utilizadas tanto no ensino básico quanto no superior. Nesse sentido, estudos sobre as concepções de avaliação podem contribuir para a reflexão sobre a prática pedagógica. A eficácia das práticas avaliativas está condicionada pela forma como os professores entendem e, consequentemente, respondem à avaliação. Destaca-se que conhecer as concepções de avaliação de alunos e gestores é igualmente importante.
A análise teve com foco a adaptação e validação do questionário Teachers’ Conceptions of Assessment (TCoA-III), instrumento desenvolvido originalmente na Nova Zelândia (2004). A versão do questionário utilizada possui 50 itens, mas existe, também, uma versão abreviada. O TCoA-IIIA (BROWN, 2008) possui 27 itens e foi desenvolvido para fornecer uma medição mais sintética das mesmas quatro grandes concepções presentes no TCoA-III (melhora, responsabilização da escola, responsabilização do aluno e irrelevância). Escolheu-se usar a versão completa do questionário por ser a primeira adaptação desse instrumento para a realidade brasileira. Os resultados, no entanto, aproximam a versão brasileira da resumida (no que tange ao número de itens), visto que ficou com 22 itens. Dessa forma, a primeira adaptação e validação para o contexto brasileiro indica caminhos de como melhorar o questionário em estudos futuros.
Acredita-se que a utilização do TCoA-III em pesquisas futuras é uma alternativa viável para pesquisadores interessados na temática das concepções de avaliação de professores em diversos sentidos: aplicação parcial ou integral do questionário propriamente dito; utilização dos itens para elaborar um roteiro de entrevista semiestruturada, como já realizado no estudo feito nos EUA (Deneen & Brown, 2011). Além disso, estudar as concepções de avaliação dos professores poderá ajudar a suprir lacunas - no que se refere à avaliação educacional - nos cursos de formação de professores Dessa forma, é importante que nos cursos de formação de professores sejam conhecidas as concepções de avaliação dos docentes.
Uma limitação do trabalho diz respeito ao tamanho da amostra. Assim, são necessários trabalhos adicionais no contexto brasileiro que utilizem amostras maiores, no sentido de confirmar os resultados que encontramos. Novas pesquisas são necessárias para investigar de maneira mais aprofundada as concepções de avaliações dos professores, inclusive por meio de outros métodos.














