INTRODUÇÃO
O propósito das escolas de Medicina é preparar futuros egressos para uma prática assistencial responsável e qualificada. Nesse sentido, o processo de avaliação da aprendizagem é essencial, pois possibilita observar os resultados das intervenções educacionais1. O procedimento de avaliação é uma importante ferramenta no arsenal do ensino, sendo um instrumento impulsionador da aprendizagem2)-(4. No entanto, comumente os métodos de avaliação utilizados não são planejados para identificar a evolução das habilidades cognitivas dos estudantes e, em geral, avaliam a aquisição dos conteúdos estudados, muitas vezes cobrando uma simples memorização.
Para que possa contribuir para o processo de aprendizagem, a avaliação deve ser planejada de forma a espelhar os objetivos a serem alcançados, nos níveis cognitivos, afetivos e psicomotores, e permitir que tanto os docentes como os estudantes possam identificar seus progressos e pontos de melhorias5.
Um método de avaliação que vem ganhando atenção nas escolas médicas é o Teste do Progresso (TP), que avalia o desempenho cognitivo longitudinal dos estudantes6. O TP é aplicado semestralmente ou anualmente a todos os discentes do curso, de forma simultânea, sendo constituído de itens de múltipla escolha (IME). O conteúdo do TP compreende toda a matriz curricular, sendo relacionado aos seus objetivos finais e baseado nas Diretrizes Curriculares Nacionais do curso de graduação em Medicina7),(8.
O TP deve exigir dos alunos muito além da memorização. Os IME são elaborados por docentes da própria instituição ou de consórcios formados com esse propósito, e espera-se um ganho cognitivo gradativo com o passar dos períodos8.
Pela importância que o TP vem ganhando na educação médica, é relevante avaliar se a qualidade de seus itens atende às premissas de um bom processo avaliativo. Isso inclui verificar se os IME do TP apresentam:
Capacidade discriminativa: Os itens devem ser capazes de distinguir entre estudantes com diferentes níveis de conhecimento e habilidades.
Equilíbrio quantitativo em relação à dificuldade dos itens: Deve haver uma distribuição balanceada de itens com diferentes graus de dificuldade, de modo a garantir que o teste seja desafiador o suficiente para todos os alunos, sem ser excessivamente fácil ou difícil.
Complexidade cognitiva apropriada: Os itens devem exigir não apenas memorização, mas também capacidade de fazer relações, inferências e generalizações, refletindo as demandas cognitivas da prática médica.
É importante distinguir entre dificuldade e complexidade em itens avaliativos. A dificuldade se relaciona a fatores que oferecem obstáculos para a resolução de um problema, enquanto a complexidade envolve as habilidades cognitivas necessárias para resolvê-lo. A dificuldade é geralmente avaliada estatisticamente, enquanto a complexidade é avaliada qualitativamente, muitas vezes utilizando taxonomias educacionais9),(10. Portanto, um item pode apresentar elevado índice de dificuldade e baixa complexidade ou vice-versa.
Dentre os métodos estatísticos para a avaliação psicométrica, a Teoria Clássica dos Testes (TCT) permite avaliar o índice de dificuldade (IDF) e o índice de discriminação (ID) dos itens que compõem o teste. O IDF é encontrado calculando a razão entre o número de alunos que responderam corretamente e o número total de alunos submetidos ao item. Esse índice varia de 0 a 1. A Tabela 1 apresenta uma classificação dos itens de uma prova em relação ao IDF e o percentual esperado de distribuição em uma avaliação11.
Tabela 1 Critérios de distribuição e classificação do grau de dificuldade do item pela TCT.
Quantitativo ideal de itens em uma avaliação (% esperado) | Índice de dificuldade do item | Classificação do item em relação ao índice de dificuldade |
---|---|---|
10% | Superior a 0,9 | Muito fáceis |
20% | De 0,7 a 0,9 | Fáceis |
40% | De 0,3 a 0,7 | Medianos |
20% | De 0,1 a 0,3 | Difíceis |
10% | Até 0,1 | Muito difíceis |
Fonte: Vilarinho11 (p. 27).
O ID é calculado pela diferença entre o percentual de acerto de um determinado item dos estudantes que tiveram melhor desempenho no teste e o percentual dos que tiveram pior desempenho. Para obter esse cálculo, os candidatos serão alocados em três grupos: o grupo superior (27% das maiores pontuações), o grupo inferior (27% das menores pontuações) e o grupo intermediário com os demais 46% dos candidatos11. A Tabela 2 apresenta os critérios dos valores do ID e a classificação do item de acordo com seu poder de discriminação.
Tabela 2 Valores do poder de discriminação e classificação do item pela TCT.
Valores | Classificação |
---|---|
Discriminação < 0,20 | Item deficiente, deve ser rejeitado |
0,20 ≤ Discriminação < 0,30 | Item marginal, sujeito a reelaboração |
0,30 ≤ Discriminação < 0,40 | Item bom, mas sujeito a aprimoramento |
Discriminação ≥ 0,40 | Item bom |
Fonte: Vilarinho11 (p. 28).
Em relação à complexidade dos itens, eles podem ser avaliados por meio das taxonomias educacionais, que são sistemas de classificação que possibilitam a categorização dos níveis de aprendizagem atingidos pelos estudantes, sendo útil para o sistema de avaliação e planejamento dos objetivos educacionais12. Dentre as taxonomias educacionais existentes, a Taxonomia Structure of Observing Learning Outcome (SOLO) foi concebida com a ideia de que os indivíduos aprendem diferentes conteúdos em estágios de complexidade ascendentes13),(14.
Biggs et al.15 propuseram uma categorização dos estágios de entendimento de conteúdo, denominados “modos de pensamento”, baseados nos estágios piagetianos. Esse sistema identifica diferentes graus de formalização do pensamento, permitindo avaliar a qualidade da aprendizagem. A Taxonomia SOLO (TS), derivada desses conceitos, classifica a estrutura da aprendizagem demonstrada em cinco níveis progressivos de complexidade cognitiva15 (Figura 1):
Pré-estrutural (SOLO 1): respostas inadequadas, informações irrelevantes ou incoerentes.
Uniestrutural (SOLO 2): respostas direcionadas a um único elemento da tarefa e, portanto, inconsistentes.
Multiestrutural (SOLO 3): respostas identificam mais de um elemento da tarefa, mas não há integração das informações, levando a incoerências.
Relacional (SOLO 4): diversas informações são identificadas e são estabelecidas relações de forma coerente, havendo um entendimento do todo, não havendo inconsistências.
Abstrato estendido (SOLO 5): resposta vai além dos elementos do item, partindo para abstração e generalização.

Fonte: Elaborado pelos autores a partir de BIGGS, John. Calidad del aprendizaje universitario. Narcea, 2006. p. 7116.
Figura 1 Taxonomia SOLO.
Estudos identificaram duas formas principais de aprendizagem: uma denominada superficial e a outra profunda. A aprendizagem superficial (AS) é caracterizada pela reprodução do conteúdo sem conexões ou reflexões, enquanto a aprendizagem profunda (AP) envolve um entendimento intrínseco e reflexivo, exigindo processos cognitivos elaborados15. A AS é formada pelos níveis SOLO 2 e SOLO 3, e a AP, pelos níveis SOLO 4 e SOLO 5. A AS se baseia na retenção de detalhes concretos por meio de memorização. A AP é mais complexa, pois requerer relações de informações, de modo a qualificar o indivíduo para compreender mecanismos e princípios e realizar generalizações ou teorizações15),(17.
Ao longo da formação, os estudantes progridem de forma ascendente, de uma compreensão concreta para abstrata, desenvolvendo habilidades de estabelecer relações e fazer inferências, refletindo um aumento na capacidade de manejar informações de forma consistente e realizar generalizações. Essa evolução ascendente do processo cognitivo dos estudantes pode ser categorizada como ciclos de aprendizagem, que representam a forma como o discente compreende e opera o conteúdo estudado, do modo mais concreto ao mais abstrato18.
Pelos motivos expostos, o objetivo do presente estudo foi analisar as características psicométricas de uma avaliação do TP pela TCT, em relação ao IDF e ao ID obtidos, além de categorizar a complexidade cognitivas de seus itens pelos pressupostos da TS. A TS foi selecionada para este estudo devido à sua capacidade de classificar a complexidade da estrutura da aprendizagem demonstrada pelos estudantes em uma tarefa específica, identificando os processos de pensamento envolvidos, e pela possibilidade de diferenciar a AS da AP19),(20.
MATERIAIS E MÉTODO
Trata-se de um estudo descritivo, de abordagem quantitativa e qualitativa. Analisamos o TP aplicado, no primeiro semestre do ano de 2022, a todos os alunos, do primeiro ao 12º período, do curso de Medicina da Universidade Professor Edson Antônio Velano (Unifenas) - câmpus de Belo Horizonte (TPU2022-1), de forma simultânea, contendo 120 IME. O conteúdo foi dividido nas áreas do conhecimento: cirurgia, clínica médica, ginecologia-obstetrícia, pediatria e saúde coletiva, com 24 itens para cada área.
A prova do TPU2022-1 foi baseada na matriz de prova do TEP MINAS 2019, que foi elaborada pela equipe do Consórcio Mineiro de Escolas Médicas para o Teste do Progresso (TEP MINAS 1). Fazem parte do TEP MINAS 1 oito escolas médicas do estado de Minas Gerais, entre entidades públicas e privadas.
As encomendas (guia para elaboração das questões) foram enviadas aos professores das instituições de acordo com a sua área de atuação. Quando entregues, as questões foram revisadas, e realizaram-se as correções necessárias.
Os IME do TPU2022-1 foram avaliados por meio da TCT e categorizados pelos critérios da TS. A categorização dos IME pela TS foi realizada por meio de uma adaptação do modelo de classificação da complexidade dos itens de uma avaliação proposto por Mário Ceia21. Por esse modelo, o item de uma avaliação é analisado a partir da reposta esperada para a questão, considerando três parâmetros: quantidade de conhecimento necessário para sua resolução, operações cognitivas envolvidas na solução do problema e complexidade da resposta solicitada. O Quadro 1 apresenta o sistema de categorização proposto para este estudo, que foi adaptado dos trabalhos de Ceia21 e Pereira10.
A partir das informações do Quadro 1, elaborou-se a Ficha de Categorização do Item - FCI (Quadro 2), em que, para cada item do TPU2022-1, transcreveram-se o enunciado, as alternativas e o gabarito da questão. Ainda constam na FCI espaços para análise do conteúdo do item e dos procedimentos cognitivos necessários para sua resolução, e, por fim, um espaço para sua categorização pela TS. Uma lista de verbos frequentemente associada a cada categoria SOLO foi anexada à FCI para que os avaliadores pudessem consultar e melhor ajustar seus pareceres.
Quadro 1 Sistema de categorização dos itens do TPU2022-1.
Categoria SOLO da questão | Exemplos de verbos de comando e sua relação com as categorias SOLO | Conhecimento abordado no item | Procedimentos cognitivos envolvidos para resolução do item | |
---|---|---|---|---|
Número de tópicos utilizados | Relação entre os tópicos | |||
Abstrato (SOLO 5) | Discutir, hipotetizar, avaliar, raciocinar, estimar, criticar, interpretar, prever, refletir, programar, julgar, generalizar, implementar. | Dois ou mais tópicos. | Necessita de associação entres os tópicos. | Indução e/ou dedução; exige identificação de informações relevantes não comumente discutidas no curso médico, elaboração de hipóteses e generalizações. |
Relacional (SOLO 4) | Explicar, integrar, referir, analisar, comparar, interpretar, construir, planejar, resumir, relacionar, argumentar. | Indução e/ou dedução; exige identificação de informações relevantes frequentemente discutidas no curso médico. | ||
Multiestrutural (SOLO 3) | Descrever, executar, resolver, aplicar, combinar, completar, classificar, enumerar. | Utilizados isoladamente. | Indução e/ou dedução; exige identificação de informações relevantes frequentemente discutidas no curso médico. | |
Uniestrutural (SOLO 2) | Identificar, decidir, organizar, reproduzir, eleger, encontrar, reconhecer, contar, buscar, parafrasear. | Um único tópico. | Não se aplica. | Indução e/ou dedução; exige identificação de informação relevante frequentemente discutida no curso médico. |
Quadro 2 Ficha de Categorização do Item.
A seguir você encontrará a transcrição da questão de nº ...... do Teste do Progresso da Unifenas-BH do ano de 20......... Leia o enunciado da questão e avalie a resposta assinalada como correta. Partindo da resposta correta, analise os conteúdos e os procedimentos cognitivos exigidos para a resolução da questão, considerando o sistema de categorização dos itens apresentado a você. Ao final classifique a complexidade da questão pela Taxonomia SOLO. |
Enunciado do item: |
Alternativas: |
Gabarito da questão: ............ |
Análise de conteúdo: |
Análise de procedimentos: |
Categoria SOLO da questão: ( ) SOLO 2 ( ) SOLO 3 ( ) SOLO 4 ( ) SOLO 5 |
Fonte: Elaborado pelos autores.
Participaram da categorização dos IME dois professores médicos, doutores, que receberam treinamento sobre os pressupostos da TS para a categorização de IME, além do pesquisador principal. Foram selecionados 33,33% dos itens do TPU2022-1, que correspondem a 40 itens, utilizando uma amostragem probabilística sistemática para que os três avaliadores realizassem suas análises com o intuito de identificar algum viés de categorização. Cada avaliador recebeu os itens selecionados e, após análise individual, preencheu a FCI. As análises dos avaliadores foram confrontadas, e verificou-se uma alta taxa de concordância: 95%. Ajustes foram realizados por consenso, permitindo uma calibração da categorização por parte do pesquisador principal. Os demais itens foram analisados e classificados somente pelo pesquisador principal.
Todos os itens do TPU2022-1 foram classificados de acordo com os princípios da TS, em quatro níveis de complexidade cognitivas: uniestrutural, multiestrutural, relacional e abstrato estendido. O nível pré-estrutural não foi incluído, uma vez que o propósito era analisar os IME do TP em relação à complexidade cognitiva exigida para sua resolução; portanto, não eram esperados itens com essa categorização. Após categorização, os itens foram subdivididos em duas categorias de aprendizagem: superficial (SOLO 2 e 3) e profunda (SOLO 4 e 5).
Os IME foram também submetidos à análise psicométrica pela TCT, em que se calcularam para cada item: o IDF e o ID. Como o TP é aplicado a estudantes com diferentes ciclos de aprendizagem, para a análise pela TCT consideraram-se como referência as provas dos alunos do último ano do curso, uma vez que se trata de uma amostra representativa de discentes que integralizaram 83,33% da matriz curricular.
Com o objetivo de investigar se houve diferença significativa nas médias das medidas dos parâmetros IDF e ID quanto aos níveis do SOLO, a análise de variância com um fator (oneway) foi aplicada aos dados. O Teste de Igualdade de Variância de Levene foi utilizado para investigar se as variâncias entre as categorias eram estatisticamente diferentes. Além disso, calculou-se o tamanho de efeito (“eta parcial ao quadrado”). Para investigar se ocorreu diferença significativa nas médias das medidas dos parâmetros IDF e ID quanto às categorias SOLO que representam a AS e a AP (2 ou 3 × 4), o teste t de Student para amostras independentes foi aplicado aos dados. O Teste de Igualdade de Variância de Levene foi novamente utilizado para investigar se as variâncias entre as categorias eram estatisticamente diferentes. Além disso, calculou-se o tamanho de efeito (d de Cohen). Os resultados foram considerados significativos para uma probabilidade de significância inferior a 5%, com pelo menos 95% de confiança nas conclusões apresentadas.
O presente estudo foi aprovado pelo Comitê de Ética em Pesquisa da Unifenas, sob o CAAE nº 56009222.9.0000.5143, Parecer nº 5.379.183, solicitou-se a dispensa do Termo de Consentimento Livre e Esclarecido, e encaminharam-se o Termo de Compromisso de Utilização de Dados e o Termo de Anuência.
RESULTADOS
Encontramos um equilíbrio entre a AS e a AP nos itens do TPU2022-1. Cerca de 41% foram classificados como AS, e 59,2% como AP, como mostra a Tabela 3. Quando analisamos por áreas específicas do conhecimento, constatamos esse equilíbrio nas áreas de cirurgia, ginecologia-obstetrícia e pediatria. Nas áreas de clínica médica e saúde coletiva, não verificamos equilíbrio entre a AS e a AP. Em clínica médica, verificamos que 87,5% dos itens analisados estavam relacionados à AP e 12,5% à AS. Já na área de saúde coletiva, constatamos que cerca de 83,3% dos itens relacionavam-se à AS e 16,7% à AP. A Tabela 3 divide os itens do TPU2022-1 entre AS e AP.
Tabela 3 Distribuição dos itens do TPU2022-1 entre aprendizagem superficial e aprendizagem profunda.
Área/SOLO | Aprendizagem superficial | Aprendizagem profunda |
---|---|---|
Cirurgia | 7 (29,2%) | 17 (70,8%) |
Clínica médica | 3 (12,5%) | 21 (87,5%) |
Ginecologia-obstetrícia | 10 (41,7%) | 14 (58,3%) |
Pediatria | 9 (37,5%) | 15 (62,5%) |
Saúde coletiva | 20 (83,3%) | 4 (16,7%) |
Total | 49 (40,8%) | 71 (59,2%) |
Fonte: Elaborada pelos autores.
Não identificamos nenhum item relacionado ao nível abstrato estendido, nível de maior complexidade cognitiva da TS. A Tabela 4 apresenta o resultado da análise, de acordo com os níveis de complexidade da TS, por áreas do conhecimento: cirurgia, clínica médica, ginecologia-obstetrícia, pediatria e saúde coletiva.
Tabela 4 Distribuição dos itens do TPU2022-1 pelos níveis da TS.
Área/SOLO | Uniestrututral | Multiestrutural | Relacional | Abstrato |
---|---|---|---|---|
Cirurgia | 3 (12,5%) | 4 (16,7%) | 17 (70,8%) | 0 |
Clínica | 2 (8,3%) | 1 (4,2%) | 21 (87,5%) | 0 |
Ginecologia-obstetrícia | 7 (29,2%) | 3 (12,5%) | 14 (58,3%) | 0 |
Pediatria | 7 (29,2%) | 2 (8,3%) | 15 (62,5%) | 0 |
Saúde coletiva | 18 (75,0%) | 2 (8,3%) | 4 (16,7%) | 0 |
Total | 37 (30,8%) | 12 (10%) | 71 (59,1%) | 0 |
Fonte: Elaborada pelos autores.
Constatamos que os itens compostos por casos clínicos que exigiam habilidades de resolução de problemas propiciaram maior exploração da AP. A Tabela 5 apresenta a estratégia empregada na formulação dos itens, baseada na presença ou ausência de casos clínicos. A maioria dos itens (84,2%) apresentava a presença de um caso clínico. Verifica-se a necessidade da relação de tópicos para a resolução de casos clínicos em grande parte dos itens das áreas de conhecimento, com exceção da área de saúde coletiva, na qual uma considerável parcela dos itens (54,2%) não continha casos clínicos, e, quando um caso clínico estava presente, o que ocorreu em 11 itens (45,8%), somente em dois foi exigida a relação de tópicos para sua resolução.
Tabela 5 Presença ou ausência de casos clínicos nos itens do TPU2022-1.
Área/item SOLO | Ausência de caso clínico | Presença de caso clínico |
---|---|---|
Cirurgia | 1 | 23 |
Clínica médica | 0 | 24 |
Ginecologia-obstetrícia | 3 | 21 |
Pediatria | 2 | 22 |
Saúde coletiva | 13 | 11 |
Total | 19 | 101 |
Fonte: Elaborada pelos autores.
Quanto à análise psicométrica, verificamos que 10,8% dos itens do TPU2022-1 apresentaram o IDF no nível fácil, 50,9% no nível mediano e 25% no nível difícil. A proporção de itens muito difíceis e muito fáceis foi de 13,3%. A Tabela 6 apresenta os resultados de acordo com o IDF.
Tabela 6 Índice de dificuldade do TPU2022-1.
% de acerto | Número de questões | Frequência (%) |
---|---|---|
≤ 10,0% (muito fácil) | 1 | 0,8 |
De 10,1 a 30,0% (fácil) | 13 | 10,8 |
De 30,1 a 70,0% (mediana) | 61 | 50,9 |
De 70,1 a 90,0% (difícil) | 30 | 25,0 |
> 90,0% (muito difícil) | 15 | 12,5 |
Total | 120 | 100,0 |
Fonte: Elaborada pelos autores.
Verificamos na nossa análise que 79,2% dos itens apresentaram um ID menor que 20%. Cerca de 2% apresentaram um ID maior que 40%. A Tabela 7 apresenta os resultados de acordo com o ID.
Tabela 7 Índice de discriminação do TPU2022-1.
Discriminação | Número de questões | Frequência (%) |
---|---|---|
< 20 | 95 | 79,1 |
0,20 ≤ a < 0,30 | 15 | 12,5 |
0,30 ≤ a < 0,40 | 8 | 6,7 |
≥ 40 | 2 | 1,7 |
Total | 120 | 100,0 |
Fonte: Elaborada pelos autores.
A Tabela 8 demostra que não foi identificada diferença estatisticamente significativa entre as três categorias SOLO quanto aos parâmetros da TCT. Ressalta-se que o tamanho de efeito calculado é considerado pequeno, o que corrobora a não significância estatística do teste. Cabe ressaltar que não foi observada diferença estatisticamente significativa entre as variâncias (Levene p > 0,05). Logo, não há necessidade da aplicação do teste de Welch.
Tabela 8 Análises comparativa entre as categorias do SOLO quanto aos parâmetros de avaliação do TCT (dificuldade e discriminação).
Categoria SOLO | Medidas descritivas | Valor de p | |
---|---|---|---|
N | Média ± DP | ||
Índice de dificuldade | 0,821 F2, 117 = 0,197 | ||
SOLO 2 | 37 | 60,9 ± 22,8 | |
SOLO 3 | 12 | 62,1 ± 19,4 | |
SOLO 4 | 71 | 58,5 ± 24,4 | |
Geral | 120 | 59,6 ± 23,3 | |
Índice de discriminação | 0,484 F2, 117 = 0,731 | ||
SOLO 2 | 37 | 15,0 ± 10,6 | |
SOLO 3 | 12 | 11,3 ± 7,2 | |
SOLO 4 | 71 | 13,4 ± 9,6 | |
Geral | 120 | 13,7 ± 9,7 |
Base de dados: 120 questões (SOLO 2 37 casos, SOLO 3 12 casos e SOLO 4 71 casos)
Nota: d.p. Desvio-padrão
p Probabilidade de significância da Análise de Variância com 1 fator (OneWay).
F Estatística da Análise de Variância com 1 fator (OneWay).
- Teste de Levene para igualdade de variância: p >> 0,05. Para ambas as variáveis.
- Tamanho de efeito (η 2 ): η 2 ≤ 0,01 Tamanho de efeito Pequeno (ambas as variáveis).
Fonte: Elaborado pelos autores.
A Tabela 9 demostra que não foi verificada diferença estatisticamente significativa entre as categorias SOLO que representam a AS e a AP quanto aos parâmetros da TCT.
Tabela 9 Análises comparativa entre as categorias SOLO (aprendizagem superficial e profunda) quanto aos parâmetros de avaliação do TCT (dificuldade e discriminação).
Categoria SOLO de aprendizagem | Medidas descritivas | Valor de p | |
---|---|---|---|
N | Média ± DP | ||
Índice de dificuldade | 0,544 t118 = 0,609 | ||
Superficial | 49 | 61,2 ± 21,8 | |
Profunda | 71 | 58,5 ± 24,4 | |
Geral | 120 | 59,6 ± 23,3 | |
Índice de discriminação | 0,684 t118 = 0,408 | ||
Superficial | 49 | 14,1 ± 9,9 | |
Profunda | 71 | 13,4 ± 9,6 | |
Geral | 120 | 13,7 ± 9,7 |
Base de dados: 120 questões (SOLO 2 37 casos, SOLO 3 12 casos e SOLO 4 71 casos)
Nota: d.p. Desvio-padrão
p Probabilidade de significância da Análise de Variância com 1 fator (OneWay).
F Estatística da Análise de Variância com 1 fator (OneWay).
- Teste de Levene para igualdade de variância: p >> 0,05. Para ambas as variáveis.
- Tamanho de efeito (d de Cohen): d ≤ 0,12 Tamanho de efeito Pequeno (ambas as variáveis).
Fonte: Elaborado pelos autores.
No final deste artigo, está disposto o link de acesso à análise de todos os itens do TPU2022-1 pelos pressupostos da TS.
DISCUSSÃO
Este estudo teve como objetivo avaliar os itens do TP aplicado em uma instituição de ensino privada, em relação às suas características psicométricas e de complexidade cognitiva pela TS. Nossos resultados constataram no TPU2022-1 um equilíbrio entre a frequência de itens relacionados à AS e à AP, com um predomínio de itens associados à AP. As áreas de cirurgia, ginecologia-obstetrícia e pediatria foram as que mais apresentaram esse equilíbrio.
Os pesquisadores defendem que um equilíbrio na distribuição dos itens de uma avaliação, relacionado aos níveis de complexidade cognitiva, contribui para uma melhor avaliação da aprendizagem. Dessa forma, ganha grande importância uma distribuição balanceada de acordo com as taxonomias de aprendizagem22. A despeito da importância atribuída a esse equilíbrio, é de se supor que os egressos do curso médico estejam aptos para a resolução de problemas complexos. A expectativa é que os alunos dos últimos períodos estejam capacitados para a resolução de atividades, como solução de problemas e tomadas de decisões23. Dessa forma, acreditamos que no TP deveriam prevalecer atividades destinadas a avaliar a AP. A TS auxilia na construção e seleção de itens de avaliação adequados para a verificação de aquisição de atributos esperados de um graduado e que fomentem a análise e não uma simples memorização24.
Os itens classificados como AP do TPU2022-1 continham, na maioria das vezes, um caso clínico, e o enunciado demandava habilidades de resolução de problemas e integração de conhecimentos, exigindo um raciocínio clínico. O raciocínio clínico exige uma base de conhecimento, possibilitando aos estudantes a geração de hipóteses, o estabelecimento de diagnósticos e o oferecimento de uma conduta para a resolução de problemas clínicos25),(26. O uso de resoluções de problemas clínicos genuínos é uma medida eficiente de análise do raciocínio clínico27.
A construção do pensamento de ordem superior é fundamental na formação e no exercício da medicina28. A AP é associada a uma melhor efetividade no ensino médico está mais relacionada à capacidade de os estudantes se atualizarem após a sua formação17.
Outra importante aplicabilidade das taxonomias de aprendizagem, como a TS, é oferecer ao discente dados sobre seu nível de pensamento cognitivo. Isso se torna muito significativo nesse momento de mudança de paradigma do ensino superior, no qual se recomenda uma aprendizagem autônoma, centrada no aluno29.
A não identificação de nenhum item do TPU2022-1 relacionado ao nível abstrato estendido pode estar associada ao uso de IME, o que pode trazer uma certa limitação para a avaliação do nível taxonômico mais elevado30),(31. Outras estratégias de avaliação, como os itens discursivos, são adequadas para demonstrar esse nível, no entanto seria inviável a realização de um exame com esse tipo de item, cujo objetivo é avaliar um número significativo de alunos, com um conteúdo muito extenso32. Observa-se, assim, a necessidade da discussão de uma metodologia que propicie a construção de itens em um nível SOLO 5 da TS por meio de IME.
O método de questões de múltipla escolha é muito utilizado nos processos de avaliação das escolas médicas. As avaliações baseadas em IME, quando bem elaboradas, possuem a capacidade de avaliar os discentes nos níveis superiores do conhecimento, tornando essa tarefa desafiadora33. A introdução de casos clínicos nos testes de múltipla escolha enriquece a qualidade desse processo de avaliação para a mensuração do raciocínio clínico34. Verificamos isso no TPU2022-1, em que muitos itens exigiram um raciocínio mais complexo por meio da resolução de casos clínicos.
A análise psicométrica do IME de uma avaliação é muito importante para a comprovação de sua qualidade. O IME deve ser avaliado para verificar sua validade e confiabilidade35. Torna-se muito relevante examinar a razão da escolha de uma opção de resposta em detrimento de outras e o motivo pelo qual a alternativa mais respondida não é a correta36.
Verificamos um satisfatório resultado relacionado ao IDF, com uma porcentagem menor de itens muito fáceis e muito difíceis (13,3%), com a maioria dos itens (86,7%) dentro de uma faixa aceitável para um processo de avaliação. A maioria dos IME encontrou-se em um nível insatisfatório em relação ao ID, não possibilitando uma diferenciação dos alunos de melhor e de pior desempenho, o que sugere a revisão de um número significativo de itens. Isso pode trazer questionamentos quanto a interpretações e conclusões baseadas em uma prova com essa particularidade.
Alguns fatores podem afetar o ID de um item, como ambivalência da pergunta, excessiva dificuldade ou facilidade para a sua solução, presença de tópicos não discutidos no currículo, má preparação dos alunos, motivação dos discentes, número de questões, tempo para a resolução e fatores ambientais, como temperatura, ruído e ventilação37.
Não se identificou correlação entre os parâmetros TCT (IDF e ID) e as categorias da TS. Também não se identificou correlação entre as categorias SOLO que representam a AS e a AP aos parâmetros da TCT.
Hamamoto Filho et al.38 demonstraram, em um Teste de Progresso aplicado a dez escolas médicas brasileiras, que itens relacionados com altos níveis taxonômicos alcançaram uma melhor performance em ID.
Quando se analisam as questões pela TS, verifica-se que o grau de complexidade não é determinante do seu nível de dificuldade30),(39. O grau de dificuldade das questões é avaliado por métodos estatísticos, ao passo que o nível de complexidade pode ser estabelecido por metodologias qualitativas, como a TS10. Esse dado demonstra que a qualidade de uma avaliação deve levar em consideração, além dos dados psicométricos, as habilidades cognitivas envolvidas para a resolução dos itens, ou seja, o nível de complexidade cognitiva exigida, dado não avaliado pelas metodologias psicométricas comumente empregadas.
Para um melhor desempenho dos processos de avaliação, como o TP, torna-se muito importante o preparo do corpo docente para a execução dos seus itens. Isso requer um programa de educação continuada docente nas escolas médicas para o desenvolvimento de itens de avaliação de qualidade40. As taxonomias de aprendizagem podem colaborar de maneira considerável para a criação de avaliações bem planejadas, contribuindo para um ambiente eficaz de aprendizagem24.
Dispomos de um número grande de técnicas de avaliação. Nenhum método isolado deve ser empregado nos processos de avaliação das escolas médicas41. Para que haja uma satisfatória comprovação da performance dos alunos, é indispensável uma associação de técnicas42),(43.
Encontramos na literatura poucos estudos que analisam avaliações externas à TS. Mol et al.44) fizeram uma revisão de estudos brasileiros que utilizam a TS e encontraram 14 trabalhos, dos quais dez são artigos e quatro são dissertações. Nenhuma tese que abordasse a TS foi encontrada. Somente dois estudos foram relacionados com o ensino superior e nenhum na área do ensino médico. Ferreira et al.45) fizeram um levantamento das teses e dissertações defendidas no Brasil que utilizaram a TS. Encontraram 12 trabalhos, a maioria na área de ciências exatas e nenhum relacionado ao ensino médico.
Algumas limitações do presente estudo devem ser consideradas. A primeira se refere ao fato de o estudo ter compreendido apenas uma prova do TP, de uma específica escola médica. A análise de um número maior de provas, incluindo outras escolas de medicina, poderá trazer maior subsídio para uma interpretação mais adequada dos dados. O fato de a categorização de todos os itens ter sido feita por um único avaliador pode também ser um fator limitante, no entanto é importante observar a tentativa de padronização prévia dessa análise por três avaliadores com uma elevada taxa de concordância, o que favorece a aplicabilidade dessa metodologia de análise no dia a dia de uma escola, onde o professor muitas vezes não dispõe de uma equipe de avaliadores disponíveis.
No entanto, este estudo apresenta contribuições relevantes para o processo de reflexão e desenvolvimento de avalições no ensino médico. Demostra a necessidade de equilibrar as metodologias de análises para além das psicométricas, incluindo aquelas que consideram os processos cognitivos envolvidos para a resolução das questões. Demonstra que a inclusão de casos clínicos favorece a análise da AP, devendo ser considerada a necessidade de buscar estratégias para elaboração de itens com boa capacidade discriminatória e equilíbrio em termos de dificuldade. O estudo apresenta ainda uma metodologia para a categorização da complexidade cognitiva dos IME que deverá ser testada em novos estudos.
Os dados deste estudo podem contribuir para a inclusão de um grupo de análise que considere, além dos dados estatísticos da psicometria, suas características em termos de complexidade cognitiva.
CONCLUSÃO
A análise do TPU2022-1 nos possibilitou investigar características dessa ferramenta, útil na avaliação do desempenho cognitivo longitudinal dos estudantes. Verificamos um equilíbrio entre a AS e a AP quando analisados todos os itens. No entanto, não observamos esse equilíbrio nas áreas de clínica médica e saúde coletiva. Verificamos uma relação direta entre os níveis de AP da TS e IME compostos por casos clínicos. Constatamos uma boa relação para o IDF, mas não para o ID, o que sugere a necessidade de uma análise crítica dos itens. Não verificamos diferenças estatisticamente significativa entre as categorias SOLO que representam a AS e a AP quanto às médias do IDF e do ID, indicando que essas metodologias avaliam diferentes particularidades dos IME.
Como o TP é um valoroso instrumento de avaliação do ensino, deve ser incentivado nas escolas médicas. Ferramentas taxonômicas, como a TS, podem auxiliar de maneira significativa a realização das atividades avaliativas, de modo a conciliar as avaliações ao currículo, possibilitar a realização de provas adequadas ao nível de aprendizagem desejável e favorecer a progressividade do ensino. A qualificação do corpo docente para a realização de atividades avaliativas é necessária. Oficinas para a orientação na formulação de itens devem ser ofertadas aos docentes.
Estudos complementares são essenciais para acrescer a consistência do uso dessa ferramenta taxonômica no ensino médico.