INTRODUÇÃO
Trata-se de um estudo metodológico que pretende identificar em qual medida um conjunto de variáveis características de escolas médicas possui capacidade discriminante na classificação de cursos do estado de São Paulo por meio da análise de cluster. Na análise de cluster, é possível utilizar um número elevado de variáveis, mas também se pode limitar a quantidade de variáveis como forma de estimar quais têm mais peso na análise1. Por tratar-se de uma análise exploratória de dados, é lícito o uso deliberado de conjuntos limitados de variáveis como forma de verificar diferenças e semelhanças no resultado final, com consequente possibilidade de gerar agrupamentos visando à identificação de padrões nos conglomerados de acordo com as variáveis definidas2.
Especificamente com relação aos cursos de Medicina, houve um aumento expressivo do número de vagas ofertadas nas duas últimas décadas. Scheffer et al.3),(4 apontam um aumento de 124,7% no número de vagas oferecidas de 2010 até 2020, e os cursos novos foram responsáveis por 62% dessas novas vagas. Scheffer et al.4 também apresentam dados acerca do aumento expressivo na quantidade de escolas médicas privadas, resultando em um ensino médico eminentemente privado.
A ampliação do número de cursos de Medicina é um processo que esteve presente em vários momentos da história do Brasil. A expansão e a distribuição das escolas médicas no Brasil podem ser consideradas um reflexo de políticas públicas5. A política expansionista foi influenciada pela lógica da organização do sistema de saúde, pela industrialização e pela crescente urbanização. Nesse contexto, a década de 1960 foi marcada pela criação de novas instituições de ensino superior (IES) e pelo aumento do número de vagas. O ensino superior passa a compor a economia de mercado, além de possibilitar a ascensão social por meio das graduações3 distribuição e expansão dos cursos de medicina no Brasil e descreveu os processos governamentais relacionados à ampliação da oferta de vagas. Trata-se de estudo descritivo, baseado em dados disponíveis no sistema do Ministério da Educação sobre escolas médicas. Com as informações sobre os cursos, desde os primeiros implantados, estabelecem-se seis períodos de governo para análise: de 1808 a 1963 (monarquia e governos republicanos iniciais6. Contudo, a expansão dos cursos médicos intensificou-se após a publicação da Lei nº 12.871/2013 que instituiu o Programa Mais Médicos (PMM)7),(8.
A avaliação das IES e de seus cursos tem papel estratégico para o desenvolvimento de ações governamentais. Nesse sentido, o aprimoramento e a incorporação de indicadores válidos e confiáveis e de métodos analíticos representam um desafio constantemente enfrentado pela academia e por gestores públicos6. Entretanto, essa é uma tarefa reconhecidamente desafiadora, sobretudo no Brasil, pelas suas dimensões, particularidades e iniquidades regionais que se refletem em um ensino superior desigual9. Devem-se acrescentar a esse fato a criação de novos cursos e o aumento de vagas em cursos existentes para que o processo de avaliação das IES torne-se ainda mais complexo e demande instrumentos mais sofisticados para uma avaliação justa e equânime. Esses instrumentos devem contemplar maior quantidade de variáveis e de IES, e ainda assim possuir sensibilidade analítica que aprimore a capacidade discriminante dos métodos já adotados7. Ademais, é razoável que se busque um método de implementação simples, baixo requerimento computacional e fácil interpretação de resultados, elementos encontrados na análise de conglomerados (ou clusters). Assim, o objetivo do presente trabalho é identificar em qual medida um conjunto de variáveis preditoras possui capacidade discriminante na classificação de cursos médicos no estado de São Paulo por meio da análise de clusters.
MÉTODO
Trata-se de estudo metodológico descritivo, de abordagem quantitativa, que utilizou dados dos 67 cursos médicos publicados em dezembro de 2020, no portal eletrônico do Ministério da Educação (e-MEC).
A opção metodológica foi a análise de cluster dos cursos de Medicina do estado de São Paulo com posterior agrupamento das variáveis. As escolha do estado se deu pelo fato de ele contribuir com um quinto de todas as vagas oferecidas nas escolas médicas do país1.
A análise de cluster é uma denominação genérica dada a um conjunto de diferentes técnicas que podem ser utilizadas para classificar casos em grupos8. Na análise de cluster, não há conhecimento prévio sobre quais elementos pertencem a quais clusters.
As técnicas de análise de clusters ou agrupamentos são uma forma de análise de dados exploratória. São utilizadas quando se deseja verificar semelhanças e diferenças no padrão dos dados, observações em relação a determinadas variáveis e eventual existência de características que permitam o agrupamento dessas observações, podendo ser hierárquicos ou não hierárquicos. Nesse sentido, o objetivo dessa análise é estabelecer uma quantidade relativamente pequena de agrupamentos homogêneos internamente (conjunto das IES em um mesmo cluster), mas que os grupos sejam heterogêneos entre si e representem o comportamento conjunto das observações a partir das variáveis definidas. Ou seja, as observações de um determinado grupo devem ser relativamente semelhantes entre si, em relação às variáveis inseridas na análise, e consideravelmente diferentes das observações de outros grupos9.
A respeito dos cursos médicos, coletaram-se as seguintes variáveis: categoria administrativa da instituição de ensino, gratuidade, regime letivo, metodologia de ensino e data de autorização de início do curso. As variáveis presença de hospital universitário (HU) próprio e utilização da rede do Sistema Único de Saúde (SUS) como cenários de prática foram coletadas no website das IES. Para as IES que têm mais de um curso de Medicina em diferentes campi, cada curso foi considerado como um curso independente.
A escolha das variáveis é uma das etapas mais importantes na análise de cluster, já que devem ser incluídas apenas as variáveis que caracterizam os objetos a serem agrupados e especificamente relacionadas aos objetivos da análise. Em outras palavras, o desenho da pesquisa deve incluir apenas variáveis consideradas relevantes para classificar os casos10.
As variáveis foram divididas nas seguintes categorias para a análise: 1. data do início do curso de Medicina; 2. carga horária: até 15% além da carga horária mínima exigida por lei para um curso médico, de 16% a 30%, de 31% a 45% e mais de 45%; 3. regime letivo: anual ou semestral; 4. metodologia de ensino: tradicional, ativa ou mista; 5. HU: presente ou ausente; 6. categoria administrativa: em IES privada com fins lucrativos não gratuita, privada sem fins lucrativos não gratuita, pública gratuita e pública não gratuita. Vale ressaltar que as IES privadas sem fins lucrativos são constituídas sob a forma de associação ou fundação e não distribuem nenhuma forma de patrimônio auferido (lucros, excedentes operacionais, dividendos e ou bonificações). As IES públicas não gratuitas correspondem às instituições educacionais criadas por lei estadual ou municipal e que não sejam mantidas exclusivamente com recursos públicos, não sendo, portanto, gratuitas11.
A análise de clusters se deu de duas formas: hierárquico e não hierárquico. O cluster hierárquico foi gerado pelo método de Ward, que é também conhecido como método do incremento das somas de quadrados e baseado na análise de variância. Nesse método, as somas dos quadrados entre os grupos e dentro deles em relação às p variáveis são utilizadas como critério de agrupamento. O princípio do método de Ward é aglomerar os grupos de tal forma que minimizem a soma dos quadrados dentro dos grupos, ou seja, a soma dos quadrados dos erros2),(9.
A indicação do número de agrupamentos (clusters) é feita a priori, ou seja, é um parâmetro definido para a análise. Assim, a escolha de quantos clusters é o ideal depende do julgamento do analista e do significado prático da separação dos grupos. Idealmente, sugere-se a menor sobreposição possível entre os agrupamentos. Entretanto, essa decisão não é aleatória e pode ser auxiliada pelo método do cotovelo (ou elbow), no qual o total da soma dos quadrados dentro do cluster mede sua homogeneidade. Em outras palavras, espera-se que dentro do cluster a homogeneidade seja máxima e entre os clusters a homogeneidade seja mínima de forma a estimar qual é a quantidade ótima de grupos9. Assim, é definido o número ótimo de clusters.
Como forma de confirmar a análise de clusters hierárquica, foi realizada a análise de agrupamento não hierárquica, com as distribuições das observações (escolas médicas) no plano. Essa análise prevê a redução da dimensionalidade por partir de um número elevado de variáveis e gerar um gráfico que possa mostrar a distribuição das escolas considerando os pesos das variáveis. Também se realizaram simulações com os números de pontos centrais de agrupamento no plano (seeds), de forma a confirmar se a quantidade de clusters adotada após a análise do cotovelo seria mantida.
Além disso, fez-se uma análise de correlação bivariada entre todas as variáveis do estudo, apresentada em uma matriz de correlações. Adotou-se a correlação de Spearman por tratar-se de dados categóricos. Essa análise visou identificar outros padrões entre as variáveis dentro de cada subgrupo gerado na análise de clusters, em busca de mais detalhes sobre características potencialmente discriminadoras para as variáveis do estudo. Nesse caso, todas as correlações foram definidas como significativas para valores de p < 0,05, sendo apresentadas somente as correlações significativas.
As análises foram realizadas no software RStudio (versão 1.4.1717), pacotes dendextend e FactoExtra, e em Python (versão 3.7) com os pacotes scipystats, matplotlib e seaborn.
O presente estudo foi dispensado de apreciação por Comitê de Ética de acordo com a Resolução do Conselho Nacional de Saúde (CNS) nº 510/2016, já que utilizou dados secundários, disponíveis a acesso público nos termos da Lei nº 12.527, de 18 de novembro de 2011.
RESULTADOS
O Gráfico 1A demonstra a variância dos dados em relação ao número de clusters. O decaimento ou “cotovelo” evidenciado no gráfico sugere que o número ótimo de clusters pode ser de três ou quatro. Idealmente, o valor ótimo é aquele em que é observada uma queda menos acentuada na diferença entre cada um dos valores indicados no eixo y em relação ao valor seguinte no eixo x (número de clusters). Entretanto, o ganho de informação será maior quanto maior for a diferença entre os clusters. Assim, optou-se neste estudo por três clusters para reforçar o caráter discriminante da análise. Dois clusters forneceriam grupos mais heterogêneos, e quatro clusters produziriam uma dupla sobreposição entre clusters e um grupo de apenas duas escolas (Gráfico 1B).
Após determinado que para este estudo três clusters seria o número ideal, foi realizada a análise por agrupamento hierárquica. Essa análise apresenta a distância euclidiana calculada no eixo y e as observações (escolas médicas) no eixo x. A decisão quanto ao número de clusters depende da avaliação da existência de diferenças entre os agrupamentos e das semelhanças dentro de cada grupo de forma coerente. É importante ressaltar que a hierarquia aqui apresentada é entre as distâncias medidas e o grau de similaridades obtido. Para uma melhor leitura do dendrograma (Gráfico 2), os cursos médicos foram numerados.
A Tabela 1 contém as estatísticas descritivas de cada variável para os cursos médicos de forma geral e para cada um dos três clusters. Dessa forma, é possível identificar as características em cada agrupamento.
O cluster 1 é formado por escolas em que o curso médico tem pelo menos 48 anos, entretanto mais da metade (53%) tem mais de 60 anos, todos com presença de HU. A maior parte das escolas (71%) utiliza metodologia tradicional. São públicas gratuitas ou privadas sem fins lucrativos. No cluster 2, é observado um predomínio de escolas sem HU: metade tem até 15% além do mínimo de carga horária exigida na diretriz curricular para Medicina, e 94% têm até 30%; a maior parte (88%) tem um regime semestral; mais da metade (69%) tem entre 13 e 24 anos; e 94% são escolas privadas. O cluster 3 representa as escolas mais jovens: todas têm até 12 anos; a maioria tem seis anos de existência (76%); não são gratuitas (97%); utilizam a metodologia ativa exclusivamente (74%) ou mista (15%); e 74% com até 15% além da carga horária mínima exigida para os cursos médicos (Tabela 1).
VARIÁVEL | GERAL | CLUSTER 1 | CLUSTER 2 | CLUSTER 3 | |||||
---|---|---|---|---|---|---|---|---|---|
N | % | N | % | N | % | N | % | ||
Presença de hospital universitário | Não | 47 | 70% | 1 | 6% | 13 | 81% | 33 | 97% |
Sim | 20 | 30% | 16 | 94% | 3 | 19% | 1 | 3% | |
Porcentagem da carga horária em relação ao mínimo exigido para os cursos médicos | Até 15% além do mínimo | 38 | 57% | 5 | 29% | 8 | 50% | 25 | 74% |
De 16% a 30 % além do mínimo | 19 | 28% | 6 | 35% | 7 | 44% | 6 | 18% | |
De 31% a 45% além do mínimo | 8 | 12% | 5 | 29% | 1 | 6% | 2 | 6% | |
Mais de 45% além do mínimo | 2 | 3% | 1 | 6% | 0 | 0% | 1 | 3% | |
Regime | Anual | 11 | 16% | 8 | 47% | 2 | 13% | 1 | 3% |
Semestral | 56 | 84% | 9 | 53% | 14 | 88% | 33 | 97% | |
Início do curso de Medicina | Até 6 anos | 26 | 39% | 0 | 0% | 0 | 0% | 26 | 76% |
De 7 a 12 anos | 10 | 15% | 0 | 0% | 2 | 13% | 8 | 24% | |
De 13 a 24 anos | 11 | 16% | 0 | 0% | 11 | 69% | 0 | 0% | |
De 25 a 36 anos | 6 | 9% | 0 | 0% | 6 | 38% | 0 | 0% | |
De 48 a 60 anos | 8 | 12% | 8 | 47% | 0 | 0% | 0 | 0% | |
Mais de 60 anos | 9 | 13% | 9 | 53% | 0 | 0% | 0 | 0% | |
Administração | Pública gratuita | 9 | 13% | 7 | 41% | 1 | 6% | 1 | 3% |
Pública não gratuita | 11 | 16% | 2 | 12% | 0 | 0% | 9 | 26% | |
Privada com fins lucrativos | 16 | 24% | 1 | 6% | 5 | 31% | 10 | 29% | |
Privada sem fins lucrativos | 31 | 46% | 7 | 41% | 10 | 63% | 14 | 41% | |
Metodologia | Tradicional | 20 | 30% | 12 | 71% | 4 | 25% | 4 | 12% |
Ativa | 35 | 52% | 0 | 0% | 10 | 63% | 25 | 74% | |
Mista | 12 | 18% | 5 | 29% | 2 | 13% | 5 | 15% | |
Escolas gratuitas | Não | 58 | 87% | 10 | 59% | 15 | 94% | 33 | 97% |
Sim | 9 | 13% | 7 | 41% | 1 | 6% | 1 | 3% | |
TOTAL | 67 | 100% | 17 | 100% | 16 | 100% | 34 | 100% |
Fonte: Elaborada pelos autores.
As variáveis se correlacionam de forma diferente dentro de cada cluster (Gráfico 3). Os gráficos de calor hierarquizados foram produzidos pela correlação de Pearson. As cores indicam correlação direta (tons de azul) ou inversa (tons de vermelho) entre as variáveis. A organização em clusters de correlação indica a proximidade entre as correlações das variáveis do estudo. Esse padrão de correlação diferente em cada cluster reforça a heterogeneidade dos subgrupos e mostra quais variáveis estão correlacionadas dentro de cada cluster.
DISCUSSÃO
No Brasil, o ensino superior tem uma grande heterogeneidade de instituições, tanto na rede pública como na privada. Gomes12 aponta que a expressão universidade brasileira, com o objetivo de designar um conjunto de IES, deve ser aplicada com cuidado. Nesse sentido, é necessário apresentar classificações adequadas a um ensino superior tão diverso e heterogêneo quanto o brasileiro11. A escolha deliberada de uma variável para determinar um padrão das escolas médicas não é suficiente. A partir das Diretrizes Curriculares Nacionais (DCN) de 2001 e 2014, o rigor de formas e o conteúdo das grades do currículo mínimo foram substituídos, possibilitando, dessa forma, a inovação e a diversificação na formação do profissional por meio da flexibilização da construção de projetos pedagógicos12),(13. Pereira et al.14, na cartografia das escolas médicas, descrevem a necessidade de detalhar a categoria “gratuita e paga” em razão da existência das IES de administração pública que cobram mensalidade, apontando, assim, para análises mais sofisticadas a respeito. Nessa perspectiva, é interessante observar que 82% dos cursos públicos não gratuitos estão contidos no cluster, três enquanto o cluster 1 contém 78% dos cursos gratuitos no estado de São Paulo.
As vagas em cursos médicos têm sido predominantemente ofertadas por IES privadas desde a década de 1970 e vêm aumentando progressivamente4),(3. A distribuição dos grupos evidencia três momentos de expansão de cursos. O cluster 1 representa as escolas mais antigas, a mais nova desse grupo tem 48 anos e 78% das escolas gratuitas do estado estão nesse grupo. O cluster 2, escolas intermediárias, tem apenas uma escola gratuita, e os cursos médicos têm idade variando de sete a 36 anos. O terceiro cluster contém os cursos não gratuitos (97%) com até 12 anos, entretanto a maioria (76%) tem no máximo uma turma formada e autorização que segue o edital do PMM15.
O PMM tinha como um dos objetivos a diminuição da concentração de médicos e escolas médicas em algumas regiões economicamente mais desenvolvidas. Entretanto, foi observado um processo de expansão predominantemente privado e em regiões que concentram boa parte da renda do país4. Praticamente metade (47%) dos cursos médicos do estado de São Paulo está nas regiões correspondentes a Grande São Paulo, Baixada Santista e Campinas, e a cidade de São Paulo responde por 28% das escolas médicas. Todas as IES utilizam o SUS como cenário de prática, e 30% têm HU próprio. No cluster 1, esse número sobe para 94%, no cluster 2 para 19% e no cluster 3 para 3%. Existe uma concentração de escolas com HU no cluster 1.
A Constituição brasileira de 1988, no artigo 207, além de definir a autonomia das IES, compromete-as com o princípio de indissociabilidade entre ensino, pesquisa e extensão14),(16.
A maior parte da pesquisa produzida, principalmente nas ciências básicas, é fruto do investimento público em universidades públicas17. Tomando os programas e cursos de pós-graduação em Saúde Coletiva e Medicina I, II e III, recomendados pela Capes, é possível confirmar que essa observação se repete na classificação aqui apresentada dos cursos médicos do estado de São Paulo. Todos os programas e cursos de pós-graduação em Saúde Coletiva estão no cluster 1. Dos oito programas, apenas dois não são em escolas gratuitas. Ao observar a área de Medicina I, II e III conjuntamente, a Capes reconhece 107 programas de pós-graduação, dos quais 95 (88%) estão no cluster 1. Apenas um curso em escola privada e quatro em escola pública não gratuita. O grupo 2 tem oito programas de pós-graduação. O grupo 3 não tem nenhum programa de pós-graduação. Vale ressaltar que existem quatro programas vinculados a hospitais e centro de estudos que pertencem ao mesmo grupo administrativo dos cursos médicos do cluster 3.
A pós-graduação não é objeto deste estudo, porém os cursos de stricto sensu compõem uma dimensão importante da formação em saúde e estão diretamente relacionados com a formação docente e estrutura das IES7. A distribuição dos programas de pós-graduação supracitada, entre os clusters formados, coopera no sentido de ratificar a modelagem proposta, sendo mais um elemento confirmador da capacidade de discriminação das variáveis utilizadas.
Uma limitação deste estudo é inerente ao banco de dados utilizado, isto é, foram retirados das fontes oficiais - website do MEC -, porém é possível que alguma IES tenha realizado alterações nos cursos sem ter alterado o cadastro. A inclusão de novas variáveis torna necessária a reaplicação da modelagem para que, eventualmente, sejam gerados novos agrupamentos9.
CONCLUSÃO
Este trabalho possibilitou classificar e agrupar as escolas médicas de acordo com suas semelhanças. Tal análise potencializa futuros estudos e contribui para realização deles, visando ao aprimoramento e ao conhecimento dos padrões e das relações de cada cluster com as distintas variáveis, identificando diferenças nas respectivas semelhanças entre os cursos de Medicina no estado de São Paulo.