Formação estatística nos programas de pós-graduação brasileiros: análise das disciplinas oferecidas

Marques, Felipe Tumenas; Louzada Neto, Francisco; Marques, Felipe Tumenas; Louzada Neto, Francisco

doi:10.1590/s1678-4634202349249290

Servicios Personalizados

Revista

Articulo

Otros
Otros

Permalink

Educação e Pesquisa

versión impresa ISSN 1517-9702versión On-line ISSN 1678-4634

Educ. Pesqui. vol.49 São Paulo 2023 Epub 16-Jun-2023

https://doi.org/10.1590/s1678-4634202349249290

Artigos

Formação estatística nos programas de pós-graduação brasileiros: análise das disciplinas oferecidas

Statistical training in Brazilian graduate programs: an analysis of the courses offered

Felipe Tumenas Marques¹
http://orcid.org/0000-0001-8327-4215

Francisco Louzada Neto²
http://orcid.org/0000-0001-7815-9554

^{^1-}Universidade Federal da Bahia, Salvador, BA

^{^2-}Universidade de São Paulo, São Carlos, SP

Resumo

A estatística é uma das bases da ciência e seu ensino em programas de pós-graduação tem influência direta na formação da próxima geração de pesquisadores. Este trabalho traz um panorama geral das disciplinas relacionadas à estatística na pós-graduação stricto sensu no Brasil, a partir da análise das ementas das 176.823 disciplinas, sendo 12.552 com conteúdos relacionados à estatística. Dentre os fatos encontrados temos que poucos programas possuem disciplinas obrigatórias relacionadas à estatística. Quanto maior o conceito da pós-graduação na Capes, maior a quantidade média de disciplinas relacionadas à estatística ofertadas. Entretanto, essa relação não está presente nas disciplinas obrigatórias. Com relação ao conteúdo das disciplinas, elas se dividem em dois grandes grupos. Um grupo com base teórica em probabilidade e estatística, outro com foco em aplicações e utilização de ferramentas. Existe um pequeno terceiro grupo de disciplinas, ofertadas na língua inglesa. Por fim, a oferta de disciplinas relacionadas a técnicas avançadas (Machine Learning) é, se comparada à oferta das disciplinas relacionadas à estatística, muito pequena e se concentra, principalmente, nos programas de Engenharia e Ciências Exatas e da Terra.

Palavras-chave Pós-Graduação; Disciplinas; Estatística

Abstract

Statistics is one of the foundations of science, and its teaching in graduate programs has a direct influence on shaping the next generation of researchers. This study provides a general overview of statistics-related courses in stricto sensu graduate programs in Brazil, based on the analysis of the syllabi of 176,823 courses, of which 12,552 contained content related to statistics. Among the findings, it was observed that only a few programs have mandatory courses specifically related to statistics. The higher the concept of the graduate program according to Capes evaluation, the greater the average number of statistics-related courses offered. However, this relationship is not evident in the mandatory courses. Regarding the content of the courses, they can be divided into two main groups: one with a theoretical foundation in probability and statistics, and another focused on applications and the use of tools. There is a small third group of courses offered in the English language. Finally, the availability of courses related to advanced techniques (such as Machine Learning) is much smaller compared to the offering of statistics-related courses, and it is mainly concentrated in Engineering and Exact and Earth Sciences programs.

Keywords Graduate Studies; Courses; Statistics

Introdução

A ciência moderna é baseada fortemente no conceito de falseabilidade, proposto pelo filósofo Karl Popper na década de 1930. Segundo esse conceito, uma ideia, hipótese ou teoria é falseável se pode ser mostrada falsa (POPPER, ²⁰⁰⁴). Para tanto, é necessário que haja um experimento ou observação que, dependendo do resultado, implique que a hipótese é verdadeira ou falsa. Seja na formulação de experimentos seja na análise de seus resultados, as ferramentas estatísticas têm um papel central. A formalização estatística dos testes de hipóteses teve sua origem no problema da senhora tomando chá (FISHER, ¹⁹⁵⁶). Esse problema é referente ao caso de uma senhora que afirma poder diferenciar se, em uma mistura de chá com leite, o leite foi colocado antes ou depois do chá. O problema foi resolvido por um dos fundadores da estatística, Ronald Fisher.

Além de fins científicos, o conhecimento de estatística pode ter um efeito significativo na maneira como as pessoas fazem julgamentos sobre os eventos mundanos (FONG; KRANTZ; NISBETT, ¹⁹⁸⁶). De acordo com Wallman ( ¹⁹⁹³), apesar de nossas vidas estarem repletas de riscos e incertezas, o sistema educacional praticamente ignora a apreciação da estatística e da probabilidade, e os cidadãos, que encontram estatísticas em vários aspectos de suas vidas, geralmente não estão equipados com o “letramento estatístico” necessário para avaliar informações e tomar decisões. Um exemplo registrado na literatura sobre a importância do conhecimento estatístico para além da academia é o caso do projeto do governo norte americano para ensinar estatística para os funcionários do departamento de agricultura do governo dos Estados Unidos no início do século 20 (RUTHERFORD, ²⁰¹¹).

Segundo Gal ( ²⁰⁰²), as mensagens dirigidas aos cidadãos em geral podem ter, de maneira não explícita, agendas políticas, comerciais ou outras, sendo necessário saber avaliar e indagar, dentre outras coisas:

1. De onde vieram os dados? Esse tipo de estudo é razoável nesse contexto?

2. Foi usada uma amostra? Quantas pessoas realmente participaram? A amostra é grande o suficiente? A amostra incluiu pessoas ou unidades representativas da população? A amostra é tendenciosa de alguma forma?

3. Quão confiáveis e precisos foram os instrumentos ou medidas (testes, questionários, entrevistas) usados para obter os dados?

4. Qual é a distribuição subjacente dos dados originais (dados nos quais os cálculos estatísticos se baseiam?

5. As estatísticas relatadas são apropriadas para o tipo de dados coletados? Por exemplo, a média foi utilizada para resumir dados ordinais? Os outliers poderiam fazer com que a estatística apresentada esteja distorcida?

6. Os gráficos são desenhados apropriadamente ou distorcem as tendências nos dados?

7. Como a conclusão probabilística foi obtida?

8. No geral, as reivindicações feitas são sensatas e suportadas pelos dados? Por exemplo, a correlação é confundida com a causalidade?

9. Deveriam ser disponibilizadas informações ou procedimentos adicionais para permitir a avaliação dos argumentos? Falta alguma coisa? Por exemplo, o escritor “esqueceu convenientemente” de especificar a base de uma porcentagem ou o tamanho real da amostra?

10. Existem interpretações alternativas para o significado das descobertas ou explicações diferentes para o que as causou, por exemplo, uma variável interveniente ou moderadora afetou os resultados? Existem implicações adicionais ou diferentes que não são mencionadas?

Atualmente a formação de cientistas se dá na pós-graduação através de um ciclo de ensino composto por mestrado e doutorado. Porém, apesar da crescente importância dos métodos estatísticos, o seu ensino ainda possui lacunas na pós-graduação (HARRAWAY; BARKER, ²⁰⁰⁵; AIKEN et al., ¹⁹⁹⁰), REDFERN, ²⁰¹³; LEHMAN; LEMPERT; NISBETT, ¹⁹⁸⁸). A pós-graduação no Brasil cresceu de maneira expressiva nos últimos anos, tanto em quantidade de cursos como em quantidade de alunos. Porém, não sabemos como está sendo feita a formação em estatística dos futuros pesquisadores brasileiros.

O objetivo principal deste trabalho é levantar a situação atual das disciplinas de estatística nos programas de pós-graduação brasileiros. Os objetivos secundários são dois. O primeiro é avaliar se características dos programas de pós-graduação estão correlacionadas com a oferta de disciplinas de estatística e o segundo é verificar se existem grupos distintos de disciplinas de estatística. As respostas a essas questões será por meio da avaliação das disciplinas ofertadas atualmente em todos os programas de pós-graduação stricto sensu, mestrado e doutorado, no Brasil.

O presente artigo está dividido em quatro partes. Na primeira está a discussão sobre alfabetização estatística; na segunda a descrição da base de dados e metodologia utilizada; na terceira está a análise dos resultados e na quarta estão as considerações finais.

Alfabetização estatística

A discussão sobre o que deve ser ensinado em estatística é bem antiga. Cochran ( ¹⁹⁴⁶) traça um histórico do desenvolvimento dos departamentos de estatística e elenca três pilares para um programa de pós-graduação em estatística:

1. Um treinamento completo na teoria da amostragem e na matemática necessária para o estudo dessa teoria;
2. Conhecimento das aplicações da teoria estatística;
3. Para estudantes que pretendem trabalhar em consultoria, conhecimento especializado em um campo aplicado no qual a estatística é utilizada.

A educação estatística difere da educação matemática, apesar da tendência dos estudantes em equiparar a estatística à matemática e de esperar que o foco esteja em conseguir uma resposta certa por meio de números, fórmulas e cálculos (CAMPOS, C. et al., ²⁰¹¹). De acordo com Gal ( ²⁰⁰²), o conhecimento estatístico é composto por cinco partes:

1. Saber por que os dados são necessários e como os dados podem ser produzidos;
2. Familiaridade com termos e ideias básicas relacionados à estatística descritiva;
3. Familiaridade com termos e ideias básicas relacionadas a exibições gráficas e tabulares;
4. Compreender as noções básicas de probabilidade;
5. Saber como chegar a conclusões ou inferências estatísticas.

Segundo Schuff ( ²⁰¹⁸), a “alfabetização de dados” é a verdadeira habilidade fundamental para estudantes de graduação, e não um conjunto de técnicas sofisticadas de análise. Devemos incutir nos alunos uma apreciação da tomada de decisão baseada em evidências através de uma apreciação do que os dados podem fazer e de como mesmo uma análise simples pode gerar respostas sofisticadas. Ademais, as pessoas usarão o pensamento estatístico quando experimentarem seu valor (SNEE, ¹⁹⁹³).

Diversos termos são utilizados para definir o conhecimento estatístico. Termos como “raciocínio estatístico”, “pensamento estatístico”, “alfabetização estatística”, “alfabetização em dados”, são cada vez mais presentes. Segundo Delmas ( ²⁰⁰²), o raciocínio estatístico e o pensamento estatístico não têm conteúdos independentes da alfabetização estatística, eles são objetivos dentro do desenvolvimento do cidadão “estatisticamente competente”. Já para Schield ( ²⁰⁰⁰), a alfabetização estatística é vista como um pré-requisito à estatística tradicional. Gould ( ²⁰¹⁷) define a “alfabetização em dados” ( Data Literacy) como o “letramento estatístico” em alunos, sendo educados não apenas para serem usuários de estatísticas como também para serem produtores de estatísticas. Além das diversas terminologias, às técnicas estatísticas têm se misturado técnicas computacionais conhecidas como aprendizado de máquina ( Machine Learning - ML). Segundo Varian ( ²⁰¹⁴), técnicas estatísticas convencionais geralmente funcionam bem, mas existem problemas, como manipulação de grandes volumes de dados, seleção de variáveis dentre milhares de candidatas, relações não lineares entre as variáveis, que podem exigir outros tipos de ferramentas. De acordo com Bzdok, Altman e Krzywinski ( ²⁰¹⁸), tanto métodos de estatística quanto ferramentas de ML podem, em princípio, ser usados para predição e inferência. Contudo, métodos estatísticos têm foco na inferência enquanto as ferramentas de ML concentram-se na previsão.

Habilidades numéricas são de grande importância no futuro dos estudantes oriundos de programas de pós-graduação (DURRANI; TARIQ, ²⁰¹²). Entretanto, os alunos recebem pouca orientação sobre como ir além dos exemplos dos livros-texto ou dos experimentos de laboratório controlados em sala de aula. Há uma desconexão entre o conteúdo trabalhado em aulas e as habilidades estatísticas necessárias para além da sala de aula. Seja pesquisando câncer ou qual melhor carro para comprar, os alunos geralmente não têm uma forte noção do que os números significam (FONTICHIARO; OEHRLI, ²⁰¹⁶).

Diversos autores pesquisaram a situação dos estudantes de pós-graduação em relação à estatística. Harraway e Baker ( ²⁰⁰⁵) fizeram um levantamento com egressos de cursos de doutorado e mestrado em ciências biológicas, psicologia, negócios, economia e estatística, sobre as possíveis deficiências em relação aos métodos estatísticos aprendidos durante os cursos e os necessários para a atuação profissional. Os autores identificaram lacunas entre os tópicos e técnicas aprendidas e as utilizadas no local de trabalho e também deficiências na preparação estatística para conseguir emprego. Dentre as lacunas estavam, por exemplo, estatística multivariada e modelos lineares generalizados. Aiken et al ( ¹⁹⁹⁰) avaliaram os programas de PhD em psicologia dos Estados Unidos e do Canadá com relação ao ensino de estatística e constataram que os alunos têm competência para lidar com técnicas tradicionais, mas não com técnicas mais recentes, que seriam mais úteis em suas pesquisas. Anderson, Williams e Schulkin ( ²⁰¹³) pesquisaram o conhecimento estatístico de residentes em obstetrícia e ginecologia e descobriram que cerca de um terço deles não recebeu nenhum treinamento formal de estatística durante a residência, e que os residentes geralmente recebem treinamento estatístico em ambientes de “ journal club”. Redfern ( ²⁰¹³) analisou os programas de pós-graduação em cinema e concluiu que a alfabetização estatística compreende um conjunto de habilidades e atitudes necessárias para todos os estudiosos de cinema, e que é uma falha significativa na educação que essas habilidades e atitudes não façam parte do currículo, com resultados negativos para a compreensão das pesquisas e também para futura empregabilidade dos estudantes.

Seguindo o caminho inverso, Lehman, Lempert e Nisbett ( ¹⁹⁸⁸) analisaram o impacto do conhecimento sobre raciocínio estatístico em programas de pós-graduação em direito, medicina, psicologia e química, e descobriram que o ensino em áreas como psicologia e medicina já contém conhecimentos como incerteza, amostragem, grupo de controle, falsos positivos e falsos negativos. Gonulal, Loewen e Plonsky ( ²⁰¹⁷) estudaram o impacto de cursos de estatística para alunos de pós-graduação em linguística e observaram que eles tiveram ganhos substanciais em sua capacidade de interpretar e usar estatísticas descritivas básicas e inferenciais simples. No entanto, foram encontrados poucos ganhos na capacidade dos alunos de interpretar e usar estatísticas avançadas e nas atitudes dos estudantes em relação à estatística em geral. Hannigan, Hegarty e McGrath ( ²⁰¹⁴) avaliaram a relevância das experiências prévias dos estudantes de pós-graduação em medicina em suas atitudes em relação à estatística e sugeriram que o ensino de estatística deve começar abordando a diferença entre a matemática e a estatística. Enfatizar essa diferença é importante devido à associação entre as experiências passadas dos alunos em matemática e suas atitudes em relação à estatística. Isso pode reduzir a ansiedade e a percepção de dificuldade dos alunos no início de sua experiência de aprendizado e incentivá-los a se envolverem com estatística.

No Brasil, Magnusson ( ¹⁹⁹⁹) observou que os programas de pós-graduação em ecologia incluem a disciplina de estatística, mas não exigem a inclusão de planejamento de experimentos e de delineamento amostral. Em lugar disso, o professor apresenta aos alunos métodos matemáticos formais baseados em álgebra.

A estatística não é um ramo da matemática, mas é uma ciência matemática. Os professores de matemática provavelmente estão melhor posicionados para ensinar estatística na escola. No entanto, nem todos tiveram treinamento adequado nessa área (TREWIN, ²⁰⁰⁵). Além disso, o ensino de estatística para alunos de pós-graduação não estatísticos apresenta vários desafios. Os estudantes de pós-graduação são alunos adultos com formação diversificada e interesses profissionais distintos, e seus conhecimentos prévios e possíveis pré-conceitos podem ter impacto em sua atitude e desempenho no curso (RESTON, ²⁰⁰⁷). A maioria dos pesquisadores possui uma aversão generalizada à matemática e essa aversão estende-se à estatística pois, por algum motivo, o conceito de estatística parecia-lhes estar intimamente ligado ao de matemática (CAMPOS, G., ²⁰⁰¹). Além disso, a ansiedade estatística é predominante entre os estudantes cuja formação acadêmica tem pouco treinamento estatístico (PAN; TANG, ²⁰⁰⁴). Fraco desempenho anterior em matemática e um baixo senso de autoeficácia matemática são antecedentes significativos da ansiedade estatística (ZEIDNER, ¹⁹⁹¹).

Os métodos tradicionais de ensino de estatística básica são frequentemente vistos como ineficazes porque não conseguem estabelecer um vínculo claro entre estatística e seus usos no mundo real. Para ser mais eficaz, os cursos de estatística devem ter como objetivo desenvolver as seguintes competências (MUSTAFA, ¹⁹⁹⁶):

1. capacidade de vincular estatísticas e situações do mundo real;
2. conhecimento de conceitos estatísticos básicos;
3. capacidade de sintetizar os componentes de um estudo estatístico e comunicar os resultados de maneira clara.

Os últimos anos testemunharam um fervoroso debate sobre paradigmas quantitativos e qualitativos de pesquisa. Infelizmente, isso levou a uma grande divisão entre pesquisadores quantitativos e qualitativos, que frequentemente se veem como concorrentes, e a pesquisa com apenas uma categoria de método é a maior ameaça ao avanço das ciências sociais (ONWUEGBUZIE; LEECH, ²⁰⁰⁵). Ademais, alguns alunos podem ter uma atitude errônea em relação aos métodos quantitativos e qualitativos, “escolhendo um lado” entre esses métodos (MURTONEN, ²⁰⁰⁵).

Base de dados e metodologia

A base de dados é composta pelas ementas das disciplinas de pós-graduação stricto sensu do Brasil, tanto de mestrado quanto de doutorado. As disciplinas e suas ementas estão disponíveis na plataforma Sucupira da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES, ²⁰²⁰), mais especificamente na página “Coleta Capes”. Os dados estão na área “Disciplinas” dentro do grupo “Dados em atualização”. A coleta foi realizada durante o período de agosto a novembro de 2020 e o total de disciplinas disponíveis foi de 176.823.

Utilizando como referência os conhecimentos estatísticos definidos por Gal ( ²⁰⁰²), a escolha das palavras chaves para a área de estatística foi baseada na sequência tradicional de ensino dos grupos de conhecimentos relacionados à análise estatística. As palavras escolhidas foram: Probabilidade, Amostragem, Regressão, Intervalos de Confiança, Teste de Hipóteses, Inferência, Análise Multivariada, além da própria palavra estatística. As disciplinas foram classificadas como “relacionadas à estatística” se, em suas ementas, possuíam alguma dessas palavras.

A análise das ementas relacionadas à estatística foi dividida em duas etapas. Na primeira foram feitas análises descritivas das disciplinas com relação a variáveis como Área do Conhecimento, Região do País, Tipo Jurídico da Instituição de Ensino Superior (IES) e Nota do Programa de Pós-Graduação. Na segunda, apenas com as disciplinas classificadas como “estatística”, e foi utilizado o método Latent Dirichlet Allocation (LDA) para separar as disciplinas por diferentes grupos de assuntos. A LDA é um modelo hierárquico bayesiano utilizado no processamento de linguagem natural, que permite que conjuntos de observações sejam explicados por grupos não observados (BLEI; NG; JORDAN, ²⁰⁰³). Apesar de parecer complexo, o algoritmo do LDA tem uma mecânica simples. É definida a priori a quantidade de grupos de assuntos e as palavras do conjunto de textos analisados são inicialmente alocadas aleatoriamente aos diferentes grupos de assuntos. A seguir é feito um processo iterativo passando por todas as palavras possíveis do conjunto de textos e atualizando a probabilidade de cada palavra pertencer a um grupo de assuntos utilizando probabilidades condicionais (KULSHRESTHA, ²⁰¹⁹). Depois de analisar as ementas relacionadas à estatística, é realizada uma terceira etapa onde são feitas análises descritivas considerando as disciplinas relacionadas à ML. Para classificar as disciplinas como relacionadas à ML, foram consideradas nessa categoria as que continham alguma das seguintes palavras em sua ementa: Machine Learning, KNN (k-Nearest Neighbors), SVM (Support Vector Machine), Random Forest, Redes Neurais, Deep Learning e Python. A escolha dessas palavras foi baseada no fato de que diversas técnicas consideradas como ML, dependendo da abordagem, podem ser ministradas em um curso de estatística tradicional, como análise de componentes principais (Principal Component Analysis, PCA) e análise de agrupamentos ( Cluster). Portanto, foram selecionadas as principais técnicas (GÉRON, ²⁰¹⁹) cujos nomes não possuem risco de aparecer em outras áreas, e também a palavra Python, por ser a principal linguagem de programação para ML.

Resultados

Análise descritiva

Na Tabela 1 temos, separadas por área do conhecimento, a quantidade de programas de pós-graduação, a quantidade de disciplinas obrigatórias e a quantidade total de disciplinas. Tanto para as disciplinas obrigatórias quanto para o total de disciplinas, estão o primeiro e o terceiro quartil, que correspondem, respectivamente, aos percentuais 25% e 75% das observações, e a mediana (segundo quartil).

Tabela 1 - Distribuição de disciplinas por área do conhecimento

Área do Conhecimento	Total de Programas	Disciplinas Obrigatórias			Total de Disciplinas
Área do Conhecimento	Total de Programas	1º Quartil	Mediana	3º Quartil	1º Quartil	Mediana	3º Quartil
Ciências Agrárias	450	0.0	2.0	5.0	23.0	33.0	45.75
Ciências Biológicas	331	0.0	1.0	5.0	26.0	37.0	51.00
Ciências da Saúde	726	0.0	3.0	7.0	17.0	25.0	38.00
Ciências Exatas e da Terra	345	0.0	1.0	4.0	29.0	42.0	66.00
Ciências Humanas	655	0.0	2.0	5.0	21.0	31.0	54.00
Ciências Sociais Aplicadas	635	0.0	3.0	6.0	20.0	29.0	42.00
Engenharias	460	0.0	1.0	3.0	25.0	36.5	55.00
Linguística, Letras e Artes	227	0.0	1.0	4.0	19.0	28.0	45.50
Multidisciplinar	796	0.0	2.0	5.0	19.0	26.0	38.00