INTRODUÇÃO
Os livros sempre tiveram uma relação direta com a formação, cultura e conhecimento. Essa relação é retratada de maneira peculiar por Lima Barreto (2021, p. 1), logo no início de Triste fim de Policarpo Quaresma: “não podia admitir que Quaresma tivesse livros: ‘Se não era formado, para quê? Pedantismo!’”. A leitura tem uma ligação direta com o aprendizado e com o desempenho profissional (Santos, 2006). Apesar de 31% da população brasileira nunca ter comprado livros (Failla, 2020), espera-se que pessoas com ensino superior tenham o hábito da leitura, pois, conforme Tourinho (2011), o graduando deve ser capaz de demonstrar o seu ponto de vista, assimilar estruturas gramaticais complexas, se expressar bem, aprender a dizer o que pensa e ser crítico.
Entretanto 4% das pessoas com ensino superior no Brasil são analfabetas funcionais1 e apenas 34% podem ser consideradas proficientes na língua portuguesa (Lima & Catelli, 2018). Mas esses números podem ser ainda piores. Nascimento et al. (2013) encontraram cerca de 40% de uma amostra de alunos concluintes da graduação em Ciências Contábeis no estado do Espírito Santo com indícios de analfabetismo funcional. Teixeira (2012) também verificou essa situação em 80% de duas turmas distintas de um curso superior no Tocantins, além de apenas 20% dos alunos conseguirem apresentar uma assimilação madura e eficaz dos conteúdos. Oliveira (2011), ao avaliar a compreensão de leitura em estudantes universitários de São Paulo, Minas Gerais e Paraná, observou resultados muito baixos de compreensão. Segundo Sampaio e Santos (2002), as dificuldades de leitura e compreensão podem ser resultado de deficiências da escolarização anterior. No entanto é importante ressaltar que os resultados são para todos, não existindo diferença entre alunos cotistas e não cotistas (Pires & Mota, 2020), além de ser um problema que não é sanado com uma simples intervenção (Alcará & Santos, 2015).
Esse problema não é exclusivo do Brasil. É possível encontrar na literatura exemplos desse tipo de situação em outros países, como Peru (González Moreyra & Quesada Murillo, 1997), Estados Unidos (Quible & Griffin, 2007), Canadá (Hermida, 2009), Portugal (Yubero et al., 2014) e Botswana (Ntereke & Ramoroka, 2017). As hipóteses levantadas nesses estudos variam desde se o problema seria uma deficiência ou falta de hábito até se os estudantes se esforçam o mínimo necessário para conseguirem seus diplomas. Além dessas questões, o ensino superior brasileiro teve grandes mudanças nos últimos anos, como aumento de estudantes provenientes do ensino médio público e de estudantes pretos, pardos e indígenas (Senkevics & Mello, 2019; Raiher, 2022), crescimento da evasão (Marques, 2020) e expansão da modalidade de ensino a distância (EaD), especialmente em instituições privadas, com fins lucrativos (Bertolin, 2021).
No Brasil, os formandos no ensino superior participam do Exame Nacional de Desempenho dos Estudantes (Enade). Apesar de a prova ser realizada anualmente, apenas estudantes provenientes de alguns grupos de cursos são avaliados a cada ano. Os cursos selecionados se alternam de maneira que, a cada três anos, cada área do conhecimento seja analisada novamente. Além de questões relativas à área de formação, os concluintes também respondem a um questionário sobre informações socioeconômicas, curso, instituição de ensino superior, entre outros. Nesse questionário está a pergunta: “Excetuando-se os livros indicados na bibliografia do seu curso, quantos livros você leu neste ano?” (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira [Inep], 2022). A partir das respostas, é possível trazer informações quantitativas para o debate e ajudar a compreender o fenômeno da leitura entre os concluintes do ensino superior brasileiro, principalmente quais variáveis estão correlacionadas ao hábito de leitura. Com a base de dados dos respondentes do Enade de 2018, Mallmann et al. (2021) avaliaram a relação entre a leitura de livros e o desempenho acadêmico de discentes de ciências sociais aplicadas e encontraram relação positiva entre leitura extracurricular e desempenho acadêmico.
Este trabalho expande a literatura sobre o assunto ao analisar de maneira abrangente todos os formandos, ao longo de um extenso período, e as informações em relação aos seus hábitos de leitura. Diretamente, esta pesquisa busca responder qual a situação dos formandos no ensino superior no Brasil quanto à leitura e quais variáveis estão relacionadas à leitura. Este artigo está dividido em quatro partes, sendo a primeira a introdução. A segunda descreve os dados e métodos utilizados, a terceira apresenta os resultados e a última contém as considerações finais.
DADOS E MÉTODOS
Os dados utilizados neste artigo foram extraídos dos microdados do questionário socioeconômico do Enade, que é realizado anualmente pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep, 2022). O estudo abrange o intervalo de sete anos, de 2013 até 2019. Nesse período o questionário socioeconômico não sofreu alterações, nem nas questões, nem nas alternativas de cada resposta, o que permite a comparação e consistência na análise. Além disso, como os formandos de cada área são avaliados pelo Enade a cada três anos, foi possível obter duas amostras de dois períodos distintos de todos os cursos avaliados.
A variável de interesse neste artigo será a resposta à questão I22: “Exce- tuando-se os livros indicados na bibliografia do seu curso, quantos livros você leu neste ano?” (Inep, 2022), com as seguintes possíveis respostas: A = Nenhum; B = De 1 a 2; C = De 3 a 5; D = De 6 a 8; E = Mais de 8. Na Tabela 1 está a lista de ques- tões do Enade utilizadas.
TABELA 1 Caracterização do curso e do estudante
| QUESTÃO | |
|---|---|
| Informações sobre o curso | Ano de realização do exame |
| Código da categoria administrativa da instituição de ensino superior (IES) | |
| Código da organização acadêmica da IES | |
| Código da área de enquadramento do curso no Enade | |
| Código da modalidade de ensino | |
| Código da região de funcionamento do curso | |
| Informações sobre o estudante | Idade do inscrito |
| Sexo | |
| Ano de conclusão do ensino médio | |
| Ano de início da graduação | |
| Código do turno de graduação | |
| Questionário do estudante | Qual é o seu estado civil? |
| Qual é a sua cor ou raça? | |
| Qual é a sua nacionalidade? | |
| Até que etapa de escolarização seu pai concluiu? | |
| Até que etapa de escolarização sua mãe concluiu? | |
| Onde e com quem você mora atualmente? | |
| Qual a renda total de sua família, incluindo seus rendimentos? | |
| Qual alternativa a seguir melhor descreve sua situação financeira (incluindo bolsas)? | |
| Qual alternativa a seguir melhor descreve sua situação de trabalho (exceto estágio ou bolsas)? | |
| Durante o curso de graduação, você participou de programas e ou atividades curriculares no exterior? | |
| Seu ingresso no curso de graduação se deu por meio de políticas de ação afirmativa ou inclusão social? | |
| Em que tipo de escola você cursou o ensino médio? | |
| Qual modalidade de ensino médio você concluiu? | |
| Quem mais lhe incentivou a cursar a graduação? | |
| Algum dos grupos abaixo foi determinante para você enfrentar dificuldades durante seu curso superior e concluí-lo? | |
| Alguém em sua família concluiu um curso superior? | |
| Quantas horas por semana, aproximadamente, você dedicou aos estudos, excetuando as horas de aula? | |
| Você teve oportunidade de aprendizado de idioma estrangeiro na instituição? | |
| Qual o principal motivo para você ter escolhido este curso? | |
| Qual a principal razão para você ter escolhido a sua instituição de educação superior? |
Fonte: Elaboração do autor a partir do questionário do Enade (Inep, 2022).
A análise será dividida em duas etapas. Na primeira será feita uma análise exploratória de dados, em que serão avaliadas as distribuições das respostas da pergunta I22 em relação às outras questões. Devido à quantidade de questões disponíveis, a análise será agrupada em três blocos:
fatores socioeconômicos: englobam questões relativas à raça, renda, sexo, fatores familiares, moradia, entre outros;
fatores institucionais e do curso: incluem questões como categoria administrativa, se o curso é presencial, noturno, entre outros;
fatores relativos ao percurso no ensino superior: tempo dedicado aos estudos, atividades extracurriculares no exterior, motivação para ensino superior, entre outros.
Na primeira etapa de análise exploratória de dados serão consideradas as questões cujas respostas foram avaliadas em formas de categorias (ano de conclusão do ensino médio e ano de início da graduação).
Na segunda etapa, a questão I22 passa a ser a variável resposta para um modelo de previsão utilizando, como variáveis explicativas, as outras perguntas disponíveis no questionário. O modelo de previsão utilizado é a árvore de decisão, modelo de machine learning da categoria de aprendizagem supervisionada (Géron, 2019), que fornece resultados de fácil interpretação e considera as possíveis não linearidades entre as variáveis e a variável resposta.
Uma árvore de decisão, utilizada como modelo de aprendizado de máquina e técnica de representação de dados, é semelhante a um fluxograma, em que cada nó interno representa uma decisão baseada em uma característica específica, e cada ramo reflete o resultado dessa decisão. O processo de classificação ocorre ao se fazer uma série de perguntas sobre os recursos associados aos itens de dados, em que cada pergunta é representada por um nó e aponta para nós filhos correspondentes às respostas possíveis. Assim, as perguntas formam uma hierarquia codificada como uma árvore, facilitando a tomada de decisões com base nos dados analisados (Kingsford & Salzberg, 2008)
Serão desenvolvidos dois modelos de árvore de decisão. O primeiro terá como objetivo prever a resposta “nenhum livro” e o segundo, “mais de 8 livros”. Essa divisão tem como objetivo descobrir se existem fatores que estão correlacionados a uma pessoa não ler nenhum livro e outros fatores distintos que estão correlacionados a uma pessoa ler muito.
A avaliação do desempenho das árvores de decisão será feita dividindo as respostas em duas bases: uma base de treinamento, com 70% das observações escolhidas aleatoriamente; e uma base de testes, com os restantes 30% das observações (Géron, 2019). Os modelos de previsão utilizam a base de treinamento para definir seus parâmetros. Após essa definição, os modelos têm seu desempenho avaliado na base de testes. A acurácia do modelo é definida como a proporção de classificações corretas que o modelo obteve (James et al., 2013). O pacote computacional utilizado neste artigo é o Sparklyr (Luraschi et al., 2018).
RESULTADOS
Análise descritiva
A primeira análise consiste em verificar se os formandos do ensino superior brasileiro possuem o hábito de leitura. A distribuição das respostas ao longo dos anos está representada na Figura 1.

Fonte: Elaboração do autor com base nos microdados do Enade (Inep, 2022).
FIGURA 1 Evolução da distribuição percentual da quantidade de livros lidos, de 2013 a 2019
É possível observar na Figura 1 uma diminuição na leitura por parte dos formandos, em que o percentual de pessoas que não leram nenhum livro aumentou de 9,56%, em 2013, para 16,23%, em 2019. No outro extremo, o percentual daqueles que leram mais de 8 livros diminuiu de 12,15% para 7,63%, entre 2013 e 2019.
Fatores socioeconômicos
Na Tabela 2 está a distribuição percentual de respostas sobre leitura, de acordo com cada pergunta relacionada ao estudante.
TABELA 2 Distribuição percentual da quantidade de livros lidos segundo características do estudante
| CARACTERÍSTICAS DO ESTUDANTE | QUANTIDADE DE LIVROS LIDOS | |||||
|---|---|---|---|---|---|---|
| NENHUM | 1 A 2 | 3 A 5 | 6 A 8 | MAIS DE 8 | ||
| Sexo | Masculino | 15,25 | 36,77 | 28,34 | 8,36 | 11,28 |
| Feminino | 10,25 | 35,92 | 31,71 | 9,99 | 12,11 | |
| Estado civil | Solteiro | 12,79 | 36,22 | 30,23 | 9,22 | 11,55 |
| Casado | 11,18 | 36,82 | 30,48 | 9,47 | 12,05 | |
| Divorciado | 9,74 | 34,71 | 31,74 | 10,31 | 13,5 | |
| Viúvo | 7,93 | 32,04 | 33,12 | 11,66 | 15,25 | |
| Outro | 11,48 | 35,34 | 30,53 | 9,7 | 12,94 | |
| Raça | Preta | 10,29 | 35,12 | 31,96 | 10,21 | 12,42 |
| Parda | 12,14 | 38,62 | 30,22 | 8,68 | 10,34 | |
| Indígena | 9,51 | 32,46 | 31,36 | 10,92 | 15,74 | |
| Branca | 13,33 | 35,96 | 29,68 | 9,13 | 11,89 | |
| Amarela | 9,49 | 35,13 | 32,2 | 10,49 | 12,69 | |
| Não quer declarar | 15,07 | 33,36 | 28,83 | 8,85 | 13,89 | |
| Nacionalidade | Brasileiro | 12,29 | 36,27 | 30,35 | 9,33 | 11,76 |
| Brasileiro naturalizado | 10,54 | 36,81 | 30,47 | 9,7 | 12,47 | |
| Estrangeiro | 9,62 | 30,6 | 31,24 | 10,85 | 17,7 | |
Fonte: Elaboração do autor com base nos microdados do Enade (Inep, 2022).
Para quase todas essas perguntas, o maior percentual de respondentes está na categoria 1 a 2 livros, com exceção dos viúvos, cuja maior parte dos respondentes (33,12%) indicou de 3 a 5 livros, e dos estrangeiros, com 31,24% apontando de 3 a 5 livros. O percentual de alunos que não leem é de 15,25% para homens, e 10,25% para mulheres. A diferença entre alunos e alunas que leem mais de 8 livros é menor que 1 ponto percentual. Ao analisar o estado civil, observa-se que os solteiros apresentam o maior percentual de respostas “nenhum livro” (12,79%), enquanto os viúvos têm o menor percentual nessa categoria (7,93%). No extremo oposto, as respostas “mais de 8 livros” seguem um padrão semelhante, com o menor percentual entre os solteiros (11,55%) e o maior entre os viúvos (15,25%). Quanto à raça, os indígenas apresentam o maior percentual de respondentes “mais de 8 livros” (15,74%), seguidos pela raça amarela (12,69%). Com relação à nacionalidade, os formandos brasileiros têm um percentual de respondentes “mais de 8 livros” menor do que os estrangeiros, além de um percentual maior de respondentes “nenhum livro” (12,29%).
Na Figura 2 estão os percentuais de respostas sobre leitura para cada questão relacionada à situação financeira e familiar.



Fonte: Elaboração do autor com base nos microdados do Enade (Inep, 2022).
Nota: * SM - salário-mínimo; ** EF - ensino fundamental.
FIGURA 2 Distribuição percentual da quantidade de livros lidos segundo situação financeira e familiar do estudante
Assim como nas questões relacionadas aos estudantes, as perguntas referentes à situação financeira e familiar mostram que praticamente a maior parte dos estudantes sempre está na faixa de “1 a 2 livros”.
De maneira específica, não parece haver relação entre a situação financeira e o volume de leitura. Por exemplo, o grupo “sem renda e financiado pelo governo” registra o maior percentual de respostas “nenhum livro” (16,77%), mas também possui o maior percentual de “mais de 8 livros” (12,51%), ao lado de “sou o principal responsável pelo sustento da família”. Quanto à relação entre a situação de trabalho e os hábitos de leitura, o maior percentual de respostas “nenhum livro” (13,03%) e o menor percentual de “mais de 8 livros” (11,12%) são observados nos casos de estudantes que trabalham 40 horas semanais ou mais. No extremo oposto, o grupo de estudantes que não trabalham apresenta percentuais semelhantes para ambas as categorias. Já os estudantes nas categorias “trabalho eventualmente” e “trabalho até 20 horas semanais” detêm os menores percentuais de “nenhum livro” e os maiores percentuais de “mais de 8 livros”.
O grupo de pessoas que moram com cônjuge/filhos apresenta o menor número de respondentes que afirmaram não ter lido nenhum livro (11,03%), enquanto aqueles que residem sozinhos registram o maior percentual nessa categoria (16,96%). Em relação à renda, quando analisamos as faixas de 1,5 salário mínimo até 30 salários mínimos, observa-se que, à medida que a renda aumenta, cresce o percentual de respostas indicando “nenhum livro”. No entanto, não há um padrão evidente para o percentual de respostas apontando “mais de 8 livros”.
A escolarização do pai e da mãe, assim como o fato de alguém na família ter concluído o ensino superior, não parece estar relacionada com a leitura.
Os estudantes que cursaram todo o ensino médio em escola privada apresentam o maior percentual de respostas “nenhum livro” (13,83%) e o menor percen- tual de “mais de 8 livros” (11,09%), seguidos pelo grupo “maior parte privada”, com 12,56% e 11,38%, respectivamente. Os estudantes provenientes de escolas públicas têm percentuais maiores de “mais de 8 livros” e menores de “nenhum livro” em comparação àqueles oriundos de escolas particulares. Já os que cursaram o ensino médio técnico têm o maior percentual de respostas “nenhum livro” e o menor de “mais de 8 livros”. O grupo “ensino médio tradicional” mostra o segundo maior percentual de respostas “nenhum livro” (12,63%) e o segundo menor percentual de “mais de 8 livros” (11,49%). Os que cursaram o magistério possuem o menor percentual de “nenhum livro” (5,12%) e o maior de “mais de 8 livros” (15,74%). Em relação ao ingresso por ações afirmativas, os que não entraram por nenhum tipo de ações afirmativas e inclusão social registram o maior percentual de respostas “nenhum livro” (12,74%).
Fatores institucionais e do curso
Na Figura 3 está a distribuição de respostas por tipo de instituição e curso.



Fonte: Elaboração do autor com base nos microdados do Enade (Inep, 2022).
FIGURA 3 Distribuição percentual da quantidade de livros lidos segundo tipo de instituição e curso
Em quase todas as categorias, o maior percentual de respostas também está na faixa de “1 a 2 livros”. Embora haja variações na distribuição das respostas entre as regiões, não se observa um padrão claro. Por exemplo, a região Sul apresen- ta o maior percentual, indicando “mais de 8 livros” (14,64%), mas também o segundo maior percentual para “nenhum livro” (12,08%). O Sudeste registra o maior percentual para “nenhum livro” (13,28%) e o menor para “mais de 8 livros” (10,68%)
O percentual de alunos que responderam “nenhum livro” é mais elevado nos cursos presenciais (12,61%) em comparação aos cursos EaD (10,39%). Da mesma forma, a proporção de respostas indicando “mais de 8 livros” é menor nos cursos presenciais (11,36%) em relação aos cursos EaD (14,12%).
Quanto à distribuição das respostas por categoria administrativa da IES, não há um padrão evidente. As escolas privadas (com ou sem fins lucrativos) possuem menores percentuais de estudantes na categoria “nenhum livro” em relação às escolas públicas (federais, estaduais e municipais). Já as escolas privadas apresentam menores percentuais de estudantes na categoria “mais de 8 livros” em relação às escolas públicas. Analisando o percentual das respostas de acordo com a organização acadêmica das IES, observa-se que os estudantes de Cefet têm o maior percentual de respostas indicando “nenhum livro” (18,21%) e o menor para “mais de 8 livros” (8,18%). Entre as demais organizações acadêmicas, os estudantes de faculdades registram a menor proporção de “nenhum livro” (10,72%) e a segunda maior de “mais de 8 livros” (12,08%). Já os estudantes de centros universitários apresentam o maior percentual de respostas “mais de 8 livros” (12,52%) e o segundo menor para “nenhum livro” (12,17%).
Em relação ao período dos cursos, os noturnos têm um percentual menor de respostas “nenhum livro” (11,73%) e uma porcentagem maior de “mais de 8 livros” (12,25%) em comparação aos diurnos, embora a diferença seja pequena (cerca de 1 ponto percentual). Os cursos não tecnólogos têm o menor percentual de respostas “nenhum livro” (11,97%) e também o maior percentual para “mais de 8 livros” (12,04%) em comparação com os cursos tecnólogos. Os percentuais de respostas “6 a 8” e “3 a 5” também são maiores para estudantes de cursos não tecnólogos.
Além disso, os estudantes de cursos de humanas apresentam um percentual menor de respostas “nenhum livro” (10,37%) e maior de “mais de 8 livros” (13,70%) em comparação com estudantes de outras áreas. Essa diferença, favorável à lei- tura, também se repete em outras faixas, como “6 a 8” e “3 a 5” livros, nas quais os estudantes de humanas também registram percentuais mais elevados. Tais resultados também aparecem em outros agrupamentos. Os estudantes de exatas têm um percentual maior de respostas “nenhum livro” (17,29%) e menor de “mais de 8 livros” (8,10%) em comparação com outras áreas. A diferença, agora desfavorável à leitura, também se observa nas faixas intermediárias (“6 a 8” e “3 a 5” livros), nas quais esses estudantes apresentam percentuais mais baixos. No caso dos cursos de biológicas, o percentual de respostas “nenhum livro” (12,47%) é quase igual ao de outras áreas, enquanto o número de respostas “mais de 8 livros” é um pouco menor (10,08%). Já entre os egressos dos cursos de licenciatura, observam-se a maior proporção de respostas “mais de 8 livros” (16,57%) e a menor de “nenhum livro” (6,59%). Essa tendência favorável à leitura também se verifica nas faixas “6 a 8” e “3 a 5” livros, nas quais os estudantes de licenciatura registram percen- tuais mais altos.
Fatores relativos ao percurso no ensino superior
A Figura 4 traz a divisão das respostas pelas questões relacionadas ao percurso no ensino superior.


Fonte: Elaboração do autor com base nos microdados do Enade (Inep, 2022).
Nota: * Marca - Programa de Mobilidade Acadêmica Regional em Cursos Acreditados; Brafitec - Brasil France Ingénieur Technologie; PLI - Programa de Licenciaturas Internacionais.
FIGURA 4 Distribuição percentual da quantidade de livros lidos segundo questões sobre percurso no ensino superior
Não parece haver uma relação evidente entre a oportunidade de estudar idiomas durante o ensino superior e a quantidade de livros lidos. O grupo que estudou presencialmente um idioma estrangeiro na instituição apresenta o maior percen- tual de respostas indicando “nenhum livro” (13,54%), seguido pelos que não tiveram essa oportunidade (12,16%). Em relação a atividades curriculares no exterior, o grupo que participou do programa Ciência Sem Fronteiras registra o maior percentual de respostas “nenhum livro” (15,37%) e o menor para “mais de 8 livros” (10,52%). De modo oposto, os grupos que participaram de programas de governos estaduais ou da própria instituição apresentam menor percentual de respostas “nenhum livro” e o maior para “mais de 8 livros”. Sob a ótica dessas duas categorias de resposta, o grupo de intercâmbios financiados pelo governo federal (Marca, Brafitec, PLI e outros) apresenta um perfil melhor de respostas sobre hábito de leitura em relação ao grupo do Ciência Sem Fronteiras, ainda que este último também seja um programa financiado na esfera federal. Além disso, o grupo não participante mostra um perfil de respostas sobre hábito de leitura intermediário ao dos grupos com os perfis opostos mencionados no início desse parágrafo.
Um fator de extrema relevância é a dedicação aos estudos. A quantidade de horas além das aulas destinadas aos estudos parece ter uma relação direta com o volume de leitura. À medida que a quantidade de horas despendidas aumenta, observam-se uma diminuição no percentual de respostas indicando “nenhum livro” e um aumento no número de respostas “mais de 8 livros”.
Quanto ao incentivo para cursar a graduação, destaca-se o grupo que respondeu ter sido encorajado por “líder ou representante religioso”, com o maior percentual de respostas “mais de 8 livros” (19,67%) e o menor para “nenhum livro” (7,57%). Em seguida, o grupo que respondeu “professor” também sobressai pelo alto percentual de respostas “mais de 8 livros” (16,62%) e baixo percentual para “nenhum livro” (8,23%). A questão sobre ter recebido apoio no enfrentamento de dificuldades durante o curso superior segue o mesmo padrão daquela referente ao incentivo para cursar a graduação. O grupo que respondeu “profissionais do serviço de apoio ao estudante da IES” possui o menor percentual de respostas “nenhum livro” (8,56%) e o maior para “mais de 8 livros” (18,36%). O grupo que indicou “líder ou representante religioso” apresenta o segundo maior percentual de respostas “mais de 8 livros” (17,54%) e o terceiro menor percentual para “nenhum livro” (9,21%). Também se destaca o grupo que respondeu “professores do curso”, com o terceiro maior percentual de respostas “mais de 8 livros” (16,59%) e o segundo menor para “nenhum livro” (8,90%).
No que diz respeito à motivação para escolher o curso, o grupo que indicou “baixa concorrência para ingresso” apresenta o maior percentual de respostas “nenhum livro” (18,34%) e o menor para “mais de 8 livros” (9,82%). Em contraste, o grupo que escolheu o curso por vocação possui menor percentual de “nenhum livro” (10,09%) e maior de “mais de 8 livros” (13,46%). No tocante à escolha da instituição, o grupo que optou por causa da “qualidade/reputação” tem menor percentual de respostas “nenhum livro” (9,88%) e maior percentual de “mais de 8 livros” (13,43%). Já os grupos que escolheram a instituição por “gratuidade”, “preço da mensalidade” e “onde teve aprovação” têm maior percentual de respostas “nenhum livro” e menor percentual para “mais de 8 livros”.
Embora os resultados isolados das respostas forneçam informações sobre a relação com a quantidade de livros lidos, é necessário analisar todas as respostas conjuntamente para uma compreensão mais abrangente.
Árvore de decisão
A questão sobre leitura possui cinco respostas possíveis, sendo um extremo “nenhum livro” e outro extremo “mais de 8 livros”. Esses extremos são as variáveis a serem previstas em dois modelos de árvore de decisão (Géron, 2019). O primeiro modelo tem como objetivo prever as respostas “nenhum livro” e o segundo busca prever as respostas “mais de 8 livros”.
Previsão para resposta “nenhum livro”
A resposta “nenhum livro” é a variável dependente do modelo e todas as outras respostas do questionário são as variáveis independentes. Foi ajustado um modelo de árvore de decisão com cinco níveis e critério de Gini, utilizando as opções de configuração automática no pacote computacional Sparklyr (Luraschi et al., 2018). A importância de cada variável no modelo ajustado é calculada com base na redução total da impureza - segundo o critério de Gini - que essa variável proporciona. Esse cálculo é realizado por meio de uma função disponível no próprio pacote Sparklyr. O desempenho de previsão do modelo (acurácia) resultante foi de 83,15%. Ou seja, esse modelo classificou corretamente o hábito de leitura de 83,15% dos estudantes baseado nas respostas de outras variáveis. A dedicação aos estudos, para além das horas de aula, é a principal variável do modelo, com 76,66% de importância. A soma das importâncias das variáveis é normalizada para 100%, sendo possível pequenas variações devido ao arredondamento dos números. A relação do modelo de árvore de decisão está na Figura 5.

Fonte: Elaboração do autor.
Nota: Os percentuais representam a importância de cada variável na previsão da resposta.
FIGURA 5 Árvore de decisão para a prever a resposta “nenhum livro”
O modelo de previsão funciona como uma sequência de perguntas e respostas. Na sequência do modelo de previsão, a primeira resposta a ser avaliada é “Quantas horas por semana, aproximadamente, você dedicou aos estudos, exce- tuando as horas de aula?”. Se a resposta a essa primeira pergunta for diferente de “nenhuma”, o resultado será “não”, ou seja, a previsão do modelo é que a resposta não será “nenhum livro”. Caso a resposta seja “nenhuma”, o modelo passa para a segunda pergunta: “Qual alternativa a seguir melhor descreve sua situação financeira (incluindo bolsas)?”.
Nessa etapa, se a resposta a essa segunda pergunta não for “Não tenho renda e meus gastos são financiados por programas governamentais”, o resultado será “não”, ou seja, o modelo prevê que a resposta não será “nenhum livro”. Caso a resposta à segunda pergunta seja “Não tenho renda e meus gastos são financiados por programas governamentais”, o modelo passará para a terceira pergunta: “Até que etapa de escolarização sua mãe concluiu?”. Dessa maneira sequencial, o modelo prevê se a resposta à pergunta “Excetuando-se os livros indicados na bibliografia do seu curso, quantos livros você leu neste ano?” será “nenhum” dependendo das respostas a essa sequência de diferentes perguntas.
Apesar de utilizar o modelo padrão disponível no pacote computacional adotado, a árvore de decisão pode ter seus parâmetros modificados - por exemplo, a quantidade de perguntas sequenciais a serem feitas, o critério de impureza utili- zado (Gini ou Entropia), ou, ainda, modificando o número de níveis da árvore, buscando um modelo melhor, por exemplo, em termos de desempenho ou de custo-benefício. Para escolher a melhor configuração de parâmetros, a base de dados foi dividida em uma base de treinamento, com 70% das observações, e uma base de teste, com 30% das observações restantes (Géron, 2019). A árvore de decisão com combinação de parâmetros treinada na base de treinamento e com a melhor taxa de acertos na base de testes foi escolhida como a árvore de decisão otimizada. Para a prever a resposta “nenhum livro”, a árvore de decisão otimizada foi ajustada também com um maior número de perguntas e tem uma performance levemente superior ao ajuste superior, de 83,60%, porém a quantidade de “níveis” utilizados dobra (para 10). Logo, a escolha pelo modelo padrão deveu-se à menor complexidade do modelo final, sem perda relevante de desempenho.
Previsão para resposta “mais de 8 livros”
Indo para o outro extremo, utilizando a resposta “mais de 8 livros” como variável a ser prevista, o modelo padrão obteve uma acurácia de 83,04%. Assim como o anterior, o respectivo modelo com mais perguntas no ajuste obteve uma acurácia levemente superior, de 83,80%, mas por meio de um modelo bem mais complexo. Dessa maneira, o modelo mais simples, e praticamente sem perda de acurácia, foi escolhido.
A dedicação aos estudos para além das horas de aula é a principal variável do modelo, com 82,84% de importância. As três variáveis com maior importância impactam em 96,65% os resultados do modelo. A representação do modelo de árvore de decisão ajustado está na Figura 6.

Fonte: Elaboração do autor.
Nota: Os percentuais representam a importância de cada variável na previsão da resposta.
FIGURA 6 Árvore de decisão com a resposta “mais de 8 livros”
A sequência utilizada para previsão também é iniciada com a resposta à pergunta “Quantas horas por semana, aproximadamente, você dedicou aos estudos, excetuando as horas de aula?”. Caso a resposta seja diferente de “mais de 12”, o modelo terá como previsão que a resposta não será “mais de 8 livros”. Caso a resposta seja “mais de 12”, o modelo segue para segunda pergunta sobre o estudante ser de um curso ligado à área de humanas. Na sequência o modelo divide a decisão pelo ano da realização do Enade, se em 2019 ou se em outros anos. Para o ano de 2019, são utilizadas as perguntas “Modalidade de graduação” e “Qual a principal razão para você ter escolhido a sua instituição de educação superior?”. Para os anos de 2013 a 2018, as perguntas empregadas são se o curso é de licenciatura e “Você teve oportunidade de aprendizado de idioma estrangeiro na instituição?”.
CONSIDERAÇÕES FINAIS
Este artigo está centrado em duas questões: qual a situação dos formandos no ensino superior no Brasil em relação à leitura e quais variáveis estão relacionadas à leitura. A primeira questão pode ser respondida com os primeiros resultados obtidos. A proporção de estudantes que responderam “nenhum livro” subiu de 9,56% em 2013 para 16,23% em 2019, enquanto a de respostas “mais de 8 livros” caiu de 12,51% para 7,63%, nesse mesmo período. Uma tendência clara de que a leitura de livros, além da bibliografia indicada, vem diminuindo com o tempo. A segunda questão é sobre quais variáveis estão relacionadas à leitura. Na análise descritiva, algumas variáveis tiveram a relação esperada pelo senso comum com a leitura. Por exemplo, se o curso é da área de humanas ou de licenciatura, maior é a quantidade de livros lidos. Entretanto outras variáveis tiveram relação inversa. Cursos noturnos e aqueles ofertados à distância tiveram maior quantidade de livros lidos, mesmo com autores na literatura com evidências de que alunos de cursos noturnos não dispõem de tempo suficiente para seus estudos (Carelli & Santos, 1998). O estudante ter tempo disponível para estudo (em um curso diurno e não precisando trabalhar) pode ser condição necessária, porém não suficiente para o hábito da leitura.
Diversas variáveis parecem estar associadas ao hábito de leitura, porém uma variável teve grande destaque nos modelos preditivos. Em ambos os modelos de previsão testados, tanto para “nenhum livro” quanto para “mais de 8 livros”, a resposta sobre dedicação aos estudos apresentou a maior relevância. Esses resultados indicam a importância para o tema de motivação e envolvimento acadêmico dos estudantes (Porto & Gonçalves, 2017).
Um ponto de atenção é a possibilidade de que muitos estudantes estejam preo- cupados apenas em conseguir seu diploma para ingressar no mercado de trabalho e não se dediquem a aprofundar seus estudos ou ampliar os horizontes de sua formação. Nessa linha, Oliveira (1996), ao analisar as funções de leitura de estudantes de Engenharia e Fonoaudiologia, encontrou o predomínio das funções aprendizagem e utilidade, o que indicaria estar de acordo com a fase de vida em que estão. Segundo Tourinho (2011), o próprio ensino em muitas instituições de ensino superior contribui para o quadro atual, com a utilização de fotocópias de capítulos de livros “mastigados” pelos professores, conhecida como “cultura do xerox” (Carvalho, 2002), e com os universitários frequentando as aulas sem uma leitura prévia dos assuntos a serem discutidos.
A leitura tem impacto não apenas no aprendizado de conhecimentos técnicos específicos (Oliveira & Santos, 2005), mas também na “relação com os aspectos sociais que orientam e reforçam todo comportamento humano no atendimento de suas necessidades, perspectivas e realizações” (Oliveira, 1996, p. 66). O ensino superior deve ser encarado não só como um meio de formação de mão de obra qualificada, como também um lugar privilegiado no desenvolvimento de cidadãos, e, para tanto, a leitura tem papel fundamental.














