Introdução
A Revista de Educação Pública (REP) foi criada em 1992 devido a desdobramentos de ações do Programa de Pós-Graduação em Educação da Universidade Federal de Mato Grosso. Ela tem como objetivo “contribuir para a divulgação de resultados de pesquisas científicas da área de Educação, no sentido de facilitar o intercâmbio de investigações produzidas dentro desse campo de saber, em âmbito regional, nacional e internacional”. Seu público-alvo compõe-se de “Pesquisadores, educadores, professores, alunos de graduação, pós-graduação e grupos de pesquisas que estudam e subsidiam teórico-metodologicamente ações educativas em diversos tempos e espaços” (REP, 2023).
Neste circuito de divulgação da produção científica, considera-se que o conhecimento é construído a partir da troca de experiências e colaborações que, quando formalizadas em coautorias de trabalhos, por exemplo, possibilitam o uso de técnicas de meta-análises para estudos sobre comunidades e/ou acervos. Pois bem, nessa esteira, de forma a possibilitar uma ampla e detalhada análise das redes de colaborações, incluindo a identificação de autores considerados influentes, comumente utilizam-se conceitos de Teoria dos Grafos (Boaventura Netto, 2012; Borgatti; Everett, 2006; Lima et al., 2017; Oliveira, 2012).
A propósito do assunto, é necessário enfatizar que diversos trabalhos da literatura fornecem panoramas de acervos importantes e/ou sobre uma temática específica. Ainda neste sentido, por meio de informações como o título dos artigos e a relação de (co)autores, estatísticas gerais podem ser construídas e utilizadas como indicadores importantes e, eventualmente, no apoio à tomada de decisão. A Tabela 1 apresenta uma relação de trabalhos em que acervos e comunidades são estudadas, desde organização e mapeamento de comunidades científicas até a aplicação de meta-análises e estudos sobre acervos de diferentes áreas, como: Ensino, Sistemas de Informação, Informática na Educação, Tecnologias na Educação, Engenharia de Software, Banco de Dados e Engenharia de Produção.
Tabela 1 Trabalhos relacionados (adaptada de Semaan et al., 2020a).
| Acervo ou Comunidade | Edições/Tempo | Artigos | Referência |
|---|---|---|---|
| Simpósio Brasileiro de Engenharia de Software (SBES) | 24 edições | 509 | (Cavalcanti, 2011) |
| Acervos de Informática na Educação | 119 edições, 20 anos | 4.497 | (Semaan, 2021a) |
| Simpósio Brasileiro de Sistemas de Informação (SBSI) | 5 edições | 179 | (Oliveira, 2012) |
| 9 edições | 436 | (Rodrigues, 2015) | |
| Simpósio Brasileiro de Banco de Dados (SBBD) | 30 edições | 674 | (Lima, 2017) |
| Revista Teias | 56 edições, 21 anos | 1.016 | (Semaan 2021b) |
| Web of Science (artigos brasileiros) | 3 anos | 49.046 | (Vanz, 2009) |
| Revista Novas Tecnologias na Educação (RENOTE) | 17 anos | 1.866 | (Semaan, 2020a) |
| Simpósio Brasileiro de Informática na Educação (SBIE) | 12 edições | 835 | (Magalhães, 2013) |
| 13 edições | 1.285 | (Procaci, 2015) | |
| 18 edições | 2.147 | (Semaan, 2019a) | |
| Comunidade de Informática na Educação | 25 anos (história) | - | (Fernandes, 1999) |
| Simpósio de Engenharia de Produção (SIMPEP) | 21 edições | 11.064 | (Semaan, 2019b) |
| 21 edições | 11.064 | (Semaan, 2019c) | |
| Revista Produção Online | 20 anos | 863 | (Semaan, 2020b) |
Fonte: Autoria própria.
Em meio aos dados estampados na Tabela 1, que reportam à rede de produções científicas relacionadas, o presente trabalho tem como objetivo principal fornecer um panorama do acervo da REP por meio do uso de meta-análises, realizadas com base nos trabalhos publicados, de maneira impessoal, apolítica e restrita aos dados públicos. Nesse sentido, além do cálculo de estatísticas gerais, foi considerado um processo de Descoberta de Conhecimento em Bancos de Dados (KDD, do inglês Knowledge Discovery in Databases) (Aggarwal, 2015) utilizado em trabalhos recentes da literatura em diversas áreas (vide Tabela 1).
Entre os objetivos específicos do trabalho estão: (i) modelar, adequar e executar um Processo de KDD com base no formato e nos dados do portal da revista (REP, 2023); (ii) a construção de Estatísticas Gerais a partir dos metadados coletados; (iii) uso de técnicas de Mineração de Texto nos títulos dos trabalhos em busca de termos relevantes; (iv) uso de teoria dos grafos para analisar colaborações entre autores; e, por fim, (vi) identificar e apresentar uma relação de autores considerados influentes no contexto, de acordo com os critérios estabelecidos.
Metodologia
O processo de KDD, relatado por Semaan et al. (2021a) e ilustrado na Figura 1, foi utilizado como base para a metodologia empregada e obtenção dos resultados da presente pesquisa. O fluxograma retrata desde a coleta dos dados no portal da revista até os resultados obtidos, e informações adicionais podem ser conferidas também na referência indicada.

Fonte: Fluxograma do processo de KDD, adaptado de Semaan et al. (2021a).
Figura 1 Ilustração dos passos do processo de KDD da literatura.
Essencialmente, um processo de KDD é formado por três etapas operacionais. O pré-processamento é responsável pela obtenção dos dados, o enriquecimento, a consolidação, a formatação e sua organização. Na etapa de Mineração de Dados busca-se a obtenção de informações não triviais, novas e que podem ser úteis. Por fim, no Pós-processamento ocorre a produção de documentos para fornecer os resultados do KDD aos especialistas no domínio da aplicação, como gráficos, planilhas e relatórios técnicos (Aggarwal, 2015).
Cada atividade indicada na Figura 1 é apresentada com o intuito de facilitar o entendimento e possibilitar a reprodução do processo, que já inspirou e foi utilizado em outros trabalhos referenciados no texto. A atividade reportada na Figura 1(a) consiste em obter os dados dos trabalhos da revista em seu portal (REP, 2023). Nesse sentido, destaca-se a relevante contribuição no processo de democratização do acesso à informação, em que o acervo mais recente da revista (do volume 16 de 2007 ao volume 31 de 2022) está disponível gratuitamente, de modo simples, rápido e transparente em seu portal. Além dos volumes citados, encontra-se, também, o volume 5, número 8, publicado em 1996.
Não foi considerado o uso de aplicativos webcrawlers para a coleta automática de dados do portal devido às suas características específicas. Por exemplo, todo o volume 16, número 32 de 2007 foi disponibilizado em um arquivo (em formato PDF), e os dados dos trabalhos foram copiados (um-a-um) e adicionados em uma planilha eletrônica. Já em volumes mais recentes, como o 32 do ano 2022, os trabalhos estão disponíveis no portal por meio de links separados, junto ao seu título, a relação de (co)autores e a sua área/categoria. Assim, decidiu-se que a coleta ocorreria de maneira manual (Figura 1(b) ), e os dados foram copiados do portal, colados em uma planilha eletrônica (Figura 1(c) ), onde ocorreria também a organização, o enriquecimento, a consolidação e a formatação (Figura 1(d) ).
Ainda na etapa de pré-processamento, os títulos dos trabalhos foram segmentados em palavras, e ocorreu a unificação dos termos em um processo de redução ao radical ou equivalência à palavra semelhante mais frequente (Aranha, 2007). Destaca-se que os termos sem relevância semântica (como preposições e conjunções) foram ignorados (Figura 1(e) ). Ainda sobre a coleta de dados, foram desconsiderados os tópicos referentes a: “Sumário”, “Prefácio”, “Expediente”, “Apresentação”, “Carta”, “Informe”, “Ebook” e “Equipe Editorial”, uma vez que estes não seriam contabilizados como artigos científicos no presente estudo.
Os nomes dos autores foram analisados por meio de intervenções humanas, para que nomes distintos (grafias) de uma mesma pessoa fossem consolidados em um mesmo(a) autor(a), e para que nomes semelhantes não fossem unificados, caso fossem de pessoas distintas. Assim, os 1.050 autores foram unificados em 861 devido aos erros de digitação, de grafia, abreviações e/ou omissões de parte(s) do sobrenome. Com autores unificados e identificados é possível construir os grafos de colaboração com base nas coautorias existentes (Figura 1(f) e (g) ). A Figura 1(h) retrata a produção dos documentos com os resultados obtidos, inclusive, o presente artigo (Figura 1(i) ).
Panorama Geral da REP
Para apresentar um panorama geral da revista, foi considerado todo seu acervo até o momento, com base na coleta de dados realizada em meados de maio de 2022. A massa de dados corresponde a 17 anos de publicações, 48 números, em um total de 861 autores e 598 artigos. A Tabela 2 traz, por ano, os quantitativos de trabalhos publicados (coluna Artigos), de Autores, médias de autores por artigo (MA) e os quantitativos de autores que publicaram trabalhos de maneira isolada (coluna SA, do inglês Single-Authors).
Com o intuito de melhorar a visualização e facilitar a interpretação das análises, a Figura 2 apresenta um gráfico com os quantitativos de autores, de artigos e de SA por ano. Destaca-se que, para o ano 2022, estão disponíveis apenas as publicações existentes no portal no momento da coleta.
Tabela 2 Estatísticas Gerais dos metadados da revista REP.
| Ano | Artigos | SA | SA (%) | Autores | MA |
|---|---|---|---|---|---|
| 1996 | 21 | 19 | 90% | 25 | 1,2 |
| 2007 | 22 | 21 | 95% | 23 | 1,0 |
| 2008 | 34 | 19 | 56% | 50 | 1,5 |
| 2009 | 33 | 22 | 67% | 46 | 1,4 |
| 2010 | 33 | 17 | 52% | 57 | 1,7 |
| 2011 | 31 | 16 | 52% | 60 | 1,9 |
| 2012 | 35 | 16 | 46% | 59 | 1,7 |
| 2013 | 49 | 23 | 47% | 95 | 1,9 |
| 2014 | 44 | 21 | 48% | 71 | 1,6 |
| 2015 | 35 | 13 | 37% | 63 | 1,8 |
| 2016 | 41 | 16 | 39% | 74 | 1,8 |
| 2017 | 48 | 16 | 33% | 96 | 2,0 |
| 2018 | 46 | 15 | 33% | 86 | 1,9 |
| 2019 | 38 | 12 | 32% | 67 | 1,8 |
| 2020 | 38 | 13 | 34% | 72 | 1,9 |
| 2021 | 39 | 5 | 13% | 85 | 2,2 |
| 2022* | 11 | 3 | 27% | 21 | 1,9 |
*Coleta de dados realizada em maio de 2022 (acervo de 2022 incompleto).
Fonte: Autoria própria.
Especificamente em relação aos SA, conforme Figura 3, existem altos percentuais nos anos 1996 (com 90%, 21 artigos) e 2007 (com 95%, 22 artigos). Além desses anos, apenas em 2009 o percentual foi superior a 60% (67%, 22 artigos). O percentual médio de SA do acervo é de 44,6%. A Figura 4 ilustra o gráfico Média de Autores por Artigo, e nele é possível observar o crescimento da colaboração entre coautores, de cerca de 1,2 autor por artigo em 1996 para cerca de 2 autores por artigo em 2022, com mediana de 1,8 no acervo. A combinação do crescimento da média de autores por artigo junto ao declínio de trabalhos com autores isolados pode ser considerado um indício de aumento das colaborações entre autores.
Ainda sobre colaboração entre autores, conforme o gráfico Autores por Artigo (Figura 5), 54,8% (328 artigos) dos artigos possuem entre dois e quatro coautores, e 44,6% (267 artigos) são SA. Já a Figura 6 apresenta o gráfico Artigos por Autor, em que é possível observar que mais de 87% (750) dos autores participaram de apenas um trabalho, e cerca de 98% (843) dos autores publicaram até três artigos na revista. Porém, existem exceções, como uma autora que possui 12 artigos publicados no acervo.
Destaca-se que nos gráficos das Figuras 5 e 6 os valores no eixo das abscissas foram limitados a 4 e 5 unidades, respectivamente. Isso ocorreu devido à visualização, sem prejuízo às análises. Além disso, os valores acumulados foram apresentados para facilitar a visualização e fornecer de maneira mais clara informações adicionais.
Com o intuito de apresentar os termos em destaque, foi gerada uma nuvem de palavras (do inglês word cloud) (Figura 7). No presente contexto, as palavras mais frequentes ficam em destaque em relação à disposição e ao tamanho da fonte. Essa nuvem contém as palavras dos títulos dos artigos constantes do acervo que apresentam frequência igual ou superior a cinco, em um total de 347 termos após o processo de unificação, consolidação do banco de dados, além da remoção de stopwords. Pode-se observar o destaque das palavras que possuem alta frequência, como: “Educação”, “Escola”, “Formação”, “Ensino” e “Professores”, com respectivamente 435, 157, 150, 132 e 114 ocorrências. Se as palavras “Professores” e “Docente” fossem unificadas resultariam em 184 ocorrências, frequência inferior apenas a da palavra “Educação”.
Redes de Colaboração
Além das estatísticas construídas e apresentadas, buscou-se informações complementares, como análises das redes de colaboração entre autores e suas influências individuais. O uso de metadados é de grande importância e possibilita identificar as colaborações entre pesquisadores, em que comumente são utilizados conceitos de Teoria dos Grafos (Procaci et al., 2015; Magalhães et al., 2013; Newman, 2001). Destaca-se que nem sempre as colaborações são formalizadas, como por exemplo as trocas de experiências entre autores e revisores de artigos (feedbacks).
Um grafo simples G = (V, A) é definido como uma estrutura matemática composta de um conjunto de vértices V e de arestas A, na qual cada aresta conecta dois vértices distintos. Na modelagem utilizada, bem conhecida na literatura, cada autor é representado por um vértice e coautores de um dado trabalho são conectados por arestas. É comum o uso do termo rede em referência a um grafo (Boaventura Netto, 2012; Semaan et al, 2020ª).
A interação entre pessoas em um contexto específico é considerada de grande importância, e mesmo antes do uso de tecnologia da informação, por meio de conceitos de teoria dos grafos e medidas de centralidade, é possível identificar e mensurar a “importância” de um dado indivíduo com base em sua posição estrutural em uma rede (Bavelas, 1950). “[…] num grupo de pessoas, um particular indivíduo que se encontra estrategicamente localizado num caminho mais curto de comunicação entre pares de indivíduos, está numa posição mais central da rede […]” (Bavelas, 1950). Devido à sua localização privilegiada, “[…] esse indivíduo deve ser responsável por transmitir, modificar, ou reter a informação entre membros do grupo […]” (Bavelas, 1950).
No contexto deste trabalho, a criação de um grafo com base nas colaborações (coautorias em artigos) possibilita o cálculo e o uso de medidas de centralidade, capazes de mensurar a influência de autores na comunidade da Revista com base em seu acervo.
A centralidade de grau (do inglês Degree Centrality, CD(vk) ) considera a quantidade de arestas conectadas ao autor associado a um vértice vk, e pode ser interpretada como a probabilidade desse vértice receber alguma informação da rede. Nesse contexto, trata-se da influência direta que um vértice tem em relação a seus vizinhos (Freeman, 1977). Já a centralidade de intermediação (do inglês Betweenness Centrality, CB(vk) ) permite identificar vértices importantes em relação ao controle da comunicação, e tem por base o uso de distâncias geodésicas (menor caminho entre dois vértices), utilizadas para comunicação entre pares de autores na rede. Semaan et al. (2021ª) apresenta as definições formais e um exemplo com um grafo para ilustrar os cálculos das centralidades de grau e de intermediação.
No presente trabalho os(as) autores(as) são considerados(as) influentes com base nos seguintes critérios: (i) frequência de publicação; (ii) na centralidade de grau, com a quantidade de coautores que atuaram em parceria em seus artigos; e (iii) na centralidade de intermediação.
As Figuras 8 e 9 apresentam o Grafo construído com base nas relações de coautoria em layout em Nível, em um total de 668 autores (vértices). Destaca-se que SA não são relacionados no grafo por não terem colaborações (sem aresta incidente). Nesse formato, quanto mais próximo ao limite superior da imagem um vértice está localizado, maior é a sua importância com base na medida especificada. Por exemplo, na Figura 8 o grafo possui layout em nível por centralidade de grau, e quanto mais próximo ao limite superior, maior é a quantidade de colaboradores com os quais o autor atuou em conjunto.
Ainda sobre as Figuras 8 e 9, as cores e os tamanhos dos vértices estão relacionados aos seus graus, independente do layout e da medida de centralidade utilizados nas ilustrações. De modo adicional, os números existentes nessas figuras correspondem aos identificadores únicos (coluna Id) de alguns autores reportados na Tabela 3, e têm como objetivo ilustrar, de maneira efetiva, a participação e influência deles em cada layout considerado.
A partir da consolidação da base de dados e da criação dos grafos, foi realizado o cálculo das centralidades dos vértices, sendo criadas duas listas com autores em destaque. A primeira lista possui os 18 autores com mais artigos publicados, enquanto a segunda lista relaciona os 50 autores com maior grau de colaboração. A Tabela 3 apresenta a interseção dessas listas, ou seja, 13 autores que pertencem às duas relações, em destaque tanto pela quantidade de artigos publicados quanto pela quantidade de colaboradores.
Além da quantidade de artigos (coluna Freq.) e da quantidade de colaboradores relacionados (coluna Grau), a tabela apresenta a posição (colocação) do autor em relação às medidas de centralidade de grau (coluna CD) e de intermediação (CB) dentre todos os autores representados no Grafo. Embora não seja o objetivo da pesquisa, tal tabela presta uma singela homenagem aos autores que contribuíram com o crescimento e sucesso da REP.
A Figura 10 apresenta um grafo em layout livre, que serve de apoio a análises de questões relacionadas às listas de autores em destaque. Por exemplo, a aresta (em vermelho e com maior espessura) que conecta os vértices (autores) 3 e 13 trata-se, especificamente, de suas colaborações no trabalho (Monteiro; Trindade; De Souza, 2020), que também possui uma terceira autora. Na mesma figura, as regiões destacadas indicam subgrafos completos, em que o subgrafo da esquerda consiste na colaboração entre os onze autores de Benayas et al. (2011) (autores possuem grau 10), e o da direita entre os 10 autores de Quadros et al. (2013) (autores possuem grau 9). É possível observar que esses autores não colaboraram com outros autores do acervo.
Tabela 3 Autores em destaque, considerados influentes no acervo da Revista.
| Centralidade | |||||
|---|---|---|---|---|---|
| id | Nome | Grau | Freq. | CD | CB |
| 1 | GRANDO, B.S. | 5 | 4 | 6ª | 19ª |
| 2 | ANDRADE, D.B.S.F. | 4 | 5 | 7ª | 21ª |
| 3 | TRINDADE, D.S. | 7 | 7 | 4ª | 1ª |
| 4 | SÁ, E.F. | 5 | 6 | 6ª | 10ª |
| 5 | MONTEIRO, F.M.A. | 6 | 4 | 5ª | 17ª |
| 6 | ALONSO, K.M. | 4 | 4 | 7ª | 15ª |
| 7 | PASSOS, L.A. | 10 | 7 | 1ª | 3ª |
| 8 | SILVA, M.G.M. | 5 | 5 | 6ª | 2ª |
| 9 | DARSIE, M.M.P. | 4 | 5 | 7ª | 7ª |
| 10 | SATO, M. | 5 | 4 | 6ª | 16ª |
| 11 | SÁ, N.P. | 4 | 6 | 7ª | 8ª |
| 12 | PALMA, R.C.D. | 4 | 12 | 7ª | 15ª |
| 13 | MONTEIRO, S.B. | 8 | 6 | 3ª | 5ª |
Fonte: Autoria própria.

Fonte: Autoria própria.
Figura 10 Grafo em Layout livre, destacando 2 subgrafos e uma colaboração entre autores Ids 3 e 13.
Os grafos considerados não retratam a quantidade de artigos em que cada autor participa, mas foi verificado que os autores dos subgrafos em destaque não pertenciam à lista dos mais frequentes, e por isso não estão relacionados na Tabela 2. Em sentido oposto, uma autora que possui nove artigos no acervo não está na Tabela 3 por ter colaborado com apenas uma pessoa (possui grau 1).
A Figura 11 ilustra uma nuvem de palavras com as 861 pessoas que possuem artigo(s) publicado(s) na Revista de Educação Pública. os autores mais frequentes ficam em destaque em relação à disposição e ao tamanho da fonte na ilustração.
Conclusões e Trabalhos Futuros
O presente trabalho teve como o objetivo principal apresentar um panorama do acervo da Revista de Educação Pública. Nesse sentido foram considerados um processo de KDD, a apresentação de estatísticas gerais e conceitos de teoria de grafos. O acervo do periódico conta com trabalhos de alta qualidade, e contribui fortemente com a democratização do conhecimento, sendo de fácil acesso, gratuito, rápido e transparente. A massa de dados considerada possui 48 números, com 598 artigos publicados por 861 autores, em coleta realizada em maio de 2022.
A Introdução apresenta a revista e relaciona trabalhos que também abordam acervos de revistas ou sobre comunidades. Na seção Panorama Geral é possível observar os indícios do aumento da colaboração entre autores em que, concomitantemente, ocorre o crescimento da média de autores por artigo e a redução de trabalhos publicados por autores isolados. Nas análises de redes de colaboração foram apresentados grafos com layout em nível para as Centralidades de Grau e de Intermediação. A Tabela 3 destaca os 13 autores considerados mais influentes de acordo com os critérios adotados: estão entre os 18 que publicaram mais artigos e entre os 50 que possuem mais colaborações.
De modo adicional, foram apresentadas nuvens de palavras com os autores do acervo e com as palavras mais utilizadas nos títulos dos trabalhos, após o devido pré-processamento. Destaca-se que este trabalho considerou análises neutras, impessoais, apolíticas e restritas aos dados coletados no acervo disponível.
Como propostas para trabalhos futuros destacam-se: (i) novas modelagens em grafos tendo como base a utilização das referências dos trabalhos de um acervo; (ii) análises dos termos em destaque em relação ao seu contexto temporal; (iii) identificação de grupos de colaboração em uma mesma instituição e entre instituições distintas; (iv) análises de outros acervos relevantes nos cenários nacional e internacional.






















