Le stage vise à identifier, à partir d’une analyse automatisée d’un corpus d’articles scientifiques issus de revues d’écologie, si
le genre des auteurs impacte les méthodes, modèles, espèces et type d’écosystèmes étudiées, et les sites d’études. Dans un deuxième temps,
la relation entre genre des auteurs, performance individuelle des auteurs, contenu et l’impact des articles sera aussi étudiée.
Sur le plan informatique, le stage combine des problématiques du traitement automatique des langues, de la recherche
d’information et de la fouille de données : extraction d’information (notamment reconnaissance d’entités nommées et identification de
mots-clés), représentations de documents et partitionnement à partir d’approches neuronales (modèles de thèmes de type BERTopic),
analyse de graphes et détection de communautés.

Contexte et objectif applicatif.
Les statistiques concernant l’équilibre des genres dans la recherche académique montrent que le
pourcentage d’hommes et de femmes varie en fonction de la discipline concernée, et que dans les domaines dans
lesquels les femmes sont traditionnellement minoritaires, les trajectoires de carrière des femmes sont en moyenne
plus lentes que celles des hommes. La question de l’évaluation de la carrière et de la promotion repose en grande
partie sur des critères de performance en termes de production scientifique. Se pose toutefois le défi d’évaluer
l’originalité, la quantité, la qualité, et l’impact des recherches menées par une personne en particulier, que ce soit
en termes d’impacts académique ou sociétal. Dans ce cadre, la disponibilité d’outils bibliométriques relativement
faciles d’utilisation (logiciels dédiés, packages R et Python, outils fournis dans Google Scholar, Web of Knowledge,
Altmetric) permet non seulement de calculer des critères usuels de performance (nombres d’articles, position,
nombre de citations, « h-index ») et de visibilité en ligne (le nombre de consultations, de commentaires ou de
partages), mais également des métriques propres aux analyses de réseaux complexes, reposant entre autres
sur les listes de coauteurs, les adresses, les mots clés, les listes de référence. Des logiciels tels que Gargantext1 et
VosViewer2 permettent d’explorer de tels réseaux de publications et d’auteurs au moyen de visualisations avancées.
Ceci ouvre donc la possibilité d’étudier plus finement où se jouent éventuellement des différences de
performance et d’impact entre les genres. Par ailleurs, un des aspects peu étudiés des différences de genre est le
contenu des articles publiés, qui permet cependant d’accéder à d’éventuelles différences de genre dans la
production de connaissances, c’est-à-dire les méthodes utilisées, les organismes étudiés ou les lieux. Si ces
caractéristiques diffèrent entre genre, et qu’elles influencent aussi l’impact des articles, alors, elles pourraient
expliquer certaines des différences de performance bibliométriques et par suite, du déroulement de la carrière3.
Compétences requises :
– Méthodes du traitement automatique des langues à base d’apprentissage machine pour l’extraction
d’information et la classification automatique de textes (transformeurs, LDA, représentations
vectorielles…)
– Intérêt pour les analyses bibliométriques et scientométriques
– Langage Python et bibliothèques spaCy, scikit-learn, Pandas et Keras ou PyTorch
Dates en fonction de la disponibilité (5 ou 6 mois à partir de janvier-mars)

Le contenu de cette offre est la responsabilité de ses auteurs. Pour toute question relative à cette offre en particulier (date, lieu, mode de candidature, etc.), merci de les contacter directement. Un email de contact est disponible: anne.loison@univ-smb.fr

Pour toute autre question, vous pouvez contacter sfecodiff@sfecologie.org.