English below

Club de lecture ML4DH - Sorbonne Université


Le club de lecture ML4DH rassemble des chercheurs, des enseignants, des doctorants et postdoctorants de Sorbonne Université et d'autres établissements et organismes qui s'intéressent à l'intersection de l'apprentissage automatique et des humanités numériques. Le club se réunit régulièrement pour discuter d'articles scientifiques récents en rapport avec ces sujets. Il est organisé par le SCAI, le CERES et l'ObTIC.

L'objectif du club de lecture ML4DH est de se tenir au courant des derniers développements dans ce domaine interdisciplinaire et d'évaluer de manière critique les recherches publiées. Au cours des réunions, les participants résumeront un article et discuteront ensuite de ses forces, de ses faiblesses et de ses implications pour les recherches à venir.

En plus des discussions, le club organisera d'autres activités pour promouvoir échanges et collaborations. Ces activités pourront inclure par exemple des présentations par des membres du club ou des invités sur leurs projets de recherche actuels, des ateliers ou des séances de formation pour acquérir de nouvelles compétences ou techniques liées à l'apprentissage automatique et aux humanités numériques, des projets numériques ou des hackathons pour explorer de nouvelles applications de l'apprentissage automatique dans les humanités, des conférences par des experts invités.


Chaque participant proposera à l'avance un article scientifique à présenter. Il ou elle pourra ensuite détailler les points suivants:

- Situation du travail présenté par rapport à l'état de l'art.
- Méthodologie, outils et ressources employés.
- Résultats obtenus.
Les échanges peuvent naturellement apporter un regard critique vis-à-vis de la recherche présentée.

Programmation - 2024-2025

Jeudi 12/12/24, 13h-14h
Lieu : Serpente, salle 224

Gaël Lejeune: "Is text preprocessing still worth the time? A comparative survey on the influence of popular preprocessing methods on Transformers and traditional classifiers" (Marco Siino , Ilenia Tinnirello , Marco La Cascia; Information Systems N° 121, 2024)
Thématiques :Pré-traitement de textes, Correction, Classification

Prochaines dates (même horaire) : 09/01/25, 06/02/25, 06/03/24.


Les personnes intéressées pour présenter un article peuvent nous écrire ou bien s’inscrire directement dans ce document en précisant leur adresse mail, le thème traité et le lien de l’article. 

Assister sur place: l'entrée est libre, mais en raison du nombre limité de places, merci de bien vouloir compléter ce formulaire : 


Plan et accès:

SCAI : Batiment Esclangon, 1er étage, Campus Pierre et Marie Curie, 4 place Jussieu, 75005 Paris (plan)
Serpente : Maison de la Recherche 28 rue Serpente.

Suivre en ligne: voici le lien permanent de la visio:


Contacter les organisateurs

motasem.alrahabi@sorbonne-universite.fr (OBTIC)
gael.lejeune@sorbonne-universite.fr (CERES/STIH)
xavier.fresquet@sorbonne-universite.fr (SCAI)


ML4DH Reading Club - Sorbonne University


The ML4DH Reading Club brings together researchers, teachers, PhD students and postdoctoral fellows from Sorbonne University and other institutions and organizations interested in the intersection of machine learning and digital humanities. The club meets regularly to discuss recent scientific articles related to these topics. It is organized by SCAI, CERES and ObTIC.

The goal of the ML4DH Reading Club is to keep abreast of the latest developments in this interdisciplinary field and to critically evaluate published research. During the meetings, participants will summarize a paper and then discuss its strengths, weaknesses and implications for future research.

In addition to discussions, the club will organize other activities to promote exchanges and collaborations. These activities may include, for example, presentations by club members or guests on their current research projects, workshops or training sessions to acquire new skills or techniques related to machine learning and digital humanities, digital projects or hackathons to explore new applications of machine learning in the humanities, conferences by invited experts.


Each participant will propose in advance a scientific article to be presented. He or she will then detail the following points:
• Situation of the work presented in relation to the state of the art.
• Methodology, tools and resources used.
• Results obtained.
The exchanges can naturally provide a critical look at the research presented.

Programming - 2024-2025

Thursday 12/12/24, 1:00-2:00 PM
Location: Serpente, classroom 224

Gaël Lejeune: "Is text preprocessing still worth the time? A comparative survey on the influence of popular preprocessing methods on Transformers and traditional classifiers" (Marco Siino, Ilenia Tinnirello, Marco La Cascia; Information Systems N° 121, 2024)
Topics: Text preprocessing, Correction, Classification

Next dates (same time): 01/09/25, 02/06/25, 03/06/24.


People interested in presenting an article can write to us or register directly in this document by specifying their email address, the topic covered and the link to the article. Attend on site: admission is free, but due to the limited number of places, please complete this form:

Map and access:
• SCAI: Esclangon building, 1st floor, Campus Pierre et Marie Curie, 4 place Jussieu, 75005 Paris (map)
• Serpente: Maison de la Recherche 28 rue Serpente.

Follow online: here is the permanent link to the videoconference:

Contact the organizers

• motasem.alrahabi@sorbonne-universite.fr (OBTIC)
• gael.lejeune@sorbonne-universite.fr (CERES/STIH)
• xavier.fresquet@sorbonne-universite.fr (SCAI)