l’UniNE participe au lancement de "Corpus français" : 700 millions de mots en ligne pour l’étude du français

Neuchâtel, le 02 février 2010. L’Université de Neuchâtel, en collaboration avec l’Université de Leipzig, lance une nouvelle banque de données : Corpus français. Comprenant quelque 700 millions de mots tirés de la presse, du web et de Wikipédia, cette banque de données permet de multiples recherches dans le domaine du lexique français contemporain écrit. Simple d’accès, le Corpus français est destiné à la fois aux chercheurs et au grand public.

Jusqu’à présent, les chercheurs ont dû se contenter de corpus de petite taille - souvent établis par des équipes de recherche pour des besoins spécifiques - ou travailler sur des bases de données contenant essentiellement des documents littéraires. Avec ses 700 millions de mots, le Corpus français fournit désormais un nouvel outil impressionnant. C’est en effet l’une des plus grandes bases de données pour l’étude du français, et elle s’adresse à la fois à la recherche scientifique et au grand public curieux d’en savoir plus sur la fréquence et l’utilisation du lexique en français contemporain.

Un partenariat entre l’Université de Neuchâtel et l’Université de Leipzig

Le Corpus français ( http://wortschatz.uni-leipzig.­de/ws_fra/ ) est une base de données composée de près de 37 millions de phrases, soit quelque 700 millions de mots. Il a été extrait et constitué par le groupe de recherche en traitement automatique des langues de l’Université de Leipzig (Allemagne) sous la direction d’Uwe Quasthoff, et aménagé avec le concours de Daniel Elmiger et Alain Kamber de l’Université de Neuchâtel.
La base informatique et les outils de recherche ont été développés dans le cadre du projet Leipzig Corpora Collection of Computer Science de l’Université de Leipzig. Quant au corpus, dédié à l’étude du français contemporain écrit, il est composé de trois parties :

- presse francophone (plus de 19 millions de phrases)
- pages web (plus de 11 millions de phrases)
- Wikipédia (près de 6 millions de phrases)

Une utilisation simple

Pour commencer une recherche, il suffit d’introduire un mot-clé dans la fenêtre prévue à cet effet et de cliquer sur « recherche ». Sur la page de résultats, on trouvera entre autres les informations suivantes :

- le nombre total d’occurrences dans l’ensemble de la base de données,
- la catégorie de fréquence du mot-clé,
- une liste d’exemples contenant le mot-clé,
- plusieurs listes des mots qui apparaissent souvent dans les mêmes phrases que le mot-clé,
- des graphes illustrant les relations sémantiques entre le mot-clé et les mots qui présentent une fréquence importante dans les mêmes phrases.

Un complément au dictionnaire

S’il n’a pas la prétention de remplacer le dictionnaire, ce nouveau corpus de français en est un complément indispensable. Il présente en effet l’avantage de mettre en évidence les mots et expressions les plus usités du français contemporain écrit. Un outil particulièrement utile pour les non-francophones qui veulent apprendre notre langue. Par ailleurs, des chercheurs de l’Université de Neuchâtel s’appuient déjà sur ce corpus pour élaborer un manuel d’orthographe.

Daniel Elmiger
linguiste
Institut de recherche et de documentation pédagogique
et Institut de langue et littérature allemandes
tél.: 032 718 19 46
daniel.elmiger@unine.ch