Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog

 

Pour répondre à une question d'une étudiante sur la place des corpus (en l'occurrence oraux) en didactque des langues

Le principe de réunir des données attestées afin d’étudier la langue a surtout été mis en avant à travers les enquêtes sur le terrain. Les premières applications des corpus à la didactique des langues proviennent justement de données authentiques orales récoltées sur le terrain (pour le français : le français fondamental et les enquêtes sociolinguistiques d’Orléans – cliquer ici pour en savoir plus).

C’est au 19e siècle qu’ont eu lieu les premières grandes enquêtes en Europe (cliquer ici pour en savoir plus), cherchant à réunir de façon systématique des données en langue, en Allemagne (G. Wenker) et en France (J. Gilliéron) notamment. D’autres enquêtes seront menées au fur et à mesure que se développe la technologie et l’enquête sociolinguistique réalisée à Orléans donnera donc lieu à un premier corpus destiné à l’enseignement du FLE.

Les pionniers des enquêtes sur le terrain devaient se contenter d’enregistrer graphiquement les formes, là où aujourd’hui on peut enregistrer ou filmer. L’enregistrement (audio ou multimédia) est aujourd’hui une composante incontournable dans l’élaboration d’un corpus de données orales : c’est lui qui permet de garder des traces du passage sur le terrain au-delà de l’inventaire de formes isolés notées à la main. Aujourd’hui, la technologie numérique permet de stocker des enregistrements de qualité en vue de leur transcription (on reviendra sur la question de la transcription dans un article ultérieur). De plus, il y a eu une certaine banalisation des appareils à enregistrer (à commencer par le téléphone portable) et, comme résultat, on attribue peut-être moins de « cérémonie » à l’acte d’enregistrer de nos jours. En didactique des langues, la moindre méthode s’accompagne aujourd’hui de documents sonores authentiques. La question du rapprochement entre corpus (collections de textes permettant de s’informer sur la langue) et documents authentiques en didactique des langues est traitée par A. Chambers dans un article paru dans les Mélanges CRAPEL.

Les collections de données utilisées par les sociolinguistes, les linguistes de terrain ou bien par les linguistes spécialistes de la langue orale ne sont pas nécessairement comparables aux corpus tels qu’on les définit souvent actuellement, ne serait-ce que par leur taille et par la « traçabilité » des données qui les constituent. Aujourd’hui, par exemple, on peut facilement, grâce à un logiciel comme BootCat, fabriquer un corpus à partir de sources en ligne, sans se soucier de leur provenance. Par ailleurs, il n’est pas surprenant de constater que la plupart des corpus disponibles aujourd’hui contiennent des données écrites.

Le corpus PFC-EF est un exemple de corpus de français parlé transcrit que vous pouvez interroger gratuitement en ligne. Vous pouvez également consulter le corpus français dans SACODEYL dont l’interface est conçue pour l’apprentissage-enseignement de la langue (notamment pour une meilleure prise en compte du Cadre Européen Commun de Référence pour les langues ou CECR)

S’il existe à l’heure actuelle une multitude de corpus oraux pour le français, présentant des formats et des conventions très différents, et qui ne sont pas toujours libres d'accès (comme le déplorent souvent les chercheurs d’ailleurs), il n’existe pas encore de grand corpus pour le français (et encore moins pour l’oral) comparable à ceux qui existent pour d’autres langues comme l’anglais (par ex. BNC, CoCA) ou l’espagnol (par ex. CREA, Corpus del español), par exemple.

Voir aussi l'article « Data-driven learning » (02/04/2012).

 

Tag(s) : #TIC