Livre électronique777 pages7 heures

Analyse des données textuelles

Name: Analyse des données textuelles
Author: Ludovic Lebart
ISBN: 9782760550544

Par Ludovic Lebart, Bénédicte Pincemin et Céline Poudat

Évaluation : 0 sur 5 étoiles

()

Lire l'aperçu

À propos de ce livre électronique

L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.

Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.

Ignorer le carrousel

Mathématiques

LangueFrançais

ÉditeurPresses de l'Université du Québec

Date de sortie7 août 2019

ISBN9782760550544

Auteur

Ludovic Lebart

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Auteurs associés

Ignorer le carrousel

Lié à Analyse des données textuelles

Livres électroniques liés

Ignorer le carrousel

Pratique de l'analyse statistique des données
Livre électronique
Pratique de l'analyse statistique des données
deRichard Bertrand
Évaluation : 0 sur 5 étoiles
0 évaluation
Méthodes qualitatives, quantitatives et mixtes: Dans la recherche en sciences humaines, sociales et de la santé
Livre électronique
Méthodes qualitatives, quantitatives et mixtes: Dans la recherche en sciences humaines, sociales et de la santé
deMarc Corbière
Évaluation : 0 sur 5 étoiles
0 évaluation
L'analyse des données de sondage avec SPSS: Un guide d'introduction
Livre électronique
L'analyse des données de sondage avec SPSS: Un guide d'introduction
deLili Zheng
Évaluation : 0 sur 5 étoiles
0 évaluation
La modélisation par équations structurelles avec Mplus
Livre électronique
La modélisation par équations structurelles avec Mplus
dePier-Olivier Caron
Évaluation : 0 sur 5 étoiles
0 évaluation
Communiquer avec style, 2e édition: Exercices pratiques
Livre électronique
Communiquer avec style, 2e édition: Exercices pratiques
deDiane Gousse
Évaluation : 0 sur 5 étoiles
0 évaluation
Méthodes qualitatives, quantitatives et mixtes, 2e édition: Dans la recherche en sciences humaines, sociales et de la santé
Livre électronique
Méthodes qualitatives, quantitatives et mixtes, 2e édition: Dans la recherche en sciences humaines, sociales et de la santé
deMarc Corbière
Évaluation : 0 sur 5 étoiles
0 évaluation
Une introduction à la biostatistique, 2e édition
Livre électronique
Une introduction à la biostatistique, 2e édition
deRaluca Balan
Évaluation : 0 sur 5 étoiles
0 évaluation
L' Analyse multivariée avec SPSS
Livre électronique
L' Analyse multivariée avec SPSS
deJean Stafford
Évaluation : 5 sur 5 étoiles
5/5
Méthodologie de recherche et théories en sciences comptables
Livre électronique
Méthodologie de recherche et théories en sciences comptables
deSaidatou Dicko
Évaluation : 0 sur 5 étoiles
0 évaluation
Introduction à l’analyse des données de sondage avec SPSS : Guide d’auto-apprentissage
Livre électronique
Introduction à l’analyse des données de sondage avec SPSS : Guide d’auto-apprentissage
deMichel Plaisent
Évaluation : 0 sur 5 étoiles
0 évaluation
Introduction à la méthodologie de la pensée écrite: Édition revue et corrigée
Livre électronique
Introduction à la méthodologie de la pensée écrite: Édition revue et corrigée
deNormand Lacharité
Évaluation : 0 sur 5 étoiles
0 évaluation
Tableaux de bord de gestion et indicateurs de performance: 2e édition
Livre électronique
Tableaux de bord de gestion et indicateurs de performance: 2e édition
dePierre Voyer
Évaluation : 5 sur 5 étoiles
5/5
Analyser les données qualitatives en gestion
Livre électronique
Analyser les données qualitatives en gestion
deCatherine Voynnet Fourboul
Évaluation : 0 sur 5 étoiles
0 évaluation
Psychologie du travail et nouveaux milieux de travail: Actes du quatrième Congrès international de psychologie du travail de langue française
Livre électronique
Psychologie du travail et nouveaux milieux de travail: Actes du quatrième Congrès international de psychologie du travail de langue française
deRené Boulard
Évaluation : 0 sur 5 étoiles
0 évaluation
Plan de communication : comment le rédiger et le présenter: Un guide pratique pour les étudiants et les professionnels
Livre électronique
Plan de communication : comment le rédiger et le présenter: Un guide pratique pour les étudiants et les professionnels
deFrançois Grenon
Évaluation : 5 sur 5 étoiles
5/5
Introduction à la modélisation d'équations structurelles: AMOS dans la recherche en gestion
Livre électronique
Introduction à la modélisation d'équations structurelles: AMOS dans la recherche en gestion
deLili Zheng
Évaluation : 0 sur 5 étoiles
0 évaluation
La gestion de projet en Faculté: 12 semaines pour maîtriser le temps
Livre électronique
La gestion de projet en Faculté: 12 semaines pour maîtriser le temps
deEric Gautier
Évaluation : 5 sur 5 étoiles
5/5
La pensée dirigée: Traité sur le raisonnement et les logiques
Livre électronique
La pensée dirigée: Traité sur le raisonnement et les logiques
deClaire Wagner-Rémy
Évaluation : 5 sur 5 étoiles
5/5
Calcul en logique du premier ordre
Livre électronique
Calcul en logique du premier ordre
deYves Bouchard
Évaluation : 0 sur 5 étoiles
0 évaluation
L'Education à l'épreuve de la démarche qualitative
Livre électronique
L'Education à l'épreuve de la démarche qualitative
deSous la direction de Philippe Richard
Évaluation : 0 sur 5 étoiles
0 évaluation
Psychologie de l'éducation
Livre électronique
Psychologie de l'éducation
deGustave Le Bon
Évaluation : 0 sur 5 étoiles
0 évaluation
Recherche sociale, 6e édition: De la problématique à la collecte des données
Livre électronique
Recherche sociale, 6e édition: De la problématique à la collecte des données
deBenoît Gauthier
Évaluation : 0 sur 5 étoiles
0 évaluation
La stylistique expliquée: La littérature et ses enjeux
Livre électronique
La stylistique expliquée: La littérature et ses enjeux
deMichel Théron
Évaluation : 4 sur 5 étoiles
4/5
Les racines communicationnelles du Web et des médias sociaux, 2e édition
Livre électronique
Les racines communicationnelles du Web et des médias sociaux, 2e édition
deFrancine Charest
Évaluation : 0 sur 5 étoiles
0 évaluation
Théorie des nombres irrationnels, des limites et de la continuité
Livre électronique
Théorie des nombres irrationnels, des limites et de la continuité
deRené Baire
Évaluation : 0 sur 5 étoiles
0 évaluation
Réaliser son mémoire ou sa thèse: Côté jeans et côté tenue de soirée
Livre électronique
Réaliser son mémoire ou sa thèse: Côté jeans et côté tenue de soirée
dePierre Mongeau
Évaluation : 0 sur 5 étoiles
0 évaluation
Discours sur l'origine et les fondements de l'inégalité parmi les hommes: la matrice de l'oeuvre morale et politique de Jean-Jacques Rousseau
Livre électronique
Discours sur l'origine et les fondements de l'inégalité parmi les hommes: la matrice de l'oeuvre morale et politique de Jean-Jacques Rousseau
deJean-Jacques Rousseau
Évaluation : 0 sur 5 étoiles
0 évaluation
La recherche en communication: Éléments de méthodologie
Livre électronique
La recherche en communication: Éléments de méthodologie
deAlain Laramée
Évaluation : 0 sur 5 étoiles
0 évaluation
Maîtriser le diagramme de Gantt: Comprendre et utiliser efficacement le logiciel open source "Gantt Project"
Livre électronique
Maîtriser le diagramme de Gantt: Comprendre et utiliser efficacement le logiciel open source "Gantt Project"
deCristina Rebiere
Évaluation : 0 sur 5 étoiles
0 évaluation
Enseigner les premiers concepts de probabilités: Un monde de possibilités!
Livre électronique
Enseigner les premiers concepts de probabilités: Un monde de possibilités!
deVincent Martin
Évaluation : 0 sur 5 étoiles
0 évaluation

Mathématiques pour vous

Ignorer le carrousel

Les mathématiques: La géométrie
Livre électronique
Les mathématiques: La géométrie
de Petit Guide
Évaluation : 5 sur 5 étoiles
5/5
Comprendre la procrastination: Pour obtenir vos objectifs
Livre électronique
Comprendre la procrastination: Pour obtenir vos objectifs
deAude Réco
Évaluation : 4 sur 5 étoiles
4/5
Transformez votre vie: Utilisez le pouvoir créateur qui est en vous pour construire votre vie à l'image de ce que vous voulez qu'elle soit
Livre électronique
Transformez votre vie: Utilisez le pouvoir créateur qui est en vous pour construire votre vie à l'image de ce que vous voulez qu'elle soit
deLaure Zanella
Évaluation : 4 sur 5 étoiles
4/5
Ma vie et la psychanalyse
Livre électronique
Ma vie et la psychanalyse
deSigmund Freud
Évaluation : 3 sur 5 étoiles
3/5
Revue des incompris revue d'histoire des oubliettes: Le Réveil de l'Horloge de Célestin Louis Maxime Dubuisson aliéniste et poète
Livre électronique
Revue des incompris revue d'histoire des oubliettes: Le Réveil de l'Horloge de Célestin Louis Maxime Dubuisson aliéniste et poète
deAgnès Bertomeu
Évaluation : 3 sur 5 étoiles
3/5
A chacun sa définition de l'amour: Quelle est la tienne?
Livre électronique
A chacun sa définition de l'amour: Quelle est la tienne?
deAudrey Ninon Megoumdjo Koagne
Évaluation : 5 sur 5 étoiles
5/5
L'art d'aimer
Livre électronique
L'art d'aimer
dePublius Ovidius Naso (Ovide)
Évaluation : 0 sur 5 étoiles
0 évaluation
Essais
Livre électronique
Essais
deMichel de Montaigne
Évaluation : 0 sur 5 étoiles
0 évaluation
Qu'est-ce que l'art ?
Livre électronique
Qu'est-ce que l'art ?
deLeón Tolstoi
Évaluation : 0 sur 5 étoiles
0 évaluation
Le Jinn, créature de l'invisible
Livre électronique
Le Jinn, créature de l'invisible
deNas E. Boutammina
Évaluation : 4 sur 5 étoiles
4/5
Magellan
Livre électronique
Magellan
deStefan Zweig
Évaluation : 5 sur 5 étoiles
5/5
Analyse Mathématique pour l'ingénieur: Analyse Mathématique pour l'ingénieur, #1
Livre électronique
Analyse Mathématique pour l'ingénieur: Analyse Mathématique pour l'ingénieur, #1
debekkai Messirdi
Évaluation : 0 sur 5 étoiles
0 évaluation
Excel de A à Z: Le Cours Ultime pour Maîtriser Excel Sans être Dépassé - Formules Secrètes Gagnantes pour Sortir du Lot et Impressionner Votre Patron
Livre électronique
Excel de A à Z: Le Cours Ultime pour Maîtriser Excel Sans être Dépassé - Formules Secrètes Gagnantes pour Sortir du Lot et Impressionner Votre Patron
deCorneille Pierrick
Évaluation : 0 sur 5 étoiles
0 évaluation
Algèbre linéaire: Les Grands Articles d'Universalis
Livre électronique
Algèbre linéaire: Les Grands Articles d'Universalis
de Encyclopaedia Universalis
Évaluation : 0 sur 5 étoiles
0 évaluation
Annales de Mathématiques, Baccalauréat C et E, Cameroun, 2008 - 2018: Sujets et Corrigés
Livre électronique
Annales de Mathématiques, Baccalauréat C et E, Cameroun, 2008 - 2018: Sujets et Corrigés
deChristian Valéry Nguembou Tagne
Évaluation : 4 sur 5 étoiles
4/5
La pensée dirigée: Traité sur le raisonnement et les logiques
Livre électronique
La pensée dirigée: Traité sur le raisonnement et les logiques
deClaire Wagner-Rémy
Évaluation : 5 sur 5 étoiles
5/5
Marie-Antoinette
Livre électronique
Marie-Antoinette
deStefan Zweig
Évaluation : 0 sur 5 étoiles
0 évaluation
Introduction aux logarithmes et aux exponentielles
Livre électronique
Introduction aux logarithmes et aux exponentielles
deSimone Malacrida
Évaluation : 0 sur 5 étoiles
0 évaluation
Règles pour la direction de l’esprit
Livre électronique
Règles pour la direction de l’esprit
deRené Descartes
Évaluation : 0 sur 5 étoiles
0 évaluation
Le mot d'esprit et ses rapports avec l'inconscient
Livre électronique
Le mot d'esprit et ses rapports avec l'inconscient
deSigmund Freud
Évaluation : 0 sur 5 étoiles
0 évaluation
Histoire des Mathématiques: L'histoire de Platon, Euler, Newton, Galilei. Découvrez les Hommes qui ont inventé l'Algèbre, la Géométrie et le Calcul
Livre électronique
Histoire des Mathématiques: L'histoire de Platon, Euler, Newton, Galilei. Découvrez les Hommes qui ont inventé l'Algèbre, la Géométrie et le Calcul
deJordan Berger
Évaluation : 0 sur 5 étoiles
0 évaluation
Exercices de dérivées
Livre électronique
Exercices de dérivées
deSimone Malacrida
Évaluation : 0 sur 5 étoiles
0 évaluation
L'Iliade
Livre électronique
L'Iliade
deHomère
Évaluation : 0 sur 5 étoiles
0 évaluation
L'étrange Défaite
Livre électronique
L'étrange Défaite
deMarc Bloch
Évaluation : 0 sur 5 étoiles
0 évaluation
Analyse Mathématique pour l'ingénieur: Analyse Mathématique pour l'ingénieur, #2
Livre électronique
Analyse Mathématique pour l'ingénieur: Analyse Mathématique pour l'ingénieur, #2
debekkai Messirdi
Évaluation : 0 sur 5 étoiles
0 évaluation
Exercices d'intégrales et d'équations intégro-différentielles
Livre électronique
Exercices d'intégrales et d'équations intégro-différentielles
deSimone Malacrida
Évaluation : 0 sur 5 étoiles
0 évaluation
De la démocratie en Amérique: Tome I
Livre électronique
De la démocratie en Amérique: Tome I
deAlexis de Tocqueville
Évaluation : 0 sur 5 étoiles
0 évaluation
Le Livre de Mathématique: Volume 1
Livre électronique
Le Livre de Mathématique: Volume 1
deSimone Malacrida
Évaluation : 0 sur 5 étoiles
0 évaluation
Manuel de soutien et d'accompagnement en mathématiques: Terminale S - édition 2017
Livre électronique
Manuel de soutien et d'accompagnement en mathématiques: Terminale S - édition 2017
dePatrice Berrini
Évaluation : 0 sur 5 étoiles
0 évaluation
Introduction à la Statistique
Livre électronique
Introduction à la Statistique
deSimone Malacrida
Évaluation : 0 sur 5 étoiles
0 évaluation

Épisodes de podcast liés

Ignorer le carrousel

Les élèves français meilleurs en anglais grâce au streaming ?: Voilà une info qui ne va certainement pas ravir l’éducation nationale et encore moins les professeurs d’anglais, puisque d’après l’institut de sondage Yougov et Bertlitz France Licorne, spécialiste en langue et communication interculturelle, 56% des Fr...
Épisode de podcast
Les élèves français meilleurs en anglais grâce au streaming ?: Voilà une info qui ne va certainement pas ravir l’éducation nationale et encore moins les professeurs d’anglais, puisque d’après l’institut de sondage Yougov et Bertlitz France Licorne, spécialiste en langue et communication interculturelle, 56% des Fr...
deChoses à Savoir TECH
0 évaluation
0% ont trouvé ce document utile
#195 - Stéphane André - l'Art Oratoire - Changer l’histoire de l’humanité avec des mots: L’art oratoire est un art avant tout. Comme tout art, qu’il s’agisse de danse classique ou de chant lyrique, il convient de travailler sa technique pour progresser et, par le travail, l’art oratoire devient accessible à tous. Ancien bègue,
Épisode de podcast
#195 - Stéphane André - l'Art Oratoire - Changer l’histoire de l’humanité avec des mots: L’art oratoire est un art avant tout. Comme tout art, qu’il s’agisse de danse classique ou de chant lyrique, il convient de travailler sa technique pour progresser et, par le travail, l’art oratoire devient accessible à tous. Ancien bègue,
deGénération Do It Yourself
0 évaluation
0% ont trouvé ce document utile
Qu'est-ce que l'esprit critique ?: Qu'est-ce que l'esprit critique ? Merci d'avoir posé la question ! Depuis l’assassinat de Samuel Paty, professeur d’Histoire-Géographie à Conflans-Sainte-Honorine, bien des questions sont nées quant à l’enseignement de la liberté d’exp...
Épisode de podcast
Qu'est-ce que l'esprit critique ?: Qu'est-ce que l'esprit critique ? Merci d'avoir posé la question ! Depuis l’assassinat de Samuel Paty, professeur d’Histoire-Géographie à Conflans-Sainte-Honorine, bien des questions sont nées quant à l’enseignement de la liberté d’exp...
deMaintenant, vous savez
0 évaluation
0% ont trouvé ce document utile
Comment persuader son auditoire comme dans le brio ?
Épisode de podcast
Comment persuader son auditoire comme dans le brio ?
de7e science
0 évaluation
0% ont trouvé ce document utile
La mondialisation est-elle une fiction? Entretien avec Stéphane Paquin
Épisode de podcast
La mondialisation est-elle une fiction? Entretien avec Stéphane Paquin
deLes idées mènent le monde
0 évaluation
0% ont trouvé ce document utile
Comment devenir la MEILLEURE Version de Soi-Même avec le Développement Personnel ?: Comment devenir la meilleure version de soi-même ? Et comment utiliser le développement personnel pour devenir la meilleure version de soi-même ? C'est ce que l'on va voir dans cette tout nouvel épisode de podcast !! ➡️??Télécharger gratuitement le E...
Épisode de podcast
Comment devenir la MEILLEURE Version de Soi-Même avec le Développement Personnel ?: Comment devenir la meilleure version de soi-même ? Et comment utiliser le développement personnel pour devenir la meilleure version de soi-même ? C'est ce que l'on va voir dans cette tout nouvel épisode de podcast !! ➡️??Télécharger gratuitement le E...
deAttirelepositif
0 évaluation
0% ont trouvé ce document utile
Marketing local, comment faire ? - Episode 161: Je vois beaucoup d'entrepreneurs venir vers moi pour me demander quelle stratégie digitale implémenter pour leur business, alors que pour moi ce n'est surtout pas par le digital qu'il devraient commencer mais par le bon vieux marketing local.&nb...
Épisode de podcast
Marketing local, comment faire ? - Episode 161: Je vois beaucoup d'entrepreneurs venir vers moi pour me demander quelle stratégie digitale implémenter pour leur business, alors que pour moi ce n'est surtout pas par le digital qu'il devraient commencer mais par le bon vieux marketing local.&nb...
deLe Podcast du Marketing - stratégie digitale, persona, emailing, inbound marketing, webinaire, lead magnet, branding, landing page, copy
0 évaluation
0% ont trouvé ce document utile
#39 Nathalie Lesselin (Kokoro Lingua) - L'apprentissage des langues par le cœur: Aujourd’hui on vous parle d’un projet extraordinaire : Kokoro Lingua. Nathalie Lesselin a créé cette solution en ligne qui relie l’émotionnel et l’apprentissage des langues. A l’aide de vidéos enregistrées avec des enfants anglophones, les enfants béné...
Épisode de podcast
#39 Nathalie Lesselin (Kokoro Lingua) - L'apprentissage des langues par le cœur: Aujourd’hui on vous parle d’un projet extraordinaire : Kokoro Lingua. Nathalie Lesselin a créé cette solution en ligne qui relie l’émotionnel et l’apprentissage des langues. A l’aide de vidéos enregistrées avec des enfants anglophones, les enfants béné...
deLes Adultes de Demain
0 évaluation
0% ont trouvé ce document utile
Comment rendre ses clients heureux avec Doriane Baker: En tant qu'entrepreneur ce n'est pas quelque chose que l'on place en priorité dans notre business alors qu'au contraire, avoir des clients heureux c'est avoir un business qui roule. Très souvent, nos clients sont fidèles à nos offres et investissent dans plusieu...
Épisode de podcast
Comment rendre ses clients heureux avec Doriane Baker: En tant qu'entrepreneur ce n'est pas quelque chose que l'on place en priorité dans notre business alors qu'au contraire, avoir des clients heureux c'est avoir un business qui roule. Très souvent, nos clients sont fidèles à nos offres et investissent dans plusieu...
deBuild Yourself
0 évaluation
0% ont trouvé ce document utile
Le POUVOIR caché des ÉMOTIONS - Explications SCIENTIFIQUES avec Christophe Haag: L'être humain a des capacités prodigieuses. Par exemple, sais-tu que ton corps et tes émotions se synchronisent avec la personne avec qui tu interagis après seulement 21 millièmes de seconde ?(!) Pourtant, est-ce qu'il t'est déjà arrivé de te demander po...
Épisode de podcast
Le POUVOIR caché des ÉMOTIONS - Explications SCIENTIFIQUES avec Christophe Haag: L'être humain a des capacités prodigieuses. Par exemple, sais-tu que ton corps et tes émotions se synchronisent avec la personne avec qui tu interagis après seulement 21 millièmes de seconde ?(!) Pourtant, est-ce qu'il t'est déjà arrivé de te demander po...
deDavid Laroche le podcast
100%
100% ont trouvé ce document utile
(101) Les femmes et l'argent: Je constate que les femmes entretiennent avec l’argent une relation peu apaisée et pas très rationnelle. L’argent dans nos esprits est le reflet d’un ordre établi, l’argent est difficile, il est parfois même mauvais. On en veut...
Épisode de podcast
(101) Les femmes et l'argent: Je constate que les femmes entretiennent avec l’argent une relation peu apaisée et pas très rationnelle. L’argent dans nos esprits est le reflet d’un ordre établi, l’argent est difficile, il est parfois même mauvais. On en veut...
deFemme Ambitieuse : réussir carrière et vie personnelle
0 évaluation
0% ont trouvé ce document utile
03 - Les langages de programmation, vecteurs de la pensée informatique
Épisode de podcast
03 - Les langages de programmation, vecteurs de la pensée informatique
deAlgorithmes, machines et langages - Gérard Berry
0 évaluation
0% ont trouvé ce document utile
073 – Soigner son processus de sélection pour surperformer les marchés, avec Xavier Delmas
Épisode de podcast
073 – Soigner son processus de sélection pour surperformer les marchés, avec Xavier Delmas
deLes Investisseurs 4.0
0 évaluation
0% ont trouvé ce document utile
Episode #57 Sortir de la rat race - avec Anthony Poncet: Mon invité du jour est Anthony Poncet, qui a de multiples casquettes. Certains d’entre vous le connaissent pour son podcast “Une vie de liberté” ou “Les Gentlemen Investisseurs” qu’il co-anime avec son ami et investisseur Yann.
Épisode de podcast
Episode #57 Sortir de la rat race - avec Anthony Poncet: Mon invité du jour est Anthony Poncet, qui a de multiples casquettes. Certains d’entre vous le connaissent pour son podcast “Une vie de liberté” ou “Les Gentlemen Investisseurs” qu’il co-anime avec son ami et investisseur Yann.
deRichissime
0 évaluation
0% ont trouvé ce document utile
2. Comment créer une stratégie de communication: Dans cet épisode, je vous donne les 9 étapes clés pour vous créer une stratégie de communication puissante et alignée avec vous et votre business ! On y parle "concurrents", objectifs, client idéal, création de contenu mais aussi plateforme de marque e...
Épisode de podcast
2. Comment créer une stratégie de communication: Dans cet épisode, je vous donne les 9 étapes clés pour vous créer une stratégie de communication puissante et alignée avec vous et votre business ! On y parle "concurrents", objectifs, client idéal, création de contenu mais aussi plateforme de marque e...
dePetite Pousse - Bien-être, Business & Mindset
0 évaluation
0% ont trouvé ce document utile
Apprendre le français avec des histoires: les pouvoirs du storytelling sur le cerveau | Learn French with storytelling
Épisode de podcast
Apprendre le français avec des histoires: les pouvoirs du storytelling sur le cerveau | Learn French with storytelling
deMy Polyglot Life - En Francais
0 évaluation
0% ont trouvé ce document utile
Comprendre le monde S5#6 – Christiane Taubira – "Quelles mobilisations et quels débats ?": La mobilisation grandissante de la jeunesse sur des questions de société telles que le changement climatique, les inégalités sociales et l’ouverture aux autres... se fait désormais, de manière générale, en dehors des partis politiques, aujourd'hui dése...
Épisode de podcast
Comprendre le monde S5#6 – Christiane Taubira – "Quelles mobilisations et quels débats ?": La mobilisation grandissante de la jeunesse sur des questions de société telles que le changement climatique, les inégalités sociales et l’ouverture aux autres... se fait désormais, de manière générale, en dehors des partis politiques, aujourd'hui dése...
deComprendre le monde - par Pascal Boniface
0 évaluation
0% ont trouvé ce document utile
Le son CH en anglais. Évitez le piège de la prononciation littérale: Hello everyone. Dans cette leçon en direct sur le son CH en anglais, nous allons à nouveau déjouer ensemble un piège de prononciation littérale, c'est-à-dire : "je vois des lettres et j'ai tendance à les prononcer à la française". Vous avez...
Épisode de podcast
Le son CH en anglais. Évitez le piège de la prononciation littérale: Hello everyone. Dans cette leçon en direct sur le son CH en anglais, nous allons à nouveau déjouer ensemble un piège de prononciation littérale, c'est-à-dire : "je vois des lettres et j'ai tendance à les prononcer à la française". Vous avez...
deApprendre l'anglais avec AnglaisCours Club
0 évaluation
0% ont trouvé ce document utile
Sénégal : un podcast tech en langue Wolof (Ibrahima Diago, ingénieur podcasteur): Au Sénégal, le podcast Wolof Tech démocratise les technologies auprès des personnes éloignées des langues habituelles de l'informatique. Interview ? Ibrahima Diago, animateur du podcast Wolof Tech (https://woloftech.sn/fr_fr/) "Près de 54% de la popul...
Épisode de podcast
Sénégal : un podcast tech en langue Wolof (Ibrahima Diago, ingénieur podcasteur): Au Sénégal, le podcast Wolof Tech démocratise les technologies auprès des personnes éloignées des langues habituelles de l'informatique. Interview ? Ibrahima Diago, animateur du podcast Wolof Tech (https://woloftech.sn/fr_fr/) "Près de 54% de la popul...
deMonde Numérique (Actualité des Technologies)
0 évaluation
0% ont trouvé ce document utile
La Gestion de Projet - Partie 2: Dans ce podcast, nous revenons sur l'importance des deadlines et du suivi dans la gestion de projet et en management en général ... Nous faisons aussi une parenthèse sur la notion de budget dans la gestion de projet. Le budget est-il un...
Épisode de podcast
La Gestion de Projet - Partie 2: Dans ce podcast, nous revenons sur l'importance des deadlines et du suivi dans la gestion de projet et en management en général ... Nous faisons aussi une parenthèse sur la notion de budget dans la gestion de projet. Le budget est-il un...
deOutils du Manager
0 évaluation
0% ont trouvé ce document utile
Qu'est-ce que le libéralisme ?: Doctrine à la fois philosophique, morale et économique, le libéralisme est un des courants de pensée majeurs du monde moderne. Fondé sur la liberté incontestable de tout individu, ce courant de pensée se caractérise par la volonté de réguler la vie civ...
Épisode de podcast
Qu'est-ce que le libéralisme ?: Doctrine à la fois philosophique, morale et économique, le libéralisme est un des courants de pensée majeurs du monde moderne. Fondé sur la liberté incontestable de tout individu, ce courant de pensée se caractérise par la volonté de réguler la vie civ...
deChoses à Savoir ÉCONOMIE
100%
100% ont trouvé ce document utile
Ah la boulette
Épisode de podcast
Ah la boulette
deÉmotions (au travail)
100%
100% ont trouvé ce document utile
L'homme d'une autre dimension
Épisode de podcast
L'homme d'une autre dimension
deLES DOSSIERS DE L'ÉTRANGE
0 évaluation
0% ont trouvé ce document utile
15 • MACHIAVEL - L'art de gouverner: ?︎ Retrouvez tous les replays audios des cours de philosophie ?︎ : https://m.audiomeans.fr/s/cours-philo Nous connaissons surtout Machiavel à travers l'adjectif...
Épisode de podcast
15 • MACHIAVEL - L'art de gouverner: ?︎ Retrouvez tous les replays audios des cours de philosophie ?︎ : https://m.audiomeans.fr/s/cours-philo Nous connaissons surtout Machiavel à travers l'adjectif...
deLe Précepteur
0 évaluation
0% ont trouvé ce document utile
(120) Comparaison et dépréciation: Quelles sont les personnes auxquelles vous vous comparez ? Souvent, ce sont des personnes qui travaillent dans votre secteur d’activité, qui sont dans votre entourage amical et familial ou bien des personnes publiques. Jusque là, tout va...
Épisode de podcast
(120) Comparaison et dépréciation: Quelles sont les personnes auxquelles vous vous comparez ? Souvent, ce sont des personnes qui travaillent dans votre secteur d’activité, qui sont dans votre entourage amical et familial ou bien des personnes publiques. Jusque là, tout va...
deFemme Ambitieuse : réussir carrière et vie personnelle
0 évaluation
0% ont trouvé ce document utile
010 - Investir massivement en tant qu’intérimaire, avec Arnaud Duvivier
Épisode de podcast
010 - Investir massivement en tant qu’intérimaire, avec Arnaud Duvivier
deLes Investisseurs 4.0
0 évaluation
0% ont trouvé ce document utile
"Le numérique a un immense besoin de chefs de projets" (Olivier Lazar, PMI): Il manquerait 10 000 professionnels de la gestion de projets en France dans le secteur du numérique. L'association Project Management Institute (PMI) veut multiplier les formations certifiées dans ce secteur. Interview ? Olivier Lazar, Vice-Président...
Épisode de podcast
"Le numérique a un immense besoin de chefs de projets" (Olivier Lazar, PMI): Il manquerait 10 000 professionnels de la gestion de projets en France dans le secteur du numérique. L'association Project Management Institute (PMI) veut multiplier les formations certifiées dans ce secteur. Interview ? Olivier Lazar, Vice-Président...
deMonde Numérique (Actualité des Technologies)
0 évaluation
0% ont trouvé ce document utile
(111) Les 3 différences entre leader et manager: Si vous managez une équipe ou un business, votre objectif est d’emmener vers, de porter des idées, un projet, un produit, une vision. En somme, votre objectif est de leader. Rares sont les professionnels qui managent dans le seul but de...
Épisode de podcast
(111) Les 3 différences entre leader et manager: Si vous managez une équipe ou un business, votre objectif est d’emmener vers, de porter des idées, un projet, un produit, une vision. En somme, votre objectif est de leader. Rares sont les professionnels qui managent dans le seul but de...
deFemme Ambitieuse : réussir carrière et vie personnelle
100%
100% ont trouvé ce document utile
Pourquoi je n'arrive pas à comprendre les natifs ?: Hello everyone. Dans cette leçon, Alban explique les raisons pour lesquelles il peut être difficile de comprendre un anglophone, même si vous pensez avoir un bon niveau d'anglais. Il nous donne ensuite quelques conseils très utiles pour surmonter...
Épisode de podcast
Pourquoi je n'arrive pas à comprendre les natifs ?: Hello everyone. Dans cette leçon, Alban explique les raisons pour lesquelles il peut être difficile de comprendre un anglophone, même si vous pensez avoir un bon niveau d'anglais. Il nous donne ensuite quelques conseils très utiles pour surmonter...
deApprendre l'anglais avec AnglaisCours Club
100%
100% ont trouvé ce document utile
LCC 253 - Interview GraphQL avec Stan Chollet et Jean-François James - partie 2: Stan Chollet et Jean-François James discutent avec Emmanuel de GraphQL. Cette seconde partie explique GraphQL concrètement pour le développeur, les différents moteurs et clients et le futur de GraphQL. Enregistré le 25...
Épisode de podcast
LCC 253 - Interview GraphQL avec Stan Chollet et Jean-François James - partie 2: Stan Chollet et Jean-François James discutent avec Emmanuel de GraphQL. Cette seconde partie explique GraphQL concrètement pour le développeur, les différents moteurs et clients et le futur de GraphQL. Enregistré le 25...
deLes Cast Codeurs Podcast
0 évaluation
0% ont trouvé ce document utile

Articles associés

Ignorer le carrousel

Comprendre L’intelligence Artificielle
Micro Pratique
Article
Comprendre L’intelligence Artificielle
9 juil. 2021
Lecture de 5 min
L’école À Distance
Le français dans le monde
Article
L’école À Distance
9 nov. 2018
Lecture de 4 min
L’homme Est-il Fait Pour Travailler?
L'Express
Article
L’homme Est-il Fait Pour Travailler?
21 oct. 2020
PAR JAMES SUZMAN. BLOOMSBURY, 464 P., 17,50 €. Pourquoi l’homme travaille-t-il? La question peut sembler absurde, tant le travail est au centre de nos sociétés. Les économistes le définissent comme le temps et l’effort que nous dépensons pour satisfa
Lecture de 2 min
Game Over Pour Les Traders ?
Science & Vie
Article
Game Over Pour Les Traders ?
15 déc. 2021
Lecture de 3 min
Quand L’apprenant Devient Enseignant
Le français dans le monde
Article
Quand L’apprenant Devient Enseignant
9 nov. 2018
Lecture de 4 min
L’enseignement À Distance, Ça Marche Vraiment ?
Science & Vie
Article
L’enseignement À Distance, Ça Marche Vraiment ?
26 août 2020
Calme et studieux, papier et crayon en main, Johann, 8 ans, regarde la télévision. Il est 10 h, France 4 diffuse un cours de mathématiques pour les CE1. Sur le petit écran, une maîtresse explique les notions de double et de moitié. Un tableau interac
Lecture de 6 min
« Montrer Que La Francophonie Est Partout »
Le français dans le monde
Article
« Montrer Que La Francophonie Est Partout »
12 mars 2019
« L’aventure Destination Francophonie a commencé en mars 2012 et avec elle j’ai voulu montrer que la francophonie est tout l’inverse du repli sur soi, comme le montre malheureusement l’actualité du monde d’aujourd’hui. Qu’elle est génératrice de lien
Lecture de 3 min
« La Sexualité Est Une Marchandise »
Le Journal du dimanche
Article
« La Sexualité Est Une Marchandise »
9 févr. 2020
Lecture de 6 min
Faut-il Généraliser Le Télétravail ?
Science & Vie
Article
Faut-il Généraliser Le Télétravail ?
26 janv. 2022
Lecture de 2 min
Management : Les Méthodes Qui Marchent
L'Express
Article
Management : Les Méthodes Qui Marchent
23 mars 2023
Lecture de 2 min
Les Nouveautés Les Plus Insolites D’Excel 2019!
Micro Pratique
Article
Les Nouveautés Les Plus Insolites D’Excel 2019!
10 juin 2020
Excel 2019, dernière version en date, est arrivée avec son lot de nouveautés. Pas de grand chamboulement ou d’apparition de fonctionnalité majeure à l’horizon, mais des améliorations et des ajouts mineurs par-ci par-là. Il vous suffit de mettre à niv
Lecture de 3 min
Maîtrisez L’insertion De Tableaux Dans Word
Micro Pratique
Article
Maîtrisez L’insertion De Tableaux Dans Word
12 nov. 2021
Avant de commencer, nous allons passer quelques instants à présenter le vocabulaire spécialisé des tableaux. Commençons par le commencement: un tableau est composé de lignes et de colonnes. La zone rectangulaire située à l’intersection d’une ligne et
Lecture de 4 min
Intra-news / Lectures
Intramuros
Article
Intra-news / Lectures
20 mai 2020
Publié par : éditions B42 et Fork Éditions Design graphique : E + K – Élise Gay et Kévin Donnot Langues : français / anglais Nombre de pages : 144 Format : 19,5 x 28 cm Prix public : 20 € Prix version numérique : 5 € ISBN : 978-2-490077-12-0 Bérénice
Lecture de 2 min
Gérez Votre Bureau Virtuel Avec La Suite OnlyOffice
Micro Pratique
Article
Gérez Votre Bureau Virtuel Avec La Suite OnlyOffice
11 déc. 2020
Lecture de 3 min
Créer Une Lut À Partir De Photoshop
Science&Vie PHOTO
Article
Créer Une Lut À Partir De Photoshop
10 sept. 2020
Lecture de 1 min
Arduino Des Animations Lumineuses Avec Locoduino
Loco-Revue
Article
Arduino Des Animations Lumineuses Avec Locoduino
22 oct. 2021
Lecture de 4 min
LÀ SOLUTION RAILY Dessiner Son Réseau À L'ordinateur
Loco-Revue
Article
LÀ SOLUTION RAILY Dessiner Son Réseau À L'ordinateur
27 janv. 2023
Vous retrouverez le réseau qui sert d'illustration à cet article dans notre Projet du mois! L'interface de Raily se compose de quatre grandes zones (figure 1). La première zone, en haut, regroupe les menus et les icônes, ces dernières étant en réalit
Lecture de 5 min
Beekast Pour Suivre Vos Réunions Et Formations
Micro Pratique
Article
Beekast Pour Suivre Vos Réunions Et Formations
10 sept. 2021
Lecture de 4 min
Les Importations Et Exportations Améliorées The Document Foundation • LibreOffice 7
Micro Pratique
Article
Les Importations Et Exportations Améliorées The Document Foundation • LibreOffice 7
9 avr. 2021
Lecture de 3 min
Faire Du Publipostage Avec Word
Micro Pratique
Article
Faire Du Publipostage Avec Word
11 mars 2021
Lecture de 3 min
Bâtir Des Activités: Le Temps Du Numérique
Le français dans le monde
Article
Bâtir Des Activités: Le Temps Du Numérique
12 juil. 2021
Lecture de 4 min

Catégories liées

Ignorer le carrousel

Avis sur Analyse des données textuelles

Évaluation : 0 sur 5 étoiles

0 évaluation

0 notation0 avis

Aperçu du livre

Analyse des données textuelles - Ludovic Lebart

INTRODUCTION

L’analyse des données textuelles (ADT) exposée dans ce livre se situe à l’intersection de plusieurs disciplines : la linguistique, l’analyse du discours, la statistique, l’informatique, le traitement des enquêtes socio-économiques, la psychosociologie et le marketing, pour ne citer que les principales. La démarche s’appuie à la fois sur les travaux d’un courant aux dénominations changeantes (statistique lexicale, statistique linguistique, linguistique quantitative, lexicométrie), qui associe depuis plus d’un demi-siècle la méthode statistique à l’étude des textes, et sur des domaines de la statistique : la statistique multidimensionnelle, l’analyse des données, la théorie de l’apprentissage, la fouille de données et de textes (data mining, text mining).

Les humanités numériques sont une des priorités actuelles de la recherche¹. S’agissant d’intégrer les possibilités du numérique à la recherche scientifique, le traitement des données textuelles est un enjeu majeur pour les sciences humaines et sociales. L’approche ADT présentée ici répond à ces attentes. Elle propose de nouveaux moyens d’observation des corpus textuels en plaçant le texte au centre du dispositif. Elle combine non seulement les possibilités exploratoires et inférentielles des traitements quantitatifs de grands volumes d’archives, mais aussi la proximité au texte et la souplesse des traitements qualitatifs.

Souvent, pour la discipline connue sous le nom de fouille de textes (text mining), les textes ne sont pas un objet d’intérêt en soi, mais des supports d’information dont il s’agit de dégager le contenu sémantique. Ce point de vue répond à des demandes spécifiques (dispositifs de veille industrielle ou stratégique, synthèse d’informations en entreprise), mais s’éloigne de la conception du texte dans les sciences humaines et sociales, qui le considèrent comme une référence et le placent au cœur de l’analyse.

***

La phase d’exploration de la statistique que nous présentons est l’étape préliminaire de toute connaissance scientifique. Par les inductions qu’elle permet, les hypothèses qu’elle suggère, l’exploration précède l’expérimentation (lorsque celle-ci est possible) et peut conduire à une modélisation adaptée, non dogmatique.

Or la diversité des produits logiciels disponibles et l’accessibilité des outils, conjuguées à la fragmentation des disciplines conduisent parfois à des utilisations intempestives ou peu pertinentes. C’est pourquoi les auteurs de ce livre ont cru indispensable d’insister sur les principes théoriques des principales méthodes d’exploration et de rendre transparente la chaîne « théorie – méthode – programme – application – interprétation ».

L’outil informatique est universellement utilisé pour des tâches qui impliquent le recueil automatique ou la saisie et le traitement de grands ensembles de textes. Cette diffusion renforce à son tour la demande d’outils d’analyse des textes qui émane des praticiens et des chercheurs. Confrontés à des textes nombreux, recueillis dans des enquêtes socio-économiques, des entretiens, des investigations littéraires, des archives historiques ou des bases documentaires, ou encore à des sous-produits d’activités transactionnelles dans un cadre de fichiers très volumineux (Big Data), les chercheurs attendent en effet une aide en matière de classement, de description, de comparaisons…

Le choix d’une stratégie de recherche ne peut être opéré qu’en fonction d’objectifs clairement explicités ex ante. Quel type de texte(s) analyse-t-on ? Pour tenter de répondre à quelles questions ? Désire-ton étudier le vocabulaire d’un texte en vue d’en faire un commentaire stylistique ? Cherche-t-on à découvrir et identifier des contenus à travers les réponses à un questionnaire ? S’agit-il de mettre en évidence les motivations pour l’achat d’un produit à partir d’opinions exprimées dans des entrevues ? Souhaite-t-on dresser un panorama de corpus politiques échelonnés dans le temps ? Bien entendu, aucune méthode d’analyse figée une fois pour toutes ne saurait répondre entièrement à des questions aussi diversifiées.

Il nous est cependant apparu que, dans un grand nombre d’analyses textuelles, un même ensemble de méthodes apportait un éclairage irremplaçable pour avancer vers la solution des problèmes évoqués.

Les ouvrages Analyse statistique des données textuelles (Lebart et Salem, 1988) et Statistique textuelle (Lebart et Salem, 1994) concernaient d’abord l’analyse exploratoire des réponses aux questions ouvertes dans les enquêtes et ensuite les analyses exploratoires de corpus de textes plus généraux. Depuis ces dates, parallèlement à l’expansion des domaines d’application faisant intervenir des textes, la science statistique a elle-même connu de nouveaux développements, souvent liés aux possibilités de calcul (comme les méthodes de validation par rééchantillonnage, les cartes auto-organisées). De nouveaux langages informatiques libres, s’appuyant sur les langages de base classiques, forment de nouvelles strates plus proches de l’utilisateur et du technicien et facilitent l’implémentation de méthodes statistiques (le langage R) ou la manipulation de chaînes de caractères ou de textes (le langage Python). Il fallait donc prendre en compte ces évolutions, ces outils ainsi que les travaux réalisés depuis la parution des ouvrages précités.

***

Le premier chapitre, L’analyse statistique des données textuelles : champs et objets d’étude, évoque à la fois les disciplines concernées (linguistique de corpus, traitement automatique des langues, statistique, fouille de textes [text mining], théorie de l’apprentissage…), les problèmes rencontrés et les approches possibles. Il précise la nature du matériau de base qui peut être composé de textes rassemblés en corpus, de réponses à une question ouverte, d’entrevues, de courriels, de messages brefs…

Le second chapitre, Les unités d’analyse et les observations, est consacré à l’étude des unités statistiques que les procédures devront découper, reconnaître ou construire (formes, lemmes, segments répétés, locutions). Il aborde les propriétés de ces unités et les aspects fondamentaux de l’approche quantitative des textes et précise leur pertinence respective en fonction des champs d’application.

Le troisième chapitre, Les unités en contexte, est consacré à la phase de retour au texte, avec son enrichissement par les outils que sont, entre autres, les concordances et les mesures de cooccurrences. La chaîne textuelle ne peut en effet être réduite à une succession d’unités n’ayant aucun lien les unes avec les autres, car beaucoup des effets de sens du texte résultent justement de la disposition relative des mots, de leurs juxtapositions ou de leurs cooccurrences éventuelles.

Le quatrième chapitre, Exploration, visualisation, validation et inférence : les principes de base, plus mathématique que les précédents, présente les fondements des instruments de visualisation et de validation qui seront modulés et diversifiés dans la suite de l’ouvrage.

Le cinquième chapitre, L’analyse en composantes principales, introduit la méthode d’analyse descriptive multidimensionnelle utilisée dans les domaines les plus divers et probablement la plus populaire. Adaptée aux mesures de différentes natures et échelles, plutôt qu’aux comptages (fréquences), elle est assez largement utilisée pour traiter des recueils textuels, notamment dans la littérature internationale.

Le sixième chapitre, L’analyse des correspondances, présente les techniques de base de la méthode de description des tableaux binaires et des tables de contingence qui nous semble la plus adaptée aux tableaux de fréquences lexicales ou tableaux termes × documents.

Le septième chapitre, La classification des mots et des textes, est consacré aux techniques de classification dites « non supervisées » (clustering). Regrouper des objets similaires est une activité cognitive structurante qui s’exerce depuis les classes de maternelle jusqu’aux laboratoires les plus spécialisés. On sélectionne dans cette flore de méthodes celles qui paraissent les plus performantes, les plus lisibles et les plus transparentes pour le domaine complexe des textes.

Pour compléter ces visualisations et représentations synthétiques variées, le huitième chapitre, Les stratégies d’analyse et la complémentarité entre analyse factorielle et classification, applique les outils présentés aux chapitres précédents à la description des associations entre mots et entre textes. Il fournit des exemples d’application en vraie grandeur, commentés du point de vue de la méthode statistique. Il illustre les règles de lecture et d’interprétation des résultats obtenus et fait le point sur la portée méthodologique des outils en insistant sur la synergie résultant de leur utilisation simultanée.

Enfin le neuvième chapitre, L’articulation entre les analyses exploratoires et confirmatoires, situe les méthodes et les problèmes de la statistique exploratoire dans le cadre général des outils statistiques plus décisionnels. Les liens avec la démarche exploratoire sont à la fois techniques et pragmatiques, qu’il s’agisse des méthodes de la stylométrie, qui s’attachent à la forme des textes, ou des méthodes de discrimination textuelle et des outils de reconnaissance de thèmes (Topic Modeling), qui traitent du contenu des textes. Plusieurs exemples mettent en évidence la complémentarité des approches, déjà lisible dès l’examen de leurs substrats théoriques. Dans un domaine fondamentalement interdisciplinaire, ces exemples montrent que les instruments de visualisation fournissent le cadre critique qui permet une utilisation lucide des outils plus décisionnels.

Le cheminement méthodologique auquel nous invitons le lecteur verra ses étapes illustrées par des corpus de textes provenant de sphères de recherche très différentes. Les résultats présentés à ces occasions concernent des textes littéraires, des corpus de réponses libres dans des enquêtes françaises et internationales, et des discours politiques. Le parti a été pris ici de ne pas présenter une prise en charge fine des structures internes des textes (philologie numérique) pour se concentrer sur les résultats que l’on peut obtenir avec les représentations les plus communes des textes.

L’ensemble des exemples devrait permettre au lecteur d’apprécier la variété des applications réalisées et potentielles ainsi que la complémentarité des divers traitements, et ce, tout en progressant d’une part, dans l’assimilation et la maîtrise des méthodes, et d’autre part, dans la capacité à évaluer et critiquer les résultats.

Pourquoi des illustrations par Python et R ?

Cet ouvrage n’est pas un manuel d’utilisation lié à un logiciel ou à un environnement particulier, mais une ouverture sur le pourquoi et le comment des traitements statistiques en analyse de texte. Il est destiné aux utilisateurs qui n’apprécient pas de n’utiliser que des boîtes noires, qui veulent savoir comment tout cela fonctionne.

Si les langages Fortran et C ont joué un rôle moteur et fondamental pendant les premières décennies des analyses de texte sur ordinateur, ils sont maintenant accompagnés d’outils plus proches de la pensée. Afin d’illustrer à la fois les démarches et les formules mathématiques, nous avons choisi, parmi ces outils, Python pour la gestion et la préparation des textes, et R pour les traitements statistiques.

Il ne s’agit certes que d’illustrations, mais les quelques lignes de code élémentaire et commenté que nous publions permettent quand même, par exemple, de calculer une table lexicale (mots × textes) à partir d’une série de textes sans limites de taille, puis de décrire cette table par analyse des correspondances (graphiques inclus), avec tracé de l’arbre de longueur minimale. Le moteur théorique est donc mis à nu pour inspection, analyse et vérification.

Dans les annexes Python des chapitres 2 et 3, comme dans les annexes R des chapitres 4 à 7, il n’est fait appel à aucun logiciel spécialisé, et pourtant le lecteur curieux peut déjà procéder à de vraies analyses avec visualisation. Il peut savoir que ces calculs sont à portée de main et y lire une matérialisation rigoureuse des formules mathématiques utilisées. Il ne s’agit donc pas simplement de formation professionnelle d’utilisateurs, mais bien d’un effort d’interdisciplinarité et de pédagogie, voire de démystification et d’épistémologie.

Ceci ne concurrence en aucune façon, au niveau du confort d’utilisation et de la richesse des options offertes, les logiciels dont une sélection est décrite dans l’annexe sur les logiciels d’analyse des données textuelles. Pour le travail de tous les jours, les utilisateurs et développeurs peuvent en effet avoir intérêt à utiliser des modules existants et ouverts, ou à tout le moins diffusés gratuitement, développés et maintenus par des collègues spécialistes ou par des communautés expertes et dynamiques.

En fin de volume, précédant l’annexe sur les logiciels précitée, l’annexe Corpus décrit les recueils de textes et de données numériques utilisés au cours des différents chapitres. Ceux-ci sont librement téléchargeables, comme les codes Python et R figurant en annexe des chapitres et les logiciels à diffusion libre mentionnés dans l’annexe sur les logiciels d’analyse des données textuelles.

1. Citons par exemple, en France, la TGIR (Très Grande Infrastructure de Recherche) Huma-Num ; au Canada, le Centre de recherche interuniversitaire sur les humanités numériques, basé à Montréal ; et, sur le plan international, l’ampleur et la vitalité de l’Alliance of Digital Humanities Organizations (ADHO), coordonnant la conférence DH et plusieurs revues scientifiques majeures du domaine.

CHAPITRE 1

L’analyse statistique des données textuelles

Champs et objets d’étude

Avec le tournant du numérique et le développement du Web, notre rapport au texte et aux données textuelles s’est trouvé bousculé, transformant les pratiques et les modèles traditionnels. L’ensemble des domaines prenant le texte pour objet a dû s’ajuster et évoluer, tandis que les approches informatiques et statistiques du texte ont aujourd’hui plus que jamais un rôle à jouer pour assurer le lien entre l’humain et les « masses de données ».

Confronté à une pléthore de méthodes, de programmes et de logiciels, le chercheur qui souhaite analyser un ensemble de données textuelles est souvent un peu désorienté: quelle méthode, quel outil choisir parmi des offres qui sont souvent concurrentes ? Quelles sont les méthodes complémentaires ? Comment les articuler ?

Parmi les méthodes disponibles pour analyser un ensemble de données textuelles, la statistique exploratoire multidimensionnelle, qui est au cœur de cet ouvrage, a donné lieu à de nombreuses implémentations et applications dans des cadres de recherche variés.

C’est dans le champ de l’analyse des données textuelles qu’ont été conçues et que se sont développées les méthodes et les parcours méthodologiques décrits au fil des chapitres qui vont suivre. Le présent chapitre entend ainsi proposer un aperçu de ce champ de recherche en restituant son histoire, ses principes et ses relations avec d’autres disciplines.

1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT)

Le champ de l’analyse statistique des données textuelles est un champ méthodologique actif et innovant en Europe et à l’international¹, qui a trouvé un équilibre fait de dialogue et d’interdisciplinarité impliquant statisticiens, linguistes, informaticiens et chercheurs du texte dans les sciences humaines et sociales. Nous dresserons un panorama du champ en deux temps : après avoir balisé le temps des origines, marqué par les développements complémentaires de la statistique lexicale et de l’analyse multidimensionnelle, nous tenterons de synthétiser les grandes lignes de la démarche ADT.

1.1 La statistique lexicale et l’analyse multidimensionnelle lexicale

Les approches quantitatives de la langue existent de longue date et pour les langues les plus diverses. Dans la seconde moitié du XIXe siècle, les pionniers de comptages et calculs de fréquence en linguistique sont des psycholinguistes (Levelt, 2014), ce qui n’est peut-être pas étonnant, la psychologie étant, si l’on excepte l’économie, la branche des sciences humaines la plus précoce en matière d’efforts de quantification. Ce sont les fréquences de phonèmes qui sont recensées dans un premier temps (Förstemann, 1846 ; Bourdon, 1892). Toutefois, comme le souligne Levelt (2014), Bourdon est sans doute le premier à parler des distributions de fréquence, de diphones (digrammes de phonèmes) et des rôles des flexions et des mots grammaticaux dans le contexte d’une approche libre et moderne, qui annonce à la fois Saussure et la statistique lexicale². Puis le début du XXe siècle est marqué par des travaux qui font encore référence aux distributions lexicales (Estoup, 1916 ; Zipf, 1935). Le champ de l’ADT à proprement parler ne s’est constitué que dans les années 1960 (Brunet, 2016, chapitre 21), à la croisée de deux courants de recherche complémentaires : la statistique lexicale et l’analyse multidimensionnelle lexicale.

La statistique lexicale s’est illustrée notamment à travers les travaux de Yule (1944), Busa (1951), Guiraud (1954, 1960), Gougenheim et l’équipe du CREDIF (Gougenheim et al., 1956), Évrard et l’équipe du LASLA (Delatte et al., 1962), Muller (1964, 1967, 1968), Tournier (1967, 1975) et l’équipe du laboratoire de l’École normale supérieure (ENS) de Saint-Cloud. Elle a développé un ensemble de mesures et de méthodes visant à décrire et caractériser le vocabulaire d’un texte ou d’un ensemble de textes et, précurseure des humanités numériques, elle a accompagné le tournant de l’analyse lexicale vers une utilisation des ordinateurs pour les traitements statistiques de données textuelles. Ses études ont notamment permis de décrire le corpus de grands auteurs de la littérature française, en s’appuyant sur les premières données de ce qui deviendra le Trésor de la langue française, puis Frantext. Le discours politique a également été l’un des domaines d’application privilégiés de la statistique lexicale et de l’analyse du sens particulier que revêtent les mots en lien avec les idéologies (Tournier, 2010).

Selon une approche probabiliste du texte, celui-ci est vu comme un « sac de mots », le produit d’un tirage avec ou sans remise dans une urne et les notions d’« échantillonnage » et d’« écarts à la moyenne » sont fondamentales. On s’interroge ainsi sur les modalités de prélèvement d’un échantillon d’un texte ou d’un corpus et sur la valeur d’échantillon d’un ensemble textuel pour décrire normes et usages. Dans la mesure où rares sont les corpus véritablement exhaustifs d’un usage discursif ou d’un locuteur donné, on est dans tous les cas amené à se poser la question de la représentativité de tout corpus et de tout jeu de données pour être en mesure de généraliser les interprétations découlant de l’observation des données étudiées (voir 1.3 infra).

La question est d’autant plus cruciale que dans une telle démarche empirique, le corpus fait figure de norme : un corpus mal construit ou peu représentatif expose l’analyste à des interprétations limitées, et dans tous les cas non généralisables. En revanche, les textes ou les ensembles textuels que contient un corpus rigoureusement constitué peuvent être comparés de manière fructueuse les uns aux autres : par exemple, qu’est-ce qui caractérise le Père Goriot par rapport à l’ensemble des romans de la Comédie humaine de Balzac ? Ou plus largement, quelles sont les spécificités des romans de Balzac par rapport à l’ensemble des romans du XIXe siècle ? Ou encore, quelles sont celles des discours de Jacques Chirac dans le corpus des présidents de la Ve République ? Soulignons que l’approche est nécessairement contrastive puisqu’une fréquence n’a pas de valeur absolue et ne peut donc être interprétée que par comparaison. Partitionner un corpus (le diviser en parties) permet ainsi d’analyser les fréquences observées.

En ce sens, les chercheurs ont développé des mesures permettant d’estimer les variations de vocabulaire d’un texte à un autre, la richesse lexicale des textes les uns par rapport aux autres indépendamment de leur étendue, ou encore d’apprécier l’évolution des discours en diachronie avec des indicateurs comme l’accroissement lexical (Brunet, 1988, 2009, 2016) ou les spécificités chronologiques (Salem, 1988, 1991).

Le champ de l’ADT s’est également édifié sur les travaux de l’analyse multidimensionnelle lexicale, qui a connu d’importants développements en France. Sous l’impulsion de Benzécri (1977a) et de Benzécri et al. (1973, 1981), un ensemble de méthodes dédiées au traitement statistique des tableaux de données a été développé. Les méthodes d’analyse en axes principaux (ou méthodes factorielles) et les méthodes de classification, qui font l’objet des chapitres 4 à 7 du présent ouvrage, ont été au cœur des recherches de ce courant. Si certaines de ces méthodes remontent elles-mêmes au début du siècle, elles avaient surtout été appliquées à la psychologie (tests d’intelligence ou de mémoire, détermination de facteurs cachés, etc.). Il s’agissait alors de l’analyse factorielle classique (factor analysis), fondée par Spearman (1904) et perfectionnée par Thurstone (1947), qui se proposait déjà d’aller au-delà des apparences en faisant émerger des variables échappant à l’observation directe. De même, l’Analyse en Composantes Principales (ACP, voir chapitre 5) de Hotelling (1933) se rapproche des travaux de Karl Pearson (1901).

Benzécri est semble-t-il le premier à appliquer les méthodes multidimensionnelles aux données linguistiques (Benzécri et al., 1973, 1981) après avoir notamment dirigé la thèse d’Escofier-Cordier (1965), proposant une méthode d’analyse inductive des données linguistiques à l’opposé de la conception chomskyenne qui prévalait à l’époque (Benzécri et al., 1981, p. 4) :

Nous proposons une méthode portant sur les problèmes fondamentaux qui intéressent un linguiste. Et cette méthode […] effectuera une abstraction quantitative, en ce sens que partant de tableaux de données les plus divers, elle construira, par le calcul, des quantités qui pourraient mesurer des entités nouvelles, situées à un niveau d’abstraction supérieur à celui des faits recensés d’abord.

La statistique lexicale et l’analyse multidimensionnelle ont ainsi uni leurs efforts et articulé leurs méthodes en parcours complémentaires d’exploration des données textuelles.

L’ADT est marquée par l’interdisciplinarité et la diversité des données textuelles. On peut néanmoins distinguer deux grandes familles d’application, qui fondent leurs développements sur des données textuelles de nature différente : les textes et corpus (écrits ou oraux) d’une part, et d’autre part, les textes nombreux comportant un important volume de métadonnées comme les réponses aux questions ouvertes (section 3).

On pourrait peut-être dire, même si cette affirmation est certainement trop tranchée par rapport aux usages que l’on observe, que les textes et les corpus sont plutôt l’objet de la textométrie, qui prolonge la lexicométrie en investissant le texte dans toutes ses dimensions. Par rapport à la lexicométrie, qui conçoit le texte comme un ensemble de mots, la textométrie tient compte du tissu textuel, explorant tant la linéarité des unités ou des séquences qui le constituent que la diversité des informations linguistiques et les résonnances fréquentielles ou cooccurrentielles des unités au fil du texte.

Par ailleurs, les recueils automatiques de messages courts, les questions ouvertes et les données d’enquêtes se prêtent particulièrement bien aux statistiques multidimensionnelles lexicales, qui font plus particulièrement l’objet des chapitres 4 à 9 de l’ouvrage.

Sous-tendu par ces deux orientations qui en dessinent les contours, le champ de l’ADT reste unifié par un fond méthodologique et des principes communs, dont nous tâchons de restituer quelques éléments dans la section suivante.

1.2 La démarche et les parcours méthodologiques

Figure 1.1

Démarche ADT

1.2.1 Une démarche raisonnée

Toute analyse statistique requiert ainsi un problème dûment posé, et c’est pour répondre à une question de recherche que le chercheur interroge ses données. Le problème (1) peut être ciblé (observe-t-on des différences significatives entre les hommes et les femmes dans les mots qu’ils jugent les plus agréables ?) ou au contraire plus large et plus exploratoire (quels sont les textes ou les mots qui s’opposent le plus dans mon corpus ?). Il est important de garder à l’esprit que quelle que soit la pertinence de l’hypothèse considérée, le traitement produira des résultats. L’hypothèse doit donc être rigoureusement pensée en amont si l’on souhaite pouvoir interpréter les résultats de manière pertinente.

Dans les deux cas, on suppose un rapport particulier de l’analyste aux données textuelles (2) exploitées. Qu’elles se présentent sous la forme de corpus textuels ou de données d’enquêtes (questions ouvertes), on part du principe que le chercheur a une certaine connaissance de ses données, soit parce qu’il a constitué son corpus ou en connaît les principes de constitution, soit parce qu’il a réalisé et mis en œuvre son enquête ou en connaît le protocole et la problématique. Le chercheur est ainsi censé connaître les données qu’il interroge, ce qui lui permet d’élaborer des hypothèses pertinentes et d’interpréter les résultats obtenus. Ainsi l’ADT est moins compatible avec une démarche de découverte et d’exploration de données totalement inconnues, qu’avec un objectif de lecture sous un autre angle de données déjà familières.

Une fois le problème posé et les données textuelles établies, se pose la question du choix des méthodes appliquées (3), impliquant également une connaissance éclairée des mesures et des outils exploités (Chartier et Meunier, 2011 ; Meunier, 2017). Cependant, une méthode mal appliquée, ou qui serait peu pertinente étant donnés les objectifs de l’analyste, fournira quand même des résultats. Et nous connaissons tous la propension naturelle de l’être humain à interpréter et à voir du sens dans tout rapprochement ou dans toute opposition de deux objets, quelle que soit la méthode adoptée. Cette idée de « connaissance éclairée » ne renvoie pas seulement à une connaissance mathématique de la méthode, de sa formule ou de son implémentation³. Il s’agit aussi d’une connaissance d’utilisateur éclairé, permettant de répondre aux questions suivantes:

Que permet la méthode que je mobilise ? Quel est son principe général ?

Quelles sont les données qu’elle nécessite en entrée ?

Quels sont les résultats qu’elle fournit et qu’est-ce que je peux en dire ?

En dernier lieu, la finalité d’une analyse statistique demeure naturellement l’interprétation (4). Il s’agit de répondre aux questions posées au départ : quelles sont les oppositions linguistiques les plus significatives du corpus, et quels sont les textes les plus proches ou les plus éloignés ? Quelles sont les caractéristiques du corpus et les spécificités des sous-ensembles qui le constituent ? Réglée par l’interprétation, la démarche ADT est cyclique, comme le montre la figure 1.1. Elle se construit par le biais d’allers-retours incessants de l’anticipation de la structure à l’explication d’un détail.

1.2.2. Des jalons méthodologiques

Afin d’avoir une vue d’ensemble et de se repérer dans les différentes méthodes qui vont être successivement présentées dans les chapitres de notre ouvrage, nous prendrons pour point de départ la représentation synthétique qui suit (figure 1.2).

Une fois les données textuelles définies (corpus ou questionnaires, voir section 3 du présent chapitre) se pose la question du choix des unités d’analyse et des observables sur lesquels seront appliquées les méthodes. Cette question sera développée au fil du chapitre 2.

Nous avons vu que notre démarche est sous-tendue par une finalité interprétative et une attention particulière aux textes. Dans cet esprit, le retour au (con)texte est déterminant et balise régulièrement les interprétations. Les méthodes d’exploration des unités en contexte seront présentées au chapitre 3.

Les méthodes multidimensionnelles sont au cœur de ce livre : le chapitre 4 pose les grands principes de ces méthodes d’exploration, de visualisation et d’inférence. Les chapitres suivants se concentrent sur les méthodes les plus exploitées par les acteurs du champ : les méthodes factorielles (ou analyses en axes principaux) sont d’abord exposées, de l’analyse en composantes principales (chapitre 5) dédiée au traitement des tableaux de mesures numériques, à l’analyse des correspondances (chapitre 6) consacrée aux tableaux de fréquences. Le chapitre 7 propose ensuite un panorama synoptique des méthodes de classification, de la classification hiérarchique aux arbres additifs et aux cartes auto-organisées.

Figure 1.2

Statistique exploratoire pour les textes : une vue synoptique

Il ne s’agit pas seulement de bien comprendre le détail de chaque méthode : il faut également savoir les combiner et les articuler suivant son objectif de recherche et la nature des données textuelles considérées. Ainsi, on privilégie des méthodes différentes si l’on dispose d’un petit nombre de gros textes (des romans par exemple), ou d’un grand nombre de textes courts (par exemple des avis d’internautes, des réponses succinctes à une question ouverte). Les méthodes factorielles et de classification nécessitent un nombre suffisant d’éléments (typiquement des textes), ne serait-ce que pour qu’on puisse conférer un sens aux regroupements. De son côté, la concordance est plus limitée pour l’examen de listes de mots que pour des textes rédigés. Enfin, si l’on dispose d’informations externes sur les textes, on pourra les exploiter pour regrouper ceux-ci ou les utiliser à titre illustratif dans une analyse factorielle, par exemple. C’est là l’objet du chapitre 8, qui propose des stratégies d’analyse concrètes en insistant sur la complémentarité entre visualisations par axes principaux et classifications.

Enfin les décisions que l’on peut prendre à partir de textes (attributions d’auteurs, pouvoir prédictif de réponses à des questions ouvertes, affectations d’un document à un thème), qui échappent au domaine de l’exploration pure (thème central de l’ouvrage), sont abordées au chapitre 9, L’articulation entre les analyses exploratoires et confirmatoires, précisément dans leur lien, leur interaction et leur validation par les outils d’exploration et de visualisation de données.

2. LES DISCIPLINES VOISINES

Du fait de sa position particulière de champ de recherche méthodologique, l’ADT s’est construite dans le dialogue interdisciplinaire : des chercheurs d’horizons multiples mobilisent ses méthodes pour explorer des ensembles de données textuelles qui peuvent être très variés. Le champ s’est ainsi structuré au gré des interactions et des coopérations, favorisant des parcours méthodologiques et des mesures spécifiques, se nourrissant en retour des recherches sur les objets investigués.

Ainsi en va-t-il des recherches sur le(s) discours et de la connivence que l’ADT entretient depuis ses origines avec l’analyse du discours ou la stylistique, mais également des recherches menées dans les domaines du texte et de la textualité, de la linguistique textuelle (Adam, 2015) ou de la sémantique des textes (Rastier, 2001, 2011), qui développent au plan théorique des affinités fortes avec la démarche textométrique (voir par exemple Pincemin, 2012a). Ces disciplines dialoguent régulièrement avec l’ADT, mobilisant ses méthodes pour analyser et dégager des régularités linguistiques et des typologies textuelles qu’elles interprètent ensuite suivant leurs objectifs descriptifs et leurs grilles d’analyse propres. Plus récemment, on peut reconnaître dans la lecture à distance (distant reading) de Moretti (2013) une forme d’expérimentation dans le domaine littéraire de propositions et d’outils de l’ADT.

Outre ces échanges, l’ADT est amenée à se positionner par rapport à des domaines et à des disciplines connexes qui partagent son intérêt pour l’exploration des données textuelles et le traitement statistique des textes. Il en va ainsi de la linguistique de corpus, du traitement automatique des langues, de la fouille de textes (text mining) et de l’analyse qualitative. C’est sur ces quatre domaines méthodologiques et applicatifs que se concentre la présente section : nous en exposerons les grands principes et tenterons de restituer les rapports qu’elles entretiennent avec l’ADT.

2.1. La linguistique de corpus

2.1.1. Les objectifs

La linguistique de corpus est un courant qui vise à décrire la diversité des usages langagiers au moyen de corpus. Encourageant les études empiriques de la variation et des usages langagiers et le recours aux données authentiques et attestées, la linguistique de corpus se revendique d’être une discipline expérimentale et outillée.

Suivant l’orientation plus déductive ou plus inductive qu’empruntent les analystes, on distingue classiquement deux types d’approches : les approches plus déductives sur corpus (corpus-based), dans lesquelles le corpus est mobilisé pour éprouver la validité d’une construction linguistique posée au départ ; et les approches inductives (corpus-driven), dans lesquelles les constructions linguistiques récurrentes sont induites du corpus (Tognini-Bonelli, 2001).

Les premières approches, qui se concentrent essentiellement sur la question des attirances entre les mots, qu’on appelle aussi collocations (voir section 3.2 du chapitre 2 pour plus de détails), sont de loin les plus répandues dans le champ. Elles ont permis de mettre au jour d’intéressants écarts entre les règles décrites par la grammaire et les faits linguistiques observés (voir notamment Biber et al. [1999], pour l’anglais).

De leur côté, les approches inductives, moins répandues, visent à mettre au jour des constructions linguistiques inédites, sans modèle ni catégorisation linguistique antérieure. On peut voir un exemple de ces approches dans les séquences récurrentes non idiomatiques (lexical bundles) de Biber et al. (1999), qui extraient des séquences de type I don’t know if, rappelant les segments répétés proposés et utilisés antérieurement par Salem (1984) (voir aussi section 3.1 du chapitre 2). On assiste à des débats similaires à ceux qui ont agité la lexicométrie sur la question du lemme (voir section 1.2 du chapitre 2).

La linguistique de corpus explore la question du choix linguistique d’un usage à l’autre : pourquoi choisit-on telle structure syntaxique plutôt que telle autre ? Pourquoi choisit-on tel adjectif plutôt que tel autre, qui est pourtant son synonyme ? Par exemple, suivant son acception, le nom résolution attirera des adjectifs d’intensité différents : comparer la ferme résolution (d’un individu) et la forte résolution (d’un écran). Ces variations sont interprétées d’un point de vue fonctionnel d’un usage à l’autre, en faisant référence aux caractéristiques communicationnelles et situationnelles des usages. La question des contextes et des registres discursifs est en effet cruciale dans cette démarche, qui s’ouvre ainsi aux sciences sociales.

2.1.2. Les méthodes et les outils d’analyse

En termes d’outillage, la linguistique de corpus se rapproche de la démarche textométrique développée sur les corpus textuels et pratique peu l’analyse multidimensionnelle, bien que l’étude de Biber (1988) ait contribué à la diffusion de l’Analyse en Composantes Principales dans le champ – méthode qui sera précisément exposée dans le chapitre 5 de cet ouvrage.

La linguistique de corpus recourt plus souvent aux méthodes que l’on dit « qualitatives » et les approches « fondées sur le corpus » (corpus-based) sont de loin les plus répandues. Dans la mesure où le chapitre 3 est spécifiquement dédié aux méthodes permettant un retour textuel et contextuel aux données, nous nous limiterons à un bref panorama.

L’analyse des spécificités (section 4 du chapitre 3) ou la recherche des mots-clés (keywords) est régulièrement proposée, permettant de cibler les unités sur lesquelles l’analyste concentrera ses efforts, et qu’il observera ensuite contextuellement avec la concordance.

La collocation est l’un des objets majeurs de la linguistique de corpus, et comme en ADT, on recourt à trois fenêtres d’observation pour explorer les réalisations contextuelles d’une unité:

La concordance, qui offre une vue alignée verticale des réalisations d’une unité permettant d’explorer sa syntagmatique⁴.

La cooccurrence, qui explore le voisinage élargi de l’unité, c’est-à-dire les unités qui adviennent fréquemment avec l’unité en question, dans le même contexte, mais pas forcément immédiatement avant ou après.

Les séquences, qui dégagent statistiquement les régularités les plus fréquentes sur le plan syntagmatique de la linéarité textuelle (séquences clés, n-grammes ou séquences récurrentes non idiomatiques, segments répétés : voir la section 3 du chapitre 2).

2.1.3. Les relations et les passerelles entre la linguistique de corpus et l’ADT

ADT et linguistique de corpus ont de nombreux points communs.

Les deux approches se préoccupent de la question de l’objectivation, qui est assurée par la représentativité du corpus et par l’application raisonnée des méthodes et, le cas échéant, le contrôle de celles-ci (voir les méthodes de rééchantillonnage [bootstrap], chapitre 4 et suivants). Ces deux éléments légitiment la portée généralisante des faits locaux observés. L’ADT se nourrit parfois des travaux de la linguistique de corpus pour qualifier les corpus qu’elle explore, par exemple pour les genres et les types de textes.

Comme l’ADT, la linguistique de corpus s’intéresse aux distributions et a une conception contextuelle du sens.

Enfin, les deux approches ont une finalité interprétative : des résultats statistiques ne valent que s’ils sont interprétés⁵.

En revanche, la linguistique de corpus et l’ADT n’ont pas le même cahier des charges. La linguistique de corpus vise d’abord à décrire les usages langagiers. Elle se fonde donc sur une grille d’interprétation et d’analyse linguistique et fonctionnelle. L’ADT est à la croisée de l’ensemble des disciplines qui fondent leurs interprétations sur des données textuelles. En ce sens, son champ est plus large, et ses interfaces interprétatives sont multiples. Les résultats d’une analyse factorielle peuvent ainsi étayer une hypothèse historique, marketing ou psychologique…

2.2. Le traitement automatique des langues

2.2.1. Les objectifs

Le traitement automatique des langues (TAL) est un domaine qui vise à formaliser les descriptions linguistiques dans la perspective du développement d’une application informatique. De manière générale, le TAL a une double visée théorique et applicative : sur le plan théorique, il développe des modèles et des systèmes formels simulant les mécanismes des langues naturelles qui permettront d’implémenter des applications informatiques. En ce sens, les théories linguistiques construites dans ce cadre présentent l’intérêt d’être vérifiables et opérationnelles. La notion de « visée applicative » est ainsi cruciale et parfaitement assumée, particulièrement depuis que le Web a considérablement accru les besoins en informatique documentaire. C’est probablement ce qui explique que le terme traitement automatique des langues, qui renvoyait à la base à la linguistique informatique dans son versant appliqué (comme l’ingénierie linguistique), est aujourd’hui la dénomination la plus courante pour référer à l’ensemble du domaine. Les exigences en matière de traitements documentaires efficaces sur des données massives et hétérogènes ont par ailleurs relégué au second plan les approches linguistiques les plus formelles⁶, effaçant plus encore la frontière entre théorie et application(s).

Les applications du TAL sont nombreuses et diversifiées. Historiquement, la traduction automatique (TA) a été la première application développée. En effet, si les recherches engagées par Weaver dans les années 1950 commencent avec enthousiasme, elles s’étiolent rapidement devant l’ampleur de la tâche, qui s’avère largement plus complexe que la simple mise en correspondance de deux dictionnaires imaginée au départ. Le décisif rapport ALPAC (1966) marque la fin du financement de la TA aux États-Unis et oriente la linguistique informatique vers le générativisme et l’intelligence artificielle. Les développements se concentrent alors sur des applications de dialogue homme-machine qui demeurent encore aujourd’hui des applications de prédilection du TAL (voir la multiplication actuelle des agents virtuels en ligne). Les recherches en TA et en TAL reprennent après 1975, l’acquisition du traducteur Systran par la communauté européenne ayant notamment remotivé les investisseurs. Avec les besoins croissants de traitement de documents multilingues, la TA et la traduction assistée par ordinateur (TAO) restent des applications productives du TAL, tandis que le développement du Web a particulièrement accru les besoins en fouille de données et de textes (voir section 2.3 du présent chapitre), de l’indexation automatique à l’extraction d’information ou la classification de documents. Si les applications commerciales du TAL portant sur l’écrit sont encore les plus répandues à l’heure actuelle (moteurs de recherche, systèmes de TA, correcteurs orthographiques et syntaxiques, etc.), différentes applications de reconnaissance de la parole et de synthèse vocale sont disponibles. Avec le succès des données multimodales, les recherches sur les traitements combinant écrit et oral se sont particulièrement intensifiées, si bien que le multimodal pourrait bien être au cœur des développements dans les années à venir.

2.2.2. Les niveaux d’analyse

L’ensemble des applications que nous venons de parcourir illustre le vaste champ de la linguistique informatique. Le développement de ces systèmes est soumis à celui de modèles linguistiques en mesure de répondre aux problèmes spécifiques que pose chaque application. Dans cette perspective se pose la question des différents niveaux de représentation linguistique à considérer, qu’on se situe du

Vous aimez cet aperçu ?

Page 1 sur 1

Analyse des données textuelles

À propos de ce livre électronique

Ludovic Lebart

Auteurs associés

Lié à Analyse des données textuelles

Livres électroniques liés

Mathématiques pour vous

Épisodes de podcast liés

Articles associés

Catégories liées

Avis sur Analyse des données textuelles

Qu'avez-vous pensé ?

Aperçu du livre

Analyse des données textuelles - Ludovic Lebart

INTRODUCTION

***

***

CHAPITRE 1

L’analyse statistique des données textuelles

Champs et objets d’étude

1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT)

1.1 La statistique lexicale et l’analyse multidimensionnelle lexicale

1.2 La démarche et les parcours méthodologiques

1.2.1 Une démarche raisonnée

1.2.2. Des jalons méthodologiques

2. LES DISCIPLINES VOISINES

2.1. La linguistique de corpus

2.1.1. Les objectifs

2.1.2. Les méthodes et les outils d’analyse

2.1.3. Les relations et les passerelles entre la linguistique de corpus et l’ADT

2.2. Le traitement automatique des langues

2.2.1. Les objectifs

2.2.2. Les niveaux d’analyse