Céline Poudat UMR 7320 BCL, Université de Nice Sophia Antipolis poudat@unice.fr
ÉLÉMENTS DE MÉTHODE POUR EXPLORER DES CONTRASTES ET DES HYPOTHÈSES EN CORPUS
Méthodologie Données Niveau d’analyse - texte brut, texte annoté (surface ou sémantique)…
Unité textuelle - textes,
regroupements d’unités micro- ou macro-textuelles
Métadonnée(s) – auteur, genre, date, échelle…
Méthode(s) Plus inductives (méthodes factorielles, classifications, cartes de Kohonen)
Plus déductives (concordance, cooccurrences, AFC, spécificités d’une partition…)
Outil(s) Hyperbase (web edition), DtmVic…
http://explorationdecorpus.corpusecrits.huma-num.fr/
Scénarios • Explorer un corpus annoté • Explorer la structure d’un corpus • Explorer des annotations • Explorer un corpus et ses métadonnées • Projection des métadonnées a posteriori sur les axes d’une analyse factorielle • Spécifier une catégorisation
1. EXPLORER LA STRUCTURE D’UN CORPUS
Tableau de contingence • répartition de 592 femmes suivant les couleurs des
yeux et des cheveux • Source : Snee (1974), Cohen (1980)
Couleur Couleur des cheveux des yeux brun châtain roux
blond
Total
marron
68
119
26
7
220
noisette
15
54
14
10
93
vert
5
29
14
16
64
bleu
20
84
17
94
215
Total
108
286
71
127
592
Plan factoriel (1, 2)
Cheveux - Yeux
7
- Visualisation des associations entre couleurs des yeux et des cheveux [AFC] - Rappel sur le Bootstrap Exemple : Zones de confiances sur les visualisations. - Exemple de tables répliquées
couleur des cheveux Brun
Original
Réplication 2
roux
marron
68
119
26
7
couleur
noisette
15
54
14
10
des
vert
5
29
14
16
yeux
bleu
20
84
17
94
79
120
23
9
marron
Réplication 1
châtain
couleur
noisette
14
60
15
12
des
vert
3
29
16
9
yeux
bleu
21
82
20
110
marron
72
111
32
7
couleur
noisette
14
47
13
14
des
vert
5
30
15
19
yeux
bleu
20
89
16
98
blonds
8
Zones de confiance Bootstrap :
“ellipses de replications”
9
Corpus • 408 transcriptions du discours oral spontané de 136
enfants • Durée/enregistrement : 50 minutes • Enfants de 3 à 13 ans (62 garçons et 74 filles) • 12 écoles maternelles, primaires et secondaires de la
Communauté Française de Belgique • 5 psychologues • Année l’année scolaire 2010-2011
• 3 conditions différentes: • la condition « psychologue » • la condition « parent » • la condition « groupe »
AFC – Tableau de contingence Mots apparaissant au moins 49 fois dans le corpus * 408 textes
2. EXPLORER DES ANNOTATIONS Legallois&Poudat 2008. Comment parler des livres que l’on a lus ? Discours et axiologie des avis des internautes. Semen 26.
Corpus de critiques Corpus AVIS • 21 œuvres classiques et
contemporaines • L'Homme qui voulait vivre sa vie (29 critiques), Les Bienveillantes (24), Les particules élémentaires (23), Si c'est un homme (21), Le Pendule de Foucault (20), Plateforme (20), Voyage au bout de la nuit (18), Cent ans de Solitude (17), Les Trois mousquetaires (11), Ravel (11), Au Bonheur des dames (10), Eugénie Grandet (10),… • 319 critiques publiées entre août 2000 et juillet 2008 • 283 contributeurs distincts (dont 34 anonymes)
Corpus PRIX • 7 œuvres primées en 2007 par
la critique littéraire professionnelle
• Alabama Song de Gilles Leroy, •
• • • • •
Goncourt (21 critiques ) Ap. J.-C. de Vassilis Alexakis, Grand Prix du Roman de l'Académie Française (3 critiques) Baisers de cinéma d’Eric Fottorino, Femina (5 critiques) Birmane de Christophe OnoDit-Biot, Interallié (7 critiques) Chagrin d’école de Daniel Pennac, Renaudot (39 critiques) Ouest de François Vallejo, Prix du Livre Inter (10 critiques) La stratégie des antilopes de Jean Hatzfeld, Médicis (3 critiques)
Catégorie
Sous-catégorie
Descriptif
Émotion
horreur
Effet psychologique
rire
Effet psychologique
tristesse
Effet psychologique
attachement
Effet psychologique
identification
Réaction transréférentielle
happage
Effet psychologique
Esthétique
intrigue
Construction de l’intrigue
Originalité
genre
Fidélité du texte aux canons du genre
Signifiant
accessibilité
Facilité de lecture
édition
Clarté de l’édition
brièveté
Effort de lecture
historique
Conformité au fait historique
personnage
Réalité des personnages
Vérité
Citation
Valeur démonstrative / intertexte
Inhibition
Difficulté (rhétorique) à s’exprimer
Intertexte
Référence à d’autres œuvres, d’autres auteurs
Lecture
Lecture d’œuvres du même auteur
Prescription
Recommandation du livre
Relecture
Relecture du livre
Annotation XML
on nous je
vous
émotion
esthétique
moralité
originalité
signifiant
vérité
auteur lecteur
lecture
émotion
esthétique
moralité
originalité
signifiant
vérité
3. EXPLORER UN CORPUS ET SES MÉTADONNÉES Projeter a posteriori des métadonnées a posteriori sur les axes d’une analyse factorielle
Un exemple de recherche • Objectif: explorer le récit de vie adolescent • Étude avec A. Boulard (Liège) • Données textuelles • une question ouverte : « Qu’est-ce qui a fait que tu es devenu ce que tu es aujourd’hui ? » • Corpus de transcriptions • Données numériques et catégorielles • Variables morphosyntaxiques exprimées en pourcentages (annotation Cordial Analyseur) • Questions fermées et métadonnées (âge, genre, filière, score d’humeur, attachement parental, etc.)
Table de donnĂŠes
AFC (VISURECA): mots + supp cat Code_0
P么le d茅veloppemental positif
JUG ELEVE 3
Univers familial
DEPRESSION 3
FEMININ JUG ELEVE 2
PAR ENSEMBLE
JUG ADUL 2
PAR SEPARES
F. technique JUG ADUL 3 MASCULIN
Univers scolaire
4. EXPLORER UNE CATÉGORISATION
Céline Poudat UMR 7320 BCL, Université de Nice Sophia Antipolis poudat@unice.fr
ÉLÉMENTS DE MÉTHODE POUR EXPLORER DES CONTRASTES ET DES HYPOTHÈSES EN CORPUS