Statistiques textuelles Serge Fleury U i Université iéP Paris i 3 Sorbonne S b nouvelle ll / ILPGA CLESTHIA/SYLED/CLA2T Site S te : http://sfweb.no-ip.org ttp //s eb o p o g Email : sergefleury@gmail.com
Textométrie La textométrie, é i née é en France dans d l années les é 80, 80 a développé dé l é des d techniques h i puissantes et originales pour l’analyse de grands corpus de textes. Reprenant les acquis de la lexicométrie et de la statistique textuelle, elle propose des outils et des méthodes é éprouvés é dans d d multiples de lti l branches b h des d SHS ett statistiquement t ti ti t solidement lid t fondés. f dé Présentation de la Textométrie : http://textometrie.ens‐lyon.fr/spip.php?rubrique80 La textométrie propose une approche et des outils pour analyser les corpus numériques place centrale des textes à toutes les étapes p p de l’analyse y rester au plus proche du texte et d’éviter toute préconception réductrice rôle déterminant du contexte global construit par le corpus de référence f ti fonctionnement t différentiel diffé ti l des d calculs l l contrastifs t tif comme des d tris… ti
2 Source : http://textometrie.ens-lyon.fr/spip.php?rubrique80
Historique Cette discipline s’est essentiellement développée en France à partir des années 1970, dans la lignée des recherches pionnières de Pierre Guiraud (1954, (1954 1960) et de Charles Muller (1968, (1968 1977) en statistique lexicale (évaluation de la richesse du q d’un texte). ) vocabulaire d’un texte,, vocabulaire caractéristique Elle reprend et poursuit également les méthodes d’analyse des données (analyses factorielles, classifications) mises au point par Jean‐Paull Benzécri é (1973) ( ) et déjà dé à appliquées l é par lui l aux données d é linguistiques : de telles techniques permettent de générer des cartographies synthétiques et visuelles des mots et des textes tels qu’ils s’apparentent ou s’opposent au sein d’un corpus.
3 Source : http://textometrie.ens-lyon.fr/spip.php?rubrique80
Calculs sur des données textuelles Calculs sur des données textuelles • La textométrie n’est pas la seule à s’être intéressée à l’application de calculs statistiques sur des données textuelles – Recherche d Recherche d’information information : : • mettre au point des mesures pour sélectionner automatiquement les mots caractéristiques d’un document
– Le TAL • recourt aux statistiques pour la construction et la reconnaissance d’unités linguistiques g q
– Analyse sémantique latente • déterminer une représentation spatiale synthétique et en tirer des effets linguistiques intéressants notamment une certaine capacité à neutraliser linguistiques intéressants, notamment une certaine capacité à neutraliser les variations de synonymie et de paraphrase
4 Source : http://textometrie.ens-lyon.fr/spip.php?rubrique80
PrĂŠambule
Comment on traite les donnĂŠes ?
Une démarche humaine traditionnelle… aidée ici par la machine
Source : Paul S P l Otlet, Otl t (1868 - 1944), 1944) Documents D t iconographiques i hi http://www.aib.ulb.ac.be/otlet/icono.html#univers A lire : http://fr.wikipedia.org/wiki/Paul_Otlet
Apprendre à la machine à “manger g des données”…
à les “digérer” digérer et peut peut-être être à les analyser…
Les données, c’est parfois ça !!!!
Le texte en machine ?
Comment ?? 10
Analyses textuelles sur corpus Commentaires
Analyses automatisées Réorganisations textuelles
Corpus codé
Analyses statistiques
Interrprétatiion
Codagge
Corpus
Résultats
Autres 11
Source : André Salem, Montréal 2005
Ressources textuelles Corpus Corpus de référence
Corpus codé
Dictionnaires
catégoriseurs
Analyses automatisées y
Ontologies
Résultats
12 Source : André Salem, Montréal 2005
Une clĂŠ : les statistiques textuelles
Qu’est-ce Qu est ce qui compte ?
Compter pour comprendre
15
Incise technique : compter les mots dans un corpus • Des Des outils outils((*)) « simples » (commandes unix, regexp) » (commandes unix regexp) • Test sur corpus issu de GrosMoteur – Résultat (extrait) Résultat (extrait)
REGEXP
(*)
16
Références • Ludovic Lebart, André Salem (1994) q Textuelle,, Dunod Statistique – La statistique textuelle se veut précisément un outil destiné à parfaire ll'analyse analyse, la description description, la comparaison, en un mot, le traitement des textes – http://lexicometrica.univhttp://lexicometrica univ paris3.fr/livre/st94/st94-tdm.html – http://egsh.enst.fr/lebart/ST.html htt // h t f /l b t/ST ht l
17
Glossaire • Glossaire pour la statistique textuelle – http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire
• Extrait E t it : – fréquence d'une unité textuelle • le e nombre o b e de ses occurrences occu e ces dans da s le e corpus co pus
– fréquence maximale • fréquence de la forme la plus fréquente du corpus (en français, le plus souvent, la préposition "de") de )
– fréquence relative • la fréquence d'une unité textuelle dans le corpus ou dans l'une de ses parties, rapportée à la taille du corpus (resp. (resp de cette partie)
18
Origines • L’analyse statistique des données linguistiques (ou textuelles), a été animée par Jean‐Paul Benzécri [1981], père de l’analyse des données à la française. française Les origines de ll’analyse analyse des données remontent au début du siècle. Les psychologues ont été les p pionniers de l'exploration p des données multidimensionnelles et de l'analyse factorielle. Spearman, psychologue anglais, en analysant les liens entre les résultats scolaires et les aptitudes sensorielles d’élèves, croit démontrer l’existence d’un facteur général d'aptitude ou d'intelligence qui sera désigné plus tard par la lettre g. Ultérieurement, non seulement un mais plusieurs facteurs seront recherchés à partir de données de plus en plus nombreuses. nombreuses C C’est est là que se situent les origines de ll’analyse analyse factorielle.
•
Source : http://www.revue‐texto.net/Inedits/Beaudouin_Statistique.html 19
Principes • Population étudiée : ensemble de textes – L’ensemble des textes analysés constitue un corpus
• Identifier les unités lexicométriques de base présentes dans le corpus – Une forme est définie comme une suite de caractères entourées de caractères délimiteurs (mot ?) – L’ensemble des formes ainsi mises au jour constitue le vocabulaire du corpus
• Identifier les découpages du corpus en parties – Le corpus étant délimité et les fréquences n’ayant pas de sens en soi, les comptages statistiques ne peuvent se faire qu’en comparant une population à une autre ou à une norme.
20
Vocabulaire Soit le corpus Z ={A B C A B D A} Taille du corpus= corpus 7 Nombre des formes= 4 Fmax= 3 la fréquence de la forme la plus o te forte • La forme D est un “hapax” : • • • •
– une forme de fréquence é 1
21
Au delà de la forme Au-delà • Selon les besoins de l’analyse, on peut vouloir p p soumettre le corpus à une opération de lemmatisation, d’annotation morpho‐ syntaxique sémantique etc syntaxique, sémantique etc. – Attention : dans l’étude de textes politiques, de grandes oppositions idéologiques s’expriment grandes oppositions idéologiques s’expriment souvent à travers l’emploi du singulier ou du pluriel (la liberté vs les libertés etc ) pluriel (la liberté vs les libertés etc.)
• Les segments répétés 22
Unités de décomptes Ngrammes Racines Lemme
(lib, ber, rté) (liberté(s), libre, libérer) (liberté, libertés)
Forme graphique (liberté) Segments Coocurrences
(liberté de la presse) (liberté + égalité)
23
Identification des unités • Normalisation: ramener le contenu des fichiers texte à une suite de caractères standards (des minuscules par ex) • Segmentation automatique: permet de transformer le texte S t ti t ti td t f l t t en formes graphiques • Lemmatisation : regrouper l : regrouper l’ensemble ensemble des mots d des mots d’une une même même unité de langue (étape non nécessaire) • Numérisation: faire abstraction, pendant les calculs, de la Numérisation: faire abstraction pendant les calculs de la forme textuelle pour ne retenir qu’un numéro d’ordre Les segments répétés: Il est utile de compléter les décomptes • Les segments répétés: Il est utile de compléter les décomptes de formes par des comptages portant sur des unités plus larges 24
Analyse statistique • Etape divisée en 3 sous étapes
25
Tableau lexical
26
Tableau lexical entier N Num 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
F Forme
P1
P2
P3
P4
P5
P6
P7
P8
de les la et le à que q qui des il l pour en qu d nous
886 641 648 449 348 382 349 222 262 300 221 214 171 184 170 180
875 688 550 524 376 384 390 276 262 233 260 249 199 189 158 250
853 569 597 480 398 350 351 310 240 285 250 252 153 225 170 167
753 549 581 530 374 361 298 261 201 199 236 220 192 164 151 132
746 534 482 463 356 319 317 271 245 248 210 194 167 184 162 155
757 687 505 467 321 308 287 268 243 229 201 181 169 139 161 100
669 555 486 461 327 266 287 267 274 203 206 183 147 115 152 182
591 526 449 399 265 262 217 204 217 128 187 172 111 98 150 104
Le tableau lexical entier (TLE) Le tableau lexical entier (TLE) 27 Source : André Salem, Montréal 2005
Traitements statistiques • Diagnostic de ventilation, de spécificité d’une unité – Repérer les variations de cette unité dans les différentes parties du corpus
• Spécificités par parties – Repérer les mots surreprésentés ou sous représentées dans une partie p p p p du corpus par rapport à la norme que constitue la fréquence totale dans le corpus entier
• Recherche de cooccurrences R h h d – Mise au jour des « attractions » entre les unités
• Méthode : Méthode : – 4 grands paramètres utilisés • T : taille de corpus ; t : taille de la partie ; F : fréquence totale d’une forme ; f : fréquence de la forme dans la partie 28
Analyse descriptive • Le tableau lexical est une table de contingence qui peut être étudiée grâce aux méthodes d’analyse de données multidimensionnelles • L’analyse factorielle des correspondances permet de représenter les proximités entre les lignes et les colonnes sur les principaux axes factoriels, elle peut être effectuée sur le tableau entier ou sur le tableau regroupé • Les méthodes de classification sont également utilisées pour classifier les lignes et les colonnes. Classifier les colonnes peut permettre de définir une typologie permettant un regroupement et la réduction du tableau lexical 29
Analyse multidimensionnelle • Les analyses factorielles des correspondances, analyses arborées, classification hiérarchiques etc. • Comparer différentes parties en fonction du stock lexical de chacune – Mise eu jour des proximités/distances entre les parties en fonction de leurs vocabulaires respectifs (création de typologie)
• Méthode : – Traitement de tableaux croisant en colonne les parties du corpus et en ligne avec à l’intersection de la ligne i et de la colonne j la fréquence de la forme i dans la partie j 30
Analyses typologiques
Classification automatique
Analyse factorielle
31 Source : AndrĂŠ Salem, MontrĂŠal 2005
Le vocabulaire dans les textes • Expérience sur 3 corpus : – Un journal de la révolution française Un journal de la révolution française (« le père Duchesne le père Duchesne ») • Nombre d’occurrences : 142179; nombre de mots différents : 6130
– Un corpus « Un corpus « Horoscope » » (« Horoscope du mois sur Horoscope.fr Horoscope du mois sur Horoscope fr ») • Nombre d’occurrences : 111574 ; nombre de mots différents : 5552
– Un corpus de pages web regroupant des recettes de cuisine U co pus de pages eb eg oupa t des ecettes de cu s e • Nombre d’occurrences : 27689 ; nombre de mots différents : 1418
• Pour Pour « comprendre / comparer comprendre / comparer » ces textes, une des ces textes, une des clés possibles est l’analyse du vocabulaire de chacun d eux d’eux 32
Remarques • Le Le fait que tel ou tel mot apparaisse x fait que tel ou tel mot apparaisse x fois dans un fois dans un texte n’a aucune signification en soi – Une Une des approches possibles (ce n des approches possibles (ce n’est est pas la seule) est la pas la seule) est la comparaison avec un autre texte…
• Une Une autre précaution à prendre, évidente, est de autre précaution à prendre évidente est de nature statistique. Il est bien rare que l’on puisse comparer des textes de tailles strictement identiques comparer des textes de tailles strictement identiques. – Etant donné 2 textes A et B (A est 20 fois plus volumineux que B) que B) – Si le mot X apparait 77 fois dans A et seulement 7 fois dans B On doit peut être être pondéré par ce « facteur de taille On doit peut‐être être pondéré par ce « facteur de taille » 33
Comme au Loto ! • Les statisticiens ont développé des outils permettant de mesurer la significativité de ces différences, outils qui sont largement utilisés en lexicométrie largement utilisés en lexicométrie – L’idée générale est d’écrire les mots des deux textes sur des boules et de les mélanger dans un grand sac, comme au loto, et de tirer au hasard (sans les remettre dans le sac) autant de mots qu’en a le texte A. – On peut par exemple calculer la probabilité qu On peut par exemple calculer la probabilité qu’on on aurait de tirer au aurait de tirer au moins 7 fois le mot X.
• La loi qui permet de calculer ces probabilités porte le nom savant de loi hypergéométrique • Lecture : [Lebart & Salem] p. 172 et suivantes 34
Expériences • Selon vous, quel est le mot le plus fréquent – Dans le corpus « p horoscope p » ? – Dans le corpus « journal de la révolution » ? – Dans le corpus regroupant les 2 ? Dans le corpus regroupant les 2 ?
• Quel est le vocabulaire qui oppose ces 2 textes ? – Selon vous, quel mot a une forte probabilité d’apparaître (sur‐représentation) pp ( p ) • Dans le corpus horoscope ? p jjournal de la révolution » ? • Dans le corpus « 35
Le modèle hypergéométrique • P. Lafon, dans la revue Mots d'octobre 1980, a q q montré que ce modèle est celui qui convient le mieux à la lexicométrie… Source : http://www.uottawa.ca/academic/arts/astrolabe/articles/art0017.htm/Hyperbase06.htm
• [Lafon, 1984], Lafon Pierre, Dépouillements et statistiques en lexicométrie, Genève‐Paris, Slatkine‐Champion. 36
La méthode des spécificités fournit donc un indice qui signale un emploi atypique d’une forme pour une partie donnée du corpus. Une spécificité positive indique qu qu’une une unité textuelle est abondamment employée au sein de la partie alors qu’une spécificité négative montre une tendance de cette même partie à éviter l’emploi de l’unité dans la partie considérée. considérée
14. Lebart & Salem, (1994 : 173-177) 15. Dans le logiciel Lexico 3, le seuil par défaut est fixé à 5 et le calcul est fait sur toutes les formes qui ont une fréquence égale ou supérieure à 10 dans le corpus. Ces paramètres peuvent être modifiés, pour l’analyse ici les paramètres par défaut ont été maintenus. Rappelons que la codification du seuil peut avoir des conséquences sur les résultats obtenus, il convient de rester vigilant lorsqu’on choisit un seuil et éviter d’utiliser plusieurs seuils de probabilités au cours de comparaisons multiples. 16. Dans les logiciel Lexico 3 et Le Trameur la spécificité positive est indiquée par le signe + suivi d'une valeur a. À l’inverse La spécificité négative est indiquée par le signe – suivi d’une valeur a . L'indice a indique une probabilité de ll'ordre ordre de 10 10-a a que ll'unité unité ait une fréquence supérieure à la valeur constatée.
37
Interprétation • Les résultats issus de traitements statistiques doivent ensuite être interprétés et commentés – Confronter les constats statistiques et les hypothèses ayant motivées la constitution du corpus • Valider les hypothèses par une suite d’inférences remontant des constats statistiques aux usages discursifs et linguistiques dont ils sont la trace…
– L’interprétation lexicométrique se place dans une sémantique des usages discursifs (plus que dans une sémantique générale)
38
Il faut « aimer » ses données
“Un corpus doit être aimé : s’il ne correspond pas à un besoin voire un désir intellectuel ou scientifique, il scientifique il se périme se périme et devient et devient obsolète. obsolète ” François Rastier, La mesure et le grain, ed. Champion 2011
GrosMoteur : l'outil de création de corpus pour linguistes Paramétrage de GrosMoteur pour produire en sortie un corpus au format du Trameur
Le Trameur : programme d’analyse textométrique 41
Préparation des données aux outils
En général, le traitement des données dans un outil nécessite une phase préalable de préparation (nettoyage (nettoyage, organisation…) qu’il peut être nécessaire de mettre au point progressivement. L’outil utilisé peut parfois guider cette phase initiale… La préparation nécessite la maîtrise d’outils : éditeur, regexp, langage informatique etc.. Ici, les choses ont été simplifiées via GrosMoteur… merci à lui
42
Le métier textométrique
Le Trameur Serge Fleury U i Université iéP Paris i 3 Sorbonne S b nouvelle ll / ILPGA CLESTHIA/SYLED/CLA2T Site S te : http://sfweb.no-ip.org ttp //s eb o p o g Email : sergefleury@gmail.com LLe Trameur T http://www.tal.univ-paris3.fr/trameur
Le Trameur aka L métier Le é i textométrique é i 45
Sommaire – Le Trameur • Logiciel de textométrie
– Textométrie • Objet, Objet objectif, objectif méthodes
46
L Trameur Le T http://tal.univ-paris3.fr/trameur Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, trame/cadre à partir d d'une une ensemble de textes. textes La partie Trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie Cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations projetées sur les contenants ou les contenus.
La transmission d d'une une ressource textuelle constituée sous la forme Trame/Cadre constitue une solution suffisante pour servir de base à toute exploration textométrique. [Söze-Duval, Sö 2008 Keyser Söze-Duval. 2008], Sö Pour une textométrie é opérationnelle é
47
Origines • Développement d’outils pour les linguistes – textométrie
• Equipe CLA2T dirigée par André Salem – Lexico3 – [Söze-Duval, 2008], Keyser Söze-Duval, Pour une textométrie opérationnelle – [Fleury, [Fleury 2013], 2013] LE TRAMEUR. P PROPOSITIONS DE DESCRIPTION ET D’IMPLÉMENTATION DES OBJETS TEXTOMÉTRIQUES
• Collaborations/discussions – Réseaux, partenaires 48
Le texte : une trame et un cadre • La Trame = Le texte comme suite de positions – i.e une segmentation g en unités
• Le Cadre = Ensemble des (couples de) positions structurant le texte initial en parties – i.e les systèmes de parties sur le texte
• Sélection : ensemble de positions de la trame – Le Cadre est une instance particulière de « sélection » 49
Trame+Cadre
exploration textométrique
• A partir d d'un un texte segmenté, segmenté la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre : la Trame textométrique • Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d d'un un certain nombre de zones de ce type, type etc.) etc ) qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, p g p , p phrases,, sections,, chapitres p etc.)) : le Cadre textométrique • La mise au jour d'une ressource textuelle constituée sous la forme Trame/Cadre constitue une solution suffisante pour servir de base 50 à toute exploration textométrique
Le texte : une suite de positions organisĂŠes
51
Textométrie • Objet traité : – le texte (les textes)
• Objectif : • définir et compter des unités dans ces textes
• Moyens : • outils / méthodes statistiques textuelles 52
Lectures textométriques • • • • • •
Pratique des Segments répétés (1987) A. Salem Statistique textuelle (1994) A. Salem, L. Lebart http://issuu.com/sfleury/docs/st-1994-lebart http://issuu.com/sfleury/docs/st 1994 lebart_salem salem Exploring Textual Data (1998) A. Salem, L. Lebart & L. Berry Les linguistiques de corpus (2000) A. Salem, B. Habert & A. Nazarenko http://lexicometrica univ-paris3 fr/livre/les linguistiques de corpus 1997/ http://lexicometrica.univ-paris3.fr/livre/les_linguistiques_de_corpus_1997/ Explorations Textométriques (2009) A. Salem, S.Fleury, http://lexicometrica.univ-paris3.fr/numspeciaux/special8.htm wiki (TAL-Lexicométrie) (TAL Lexicométrie) http://tal.univ-paris3.fr/wakka/wakka.php?wiki=PagePrincipale
La textométrie : préambule L'objectif L' bj tif de d la l textométrie t t ét i estt de d : compter des éléments (des contenus textuels) dans des ensembles (des contenants) regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires
Mettre au jour les particularités de certains contenus dans certains contenants Contraster les contenants par leurs contenus Etc. 54
• Les contenus se réalisent sous la forme de ressources textuelles - une séquence de caractères organisés en unités élémentaires (les mots par exemple)
• Les contenants existent sous la forme de système de masques ou de d calques l défi i sur les définis l contenus - Il s'agit de systèmes d'annotations sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties p textuelles qu'elles définissent - Le marquage des phrases ou des paragraphes étant un exemple d'annotation d annotation particulier pour décrire un certain niveau de la structure du texte
• Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. - Ce ppréalable consiste à expliciter p une segmentation g du texte conduisant à la mise au jour d'une Trame sur laquelle des annotations 55 pourront se greffer ultérieurement (le Cadre)
Projet ANR ECRITURES : Tableau des formes graphiques du corpus Brouillons (1 dossier : état 1 -> état 24)
56
Projet ANR ECRITURES : Tableau des formes graphiques du corpus Brouillons (ĂŠtats finaux)
57
Le texte z
Flux textuel : séquence organisée des caractères z
z
la Trame* : une liste ordonnée de positions annotées
Mise au jour d'une organisation du texte z
le Cadre * : ensemble de sélections de positions
58 * Terminologie utilisée dans le logiciel Le Trameur
Les unités textuelles • Quelles unités ? • Identification des unités – comment on segmente le texte ?
59 SOURCE : http://lexicometrica.univ-paris3.fr/numspeciaux/special8/dev2.pdf
Les formats d’entrée du trameur • Chargement d’une nouvelle base – Texte brut – Texte brut balisé « à la lexico » – Texte encodé en XML (TEI etc.) • Illustration sur le « Dormeur du Val » : txt, format L3, format TEI
• Importation d’une base textométrique – Format XML prédéfini : encodage d’une Trame p g annotée et d’un Cadre • Illustration sur la base multi‐annotée : Rhapsodie2Trameur http://www.tal.univ‐paris3.fr/trameur/bases/baseTrameurFromRhapsodie.zip 60
Annoter/enrichir les unités • Etiquetage morphosyntaxique – Processus intégré dans Le Trameur via TreeTagger
• Lemmatisation – idem
• Annotation sémantique etc. – Possibilité d’importer des systèmes d’annotation sur une Trame donnée
¾ Démo Dé Trameur T ¾ La Trame = une liste de positions annotées
61
DiffĂŠrents points de vue sur le texte
Moteur textométrique Texte (unités, délimiteurs) + parties1 <partie num=1> x1 x2, x3 x2. x4 x5.... xk § <partie num=2> xk+1 x2, xk+2 x4. x2 xk+3.... xn § etc.
TRAME
une liste de positions annotées
x1
x2
,
…
x3
Forme F Lemme Catégorie Annotation4 Etc.
Segmentation des données
: x3 : lem(x3) : cat (x3) : ann4(x ( 3)
CADRE Délimiteurs
ensemble de listes de couples de positions (1 liste = 1 partition) partie 1
.,;!?+=() .,;!? () § etc.
(1) : le codage des parties peut être réalisé suivant différents formats (XML ou assimilés)
pos(x1)
partie 2 pos(xk) pos(xk+1)
etc. pos(xn)
63
Moteur textométrique « Classiquement », la textométrie construit des tableaux lexicaux à partir des données à analyser sur la base de processus de segmentation + modèle statistique Forme
PARTIE i
PARTIE j
…X….X…. A…Z…E… W…X…X… W…Y..Y
…Y….Y…. Y Y A…Z…E… C…X…X …C…Y..Y C Y Y
Segmentation des unités : la Trame + Repérage des parties : le Cadre + Modèle statistique
Dans le cas du Trameur, aucun tableau lexical n’est disponible directement (calcul dynamique en cas de besoin) : les unités ne sont pas « figées » Source : E. MacMurray & M. Leenhardt
Spécif*
X
23.43
Y
12.68
Z
5.57
W
5.66
Forme
spécif
Y
13.73
X
21.86
A
7.75
C
6.55
Spécif* : spécificité positive (vs négative) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sousfréquence constatée est inférieure au seuil fixé au départ.
ICAI’11 Workshop on Intelligent Linguistic Technologies
64
Le Trameur : mode dâ&#x20AC;&#x2122;emploi
Outils et méthodes Fréquence F é d unités des ité z Annotations des unités, correction des unités… z Concordance z Moteur de recherche z Sélection des unités z « Poids » des unités dans les parties (spécificités) z Contraster les parties (par leur vocabulaire) z Proximités de certaines unités (cooccurrents) z Au delà des unités primaires (les segments) z Extraction t act o de patron pat o z Traitement de relations de dépendance (syntaxique) ¾ Démo Trameur z
66
Cooccurrents • • •
Cooccurrence : la présence simultanée de deux mots dans le même contexte (Lafon, 1981; Martinez, 2003) Résultat : un réseau de relations Mise en œuvre : un pôle (A), détermination d’un contexte (le caractère §)
Contexte du pôle
A
---A---C---B---D § ---B---C---H---E§ ---B-- C --A---E § ---E---B---D---F§ ---I---A---X---H§ ---F---C---B---D§ ---E---B---D---A §
B
A
C
B
E
D
C D 67
Source : E. MacMurray & M. Leenhardt
ICAI’11 Workshop on Intelligent Linguistic Technologies
Poly cooccurrents Poly-cooccurrents •
LLe terme t poly-cooccurrence l dé i désigne les l attractions tt ti lexicales l i l au-delà d là de d la l cooccurrence binaire [Martinez, 2006]
•
On calcule pour le pôle A les cooccurrents spécifiques A1, A2 et A3 – Dans leurs contextes communs, on calcule pour les pôles ô A+A1 les cooccurrents spécifiques é A11 et A12 • Les pôles A+A1+A11 ont pour cooccurrent spécifique A111 – On examine les cooccurrents de A+A1+A11+A111 : Les pôles A+A1+A11+A111 n'ont pas de cooccurrent spécifique : l'exploration s'interrompt pour ce chemin • Les pôles A+A1+A12 ont pour cooccurrent spécifique A121 – On O examine i les cooccurrents de A+A1+A11+A121 : Etc. – Dans leurs contextes communs, on calcule pour les pôles A+A2 les cooccurrents spécifiques A21 et A22 • Etc.
•
Durant l’exploration, différents filtrages conditionnent l'épuisement des explorations contextuelles et réduisent le bruit dans les résultats pour privilégier l’information la plus spécifique : seuils maximaux de fréquence et de spécificité du cooccurrent 68
Cooccurrents sur corpus chronologique LLe calcul l l des d cooccurrents t sur l’état l’ét t Ex s’intéresse aux contextes contenant le pôle visé pour mettre au jour les unités qui y sont sur-représentées sur représentées
•
E1
---A---C---B---D.
Ex
---B-- C --A---E. •
Efinal
3 approches pp p possibles : • Locale • Globale • Chronologique
(màj 10.66 dans Le Trameur)
69
Cooccurrents : approche locale E1
Ex
Efinal
• On ne tient compte que des paramètres lexicométriques de la partie visée EX ---A---C---B---D. ---B-- C --A---E. T : Nb occurrence de d la l partie ti EX t : nb occcurrence dans les contextes de EX contenant le pôle F : fréquence d’une forme sur la partie EX f : ffréquence é d’ d’une fforme d dans lles contextes t t d de EX contenant le pôle 70
Cooccurrents : approche chronologique
E1
Ex
Efinal
•
LLe calcul l l des d cooccurrents sur l’état Ex garde aussi « en mémoire » le « fond lexical » des parties précédentes
---A---C---B---D. ---B-- C --A---E. T : Nb occurrence de d les l parties ti E1 à EX t : nb occcurrence dans les contextes de EX contenant le pôle F : fréquence d’une forme sur la partie EX f : ffréquence é d’ d’une fforme d dans lles contextes t t d de EX contenant le pôle 71
Cooccurrents : approche globale E1
Ex
Efinal
•
LLe calcul l l des d cooccurrents sur l’état Ex garde aussi « en mémoire » le « fond lexical » de l’intégralité du corpus
---A---C---B---D. ---B-- C --A---E. T : Nb occurrence sur le l corpus complet l t t : nb occcurrence dans les contextes de EX contenant le pôle F : fréquence d’une forme sur le corpus complet f : ffréquence é d’ d’une fforme d dans lles contextes t t d de EX contenant le pôle 72
Collocation • Une version particulière du module de calcul des Une version particulière du module de calcul des cooccurrences permet de prendre en compte les relations entre les items de la Trame : relations entre les items de la Trame • Etant donné une forme pôle, la recherche de ses cooccurrents peut être contrainte par la prise en compte peut être contrainte par la prise en compte d’une relation entre ce pôle est ses candidats cooccurrents. cooccurrents • Pour un item X donné (le pôle), on s’intéresse aux it items Y Y cooccurrents t de X d X et en relation REL avec X t l ti REL X (les (l collocatifs de X) : X -> REL -> Y 73
74
CONCLUSION
75
MERCI Des questions ?
sergefleury@gmail.com
76
Sources • Images – http://www.la‐grange.net/ p // g g /