De Rhapsodie au Trameur Rhapsodie www.projet-rhapsodie.fr/ j h di f / Le e Trameur a eu http://www.tal.univ-paris3.fr/trameur
Le Trameur aka L métier Le é i textométrique é i 79
La base
http://www.tal.univ-paris3.fr/trameur PrĂŠsentation
80
L Trameur Le T http://tal.univ-paris3.fr/trameur Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique Trame/Cadre, Trame/Cadre à partir d d'une une ensemble de textes. textes La partie Trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie Cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations projetées sur les contenants ou les contenus.
La transmission d d'une une ressource textuelle constituée sous la forme Trame/Cadre constitue une solution suffisante pour servir de base à toute exploration textométrique [Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle
81
Moteur textométrique Texte (unités, délimiteurs) + parties1 <partie num=1> x1 x2, x3 x2. x4 x5.... xk § <partie num=2> xk+1 x2, xk+2 x4. x2 xk+3.... xn § etc.
TRAME
une liste de positions annotées
x1
x2
,
…
x3
Forme F Lemme Catégorie Annotation4 Etc.
Segmentation des données
: x3 : lem(x3) : cat (x3) : ann4(x ( 3)
CADRE Délimiteurs
ensemble de listes de couples de positions (1 liste = 1 partition) partie 1
.,;!?+=() .,;!? () § etc.
(1) : le codage des parties peut être réalisé suivant différents formats (XML ou assimilés)
pos(x1)
partie 2 pos(xk) pos(xk+1)
etc. pos(xn)
82
Moteur textométrique « Classiquement », la textométrie construit des tableaux lexicaux à partir des données à analyser sur la base de processus de segmentation + modèle statistique Forme
PARTIE i
PARTIE j
…X….X…. A…Z…E… W…X…X… W…Y..Y
…Y….Y…. Y Y A…Z…E… C…X…X …C…Y..Y C Y Y
Segmentation des unités : la Trame + Repérage des parties : le Cadre + Modèle statistique
Dans le cas du Trameur, aucun tableau lexical n’est disponible directement (calcul dynamique en cas de besoin) : les unités ne sont pas « figées » Source : E. MacMurray & M. Leenhardt
Spécif*
X
23.43
Y
12.68
Z
5.57
W
5.66
Forme
spécif
Y
13.73
X
21.86
A
7.75
C
6.55
Spécif* : spécificité positive (vs négative) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sousfréquence constatée est inférieure au seuil fixé au départ.
ICAI’11 Workshop on Intelligent Linguistic Technologies
83
Rhapsodie p : une base « quasi » textométrique Une segmentation g en unités (des annotations sur les unités) une Trame Un système de parties (les échantillons du corpus) un Cadre Transcodage automatique : Rhapsodie Base textométrique
84
Données Rhapsodie
Ces données sont constituées par un certain nombre de textes (l’identifiant du texte est visible dans la première colonne), chacun d’eux d eux est segmenté en « unité illocutoire » (UI, (UI seconde colonne), colonne) chacune d’elle est segmentée en token (troisième colonne), chacun d’eux est annoté (les autres colonnes) 85
Transcodage donnĂŠes Rhapsodie : la Trame
86
Transcodage des dépendances
Les annotations initiales de dépendance (identifiées dans 2 colonnes) sont « fusionnées » deux à deux sous la forme d’une relation marquée de la manière suivante : • RELATION(CIBLE) : • Position 51 : « appel » OBJ(47)
« lance » (position 47)
• RELATION est une chaîne portant le nom de la relation visée • CIBLE est une valeur numérique pointant vers une position de la Trame 87
Transcodage donnĂŠes Rhapsodie : le Cadre
Codage du partitionnement des textes sur la base des positions sur la Trame
88
Transcodage données Rhapsodie : sections LLe processus de d transcodage t d i tè intègre aussii un marquage de d sections : après chaque UI, un caractère délimiteur de section (§) est introduit pour permettre de construire dans le Trameur une représentation cartographique de la base sous la forme d’une carte des sections (cf démo). La carte des sections (UI) de Rhapsodie (extrait) :
89
90
Explorer les relations de dépendance… démo !
SUB ‐> penser <‐OBJ
92
Retour en contexte
93
Recherche dans un graphe de dépendance
94
Collocation • Une version particulière du module de calcul des cooccurrences permet de prendre en compte les relations entre les items de la Trame : • Etant donné une forme pôle, la recherche de ses cooccurrents peut être contrainte par la prise en compte d’une relation entre ce pôle est ses t i t l i t d’ l ti t ôl t candidats cooccurrents
• Pour un item X Pour un item X donné (le pôle), on s donné (le pôle), on s’intéresse intéresse aux aux items Y cooccurrents de X et en relation REL avec X (les collocatifs de X) de X) : : X -> REL -> Y 95
96