Rhapsodie2trameur

Page 1

De Rhapsodie au Trameur Rhapsodie www.projet-rhapsodie.fr/ j h di f / Le e Trameur a eu http://www.tal.univ-paris3.fr/trameur


Le Trameur aka L métier Le é i textométrique é i 79


La base

http://www.tal.univ-paris3.fr/trameur PrĂŠsentation

80


L Trameur Le T http://tal.univ-paris3.fr/trameur Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique Trame/Cadre, Trame/Cadre à partir d d'une une ensemble de textes. textes La partie Trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie Cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations projetées sur les contenants ou les contenus.

La transmission d d'une une ressource textuelle constituée sous la forme Trame/Cadre constitue une solution suffisante pour servir de base à toute exploration textométrique [Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle

81


Moteur textométrique Texte (unités, délimiteurs) + parties1 <partie num=1> x1 x2, x3 x2. x4 x5.... xk § <partie num=2> xk+1 x2, xk+2 x4. x2 xk+3.... xn § etc.

TRAME

une liste de positions annotées

x1

x2

,

x3

Forme F Lemme Catégorie Annotation4 Etc.

Segmentation des données

: x3 : lem(x3) : cat (x3) : ann4(x ( 3)

CADRE Délimiteurs

ensemble de listes de couples de positions (1 liste = 1 partition) partie 1

.,;!?+=() .,;!? () § etc.

(1) : le codage des parties peut être réalisé suivant différents formats (XML ou assimilés)

pos(x1)

partie 2 pos(xk) pos(xk+1)

etc. pos(xn)

82


Moteur textométrique « Classiquement », la textométrie construit des tableaux lexicaux à partir des données à analyser sur la base de processus de segmentation + modèle statistique Forme

PARTIE i

PARTIE j

…X….X…. A…Z…E… W…X…X… W…Y..Y

…Y….Y…. Y Y A…Z…E… C…X…X …C…Y..Y C Y Y

Segmentation des unités : la Trame + Repérage des parties : le Cadre + Modèle statistique

Dans le cas du Trameur, aucun tableau lexical n’est disponible directement (calcul dynamique en cas de besoin) : les unités ne sont pas « figées » Source : E. MacMurray & M. Leenhardt

Spécif*

X

23.43

Y

12.68

Z

5.57

W

5.66

Forme

spécif

Y

13.73

X

21.86

A

7.75

C

6.55

Spécif* : spécificité positive (vs négative) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sousfréquence constatée est inférieure au seuil fixé au départ.

ICAI’11 Workshop on Intelligent Linguistic Technologies

83


Rhapsodie p : une base « quasi » textométrique Une segmentation g en unités (des annotations sur les unités) une Trame Un système de parties (les échantillons du corpus) un Cadre Transcodage automatique : Rhapsodie Base textométrique

84


Données Rhapsodie

Ces données sont constituées par un certain nombre de textes (l’identifiant du texte est visible dans la première colonne), chacun d’eux d eux est segmenté en « unité illocutoire » (UI, (UI seconde colonne), colonne) chacune d’elle est segmentée en token (troisième colonne), chacun d’eux est annoté (les autres colonnes) 85


Transcodage donnĂŠes Rhapsodie : la Trame

86


Transcodage des dépendances

Les annotations initiales de dépendance (identifiées dans 2 colonnes) sont « fusionnées » deux à deux sous la forme d’une relation marquée de la manière suivante : • RELATION(CIBLE) : • Position 51 : « appel » OBJ(47)

« lance » (position 47)

• RELATION est une chaîne portant le nom de la relation visée • CIBLE est une valeur numérique pointant vers une position de la Trame 87


Transcodage donnĂŠes Rhapsodie : le Cadre

Codage du partitionnement des textes sur la base des positions sur la Trame

88


Transcodage données Rhapsodie : sections LLe processus de d transcodage t d i tè intègre aussii un marquage de d sections : après chaque UI, un caractère délimiteur de section (§) est introduit pour permettre de construire dans le Trameur une représentation cartographique de la base sous la forme d’une carte des sections (cf démo). La carte des sections (UI) de Rhapsodie (extrait) :

89


90


Explorer les relations de dépendance… démo !


SUB ‐> penser <‐OBJ

92


Retour en contexte

93


Recherche dans un graphe de dépendance

94


Collocation • Une version particulière du module de calcul des cooccurrences permet de prendre en compte les relations entre les items de la Trame : • Etant donné une forme pôle, la recherche de ses cooccurrents peut être contrainte par la prise en compte d’une relation entre ce pôle est ses t i t l i t d’ l ti t ôl t candidats cooccurrents

• Pour un item X Pour un item X donné (le pôle), on s donné (le pôle), on s’intéresse intéresse aux aux items Y cooccurrents de X et en relation REL avec X (les collocatifs de X) de X) : : X -> REL -> Y 95


96


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.