• Nu S-Au Găsit Rezultate

O structură de discurs este descrisă de o schemă

N/A
N/A
Protected

Academic year: 2022

Share "O structură de discurs este descrisă de o schemă"

Copied!
21
0
0

Text complet

(1)

Referenţialitate şi cursivitate în relaţie cu structura de discurs Dan Cristea

Universitatea "Al.I.Cuza" Iaşi, Facultatea de Informatică Academia Română, Institutul de Informatică Teoretică - Filiala Iaşi 1. Introducere

În ultimii 25 de ani s-a studiat enorm pentru a se înţelege ce anume face dintr-un text (considerat o secvenţă de propoziţii sintactic corecte) să fie un discurs, aşadar de ce un discurs e coerent şi ce elemente îi atribuie coeziune. Dintre teoriile computaţionale ale discursului, trei au avut o influenţă covârşitoare asupra dezvoltărilor ultimilor ani din acest domeniu: teoria structurilor retorice, teoria stărilor atenţionale şi teoria centrelor.

Dezvoltată iniţial din perspectiva generării textelor, teoria structurilor retorice (rhetorical structure theory, de aici încolo RST), a fost elaborată de Mann şi Thompson între 1986 şi 1987 ca o teorie a organizării textelor [Mann, Thompson, 1988, Hovy, 1988, Scott, de Souza, 1990]. Ea caracterizează structura de discurs în termeni de relaţii ce leagă părţi componente ale textului. Unitatea elementară de discurs în RST este, de regulă, o propoziţie ce, la nivel semantic, formulează o predicaţie. O structură de discurs este descrisă de o schemă. Ea grupează o secvenţă de unităţi, sau de unităţi şi scheme, sau o secvenţă de scheme. Dintr-un anumit punct de vedere o schemă poate fi asemuită cu o regulă a unei gramatici, ea relevând structura de constituenţi a unui compus. O schemă constă dintr-o relaţie (27 în RST) care leagă două sau mai multe întinderi de text, fiecare dintre ele având, la rândul lor, o structură (constituenţii schemei). Un discurs este fie o unitate, care este o întindere de text elementar, fără structură, fie o schemă (un text mai lung decât o singură unitate şi care manifestă o structură). Relaţiile pot fi de două tipuri: hipotactice – dacă argumentele sunt constituenţi neegali ca importanţă şi paratactice (sau echinucleare) – dacă constituenţii pe care-i agregă sunt egali ca importanţă. Între constituenţii uniţi de relaţiile hipotactice există întotdeauna unul singur mai important, numit nucleu, ceilalţi fiind numiţi sateliţi. La relaţiile paratactice, prin convenţie, se consideră că toţi constituenţii sunt nucleari. Satelitul este, în general, mai susceptibil de a fi schimbat sau eliminat complet decât nucleul, fără ca, prin aceasta, înţelesul discursului să se modifice. Dimpotrivă înlocuirea sau ştergerea nucleului este o opţiune mult mai drastică, care poate duce la denaturări ale înţelesului. Relaţiile hipotactice sunt în general cele intenţionale, în care o întindere de text comunică un scop şi o alta exprimă un subscop ce completează, dezvoltă etc.

scopul principal. Pe de altă parte, relaţiile paratactice sunt, în general, de natură informaţională, simetrice, neputându-se stabili dacă şi care componentă predomină.

În RST accentul este pus pe performanţa retorică: prin ce mijloace un scriitor (sau vorbitor) reuşeşte să convingă un cititor (ascultător) de intenţiile pe care le are de comunicat. Ca produs secundar al liniei principale de investigare în RST, multe eforturi de cercetare care au succedat elaborarea teoriei s-au concentrat asupra îmbunătăţirii setului de relaţii propus iniţial de teorie. Într-adevăr pare extrem de convenabil, inclusiv din punct de vedere computaţional, să vedem discursul reprezentat ca un arbore, în care nodurile terminale să reconstituie, în secvenţa lor, textul. Cu toate acestea RST nu aduce nici o lumină în privinţa vreunei legături care ar exista între structură şi referenţialitate. RST este deci o teorie asupra structurii globale a discursului.

Teoria stărilor atenţionale (atentional state theory, AST) [Grosz, Sidner, 1986] reprezintă o dezvoltare a liniei de cercetare în discurs dominată de Barbara Grosz şi Candace Sidner asupra manierii în care focarul ori centrul de discurs (focus în engleză) se modifică pe parcursul derulării textului şi a recunoaşterii intenţiilor comunicate de discurs [Grosz, 1981, Sidner, 1983]. Grosz şi Sidner nu cred că varietatea atât de mare a intenţiilor ce pot fi comunicate de un discurs poate fi condensată într-un număr fix de şabloane retorice exprimate ca relaţii, ca în RST sau tentative similare acesteia. Teoria se doreşte a fi un model formal, care se distanţează de detaliile ce ar putea fi asociate participanţilor la discurs. Realizând proiecţii corespunzătoare utilizatorului de limbaj, însoţite de detalii specifice, ea s-ar putea regăsi atât în construcţia unui sistem automat cît şi într-o teorie psihologică, ambele consumatoare de limbaj natural. Deşi recunoaşte însemnătatea mesajului transmis de un discurs, teoria nu adresează problema înţelesului discursului şi a manierei în care acesta poate fi dedus din elementele constitutive ale textului. Ea este, primordial, o teorie a structurii discursului, prin aceasta plasându-se la baza oricărei tentative de a aborda problema construirii sensului.

(2)

Conform lui Grosz şi Sidner intenţiile joacă rolul principal în explicarea structurii discursului, în timp ce dinamica atenţiei joacă rolul principal în explicarea interpretării discursului. Structura discursului are trei componente distincte, dar strâns corelate:

- o structură lingvistică, care face ca una sau mai multe propoziţii, exprimări (utterance în engleză) să fie agregate într-un segment de discurs iar limitele dintre segmente să fie indicate de expresii lingvistice, intonaţie, schimbări ale timpului şi aspectelor verbelor. Segmentul de discurs are însă o definiţie recursivă: un segment poate îngloba alte segmente, acestea pe altele ş.a.m.d.;

- o structură intenţională, care face să vedem discursul ca având un scop global (scopul discursului – SD), care este scopul fundamental al vorbitorului/scriitorului la emiterea discursului şi fiecare segment al său are un scop al segmentului (scopul segmentului de discurs – SSD) care este un subscop al scopului segmentului din care face el parte. Dintr-un punct de vedere intuitiv, SSD specifică cum contribuie respectivul subsegment la realizarea scopului segmentului din care face el parte. Teoria admite că nu există o listă finită de scopuri ale discursului, care să facă posibilă o comparaţie cu lista categoriilor gramaticale, de exemplu. Conform teoriei, două relaţii structurale sunt suficiente pentru a compune structura discursului: relaţia de dominare (dacă SSD1 domină SSD2 atunci SSD2 contribuie la SSD1, sau SSD2 este intenţionată să satisfacă parţial SSD1) şi relaţia de satisfacere-precedenţă (SSD1 satisface-precede SSD2 dacă SSD1 trebuie satisfăcut înainte de SSD2);

- o stare atenţională, prin care se asociază fiecărui segment al discursului un spaţiu al entităţilor aflate în centrul atenţiei. Starea atenţională este o proprietate a discursului iar nu a participanţilor la discurs.

Ea reprezintă o trăsătură dinamică a discursului, păstrând obiecte, proprietăţi şi relaţii ce sunt importante la fiecare moment al parcurgerii discursului. Starea atenţională e modelată printr-un set de spaţii ale centrelor atenţiei, în timp ce schimbările ce pot avea loc în starea atenţională sunt restricţionate de un set de reguli de tranziţie care arată condiţiile de adăugare şi ştergere a spaţiilor.

Colecţia tuturor spaţiilor centrelor de atenţie ce sunt disponibile în fiecare moment al interpretării unui discurs formează o structură a atenţiei ce are dinamica unei stive şi care ar fi capabilă să explice procesele implicate în procesarea discursului, inclusiv accesibilitatea referenţială: domeniul în care trebuie căutate entităţile de discurs referite în segmentul corespunzător stării atenţionale aflate în vârful stivei este cel al stărilor aflate în stivă.

Structura recursivă a segmentului de discurs din AST permite şi aici acceptarea unei reprezentări arborescente, în cadrul căreia cele două relaţii între segmente, de dominare şi de satisfacere-precedenţă, nu sunt altceva decât relaţiile topologice normale pe orice structură de arbore: cea dintre părinte şi orice fiu al său şi, respectiv, cea de ordine dintre fraţi. AST se constituie într-o teorie globală asupra structurii şi a coeziunii discursului.

Cercetători precum Moser şi Moore [1996] sau Marcu [1999] pun în evidenţă similarităţi semnificative între AST şi RST, inclusiv în ceea ce priveşte maniera de reprezentare prin arbori a structurii de discurs, ceea ce permite combinarea puterii de reprezentare, mai fine în RST, datorită proliferării relaţiilor, cu implicaţiile pe care structura le poate avea asupra referenţialităţii, puse în evidenţă de AST. Utilizând structura de segmente şi stiva, ca mecanism de prelucrare, AST propune o manieră de a rezolva accesibilitatea referinţelor anaforice printr-o transparenţă pe verticală, de sus în jos, de-a lungul stărilor atenţionale ce se află la un moment dat în stivă. Reprezentarea prin segmente din AST are însă o slăbiciune:

modelul stivă nu poate reflecta relaţia de dominare atunci când scopul dominat corespunde unui segment care apare în text înaintea celui care domină [Ide, Cristea, 2000]. Să remarcăm că defectul este unul de granularitate pentru că identificarea segmentului dominat ce precede pe cel dominator cu însuşi segmentul dominator elimină problema. AST nu e, aşadar, capabilă să reprezinte segmente având o granularitate oricât de fină: coborând de la o granularitate grosieră la una fină, există o limită dincolo de care ne putem aştepta la grave contradicţii.

Teoria centrelor (centering, CT) [Grosz et al., 1995, Brennan et al., 1987] furnizează explicaţii convingătoare asupra contextelor ce permit utilizarea pronumelor pentru realizarea referinţelor şi asupra ce anume face un discurs să fie coerent. CT nu se aplică însă dincolo de limitele unui segment (văzut în accepţiunea din AST). Avem de a face, aşadar cu o teorie locală asupra coeziunii şi coerenţei. Deşi nu este definită riguros în teorie, în toate exemplele autorilor unitatea elementară a structurii lingvistice este fraza (utterance, exprimare). Abordări ulterioare întrevăd posibilitatea de a considera o segmentare mai fină, la nivel de propoziţie (v. [Kameyama, 1998] de exemplu). Noi vom considera drept unitate a structurii de discurs acelaşi tip de întindere lexicală ca şi în cazul RST, adică acea întindere ce la nivel sintactic este o propoziţie iar la nivel semantic – o predicaţie. Fiecare unitate de discurs un ce intră în compoziţia unui segment este caracterizată de o listă de centre anticipatoare (forward-looking) notată Cf(un). Centrele listei

(3)

Cf(un) sunt entităţi semantice ce corespund, la nivelul textului, expresiilor referenţiale cuprinse în unitatea un. Spunem că o expresie referenţială realizează un centru. Elementele acestei liste sunt ordonate pentru a reflecta importanţa relativă în un. Criteriile de ordonare a elementelor listei Cf, sunt, în forma originară a teoriei, de natură sintactică, deşi alte abordări le diferenţiază în funcţie de limbă (v. de exemplu [Walker et al., 1994] pentru japoneză, [deEugenio, 1990, de Eugenio, 1998] pentru italiană, sau [Strube, Hahn, 1996]

pentru germană). Pentru limba engleză, autorii CT dau următorul criteriu: subiect > obiect-direct> obiect- indirect > complemente > adjuncţi. Elementele listei Cf(un) sunt acele entităţi despre care se vorbeşte în unitatea un şi deci despre care e cel mai probabil că se va continua să se vorbească şi în unitatea următoare, un+1, dacă aceasta aparţine aceluiaşi segment ca şi un. Cel mai bine plasat element al listei Cf(un) se numeşte centru principal şi se notează Cp(un). Fiecărei unităţi îi este asociat un unic centru retroactiv (backward- looking), notat Cb(un). Prin convenţie, centrul retroactiv al primei unităţi a segmentului este considerat centrul principal, în timp ce, pentru toate celelalte unităţi ale segmentului, el este cel mai bine plasat element al listei Cf a unităţii precedente care este de asemenea realizat şi în unitatea curentă.

Teoria face o clasificare a tranziţiilor posibile între unităţi consecutive, din punctul de vedere al invarianţei ori nu a centrelor retroactive şi al identificării ori nu a lor cu centrele principale. Astfel, cu excepţia cazului în care între unităţi succesive ale aceluiaşi segment nu există centre comune, următoarele patru tipuri de tranziţii sunt posibile:

CONTINUARE (continuing, CON): Cb(un+1) = Cb(un) şi Cb(un+1) = Cp(un+1), corespunzând situaţiei în care atât în un cât şi în un+1 se vorbeşte despre aceeaşi entitate şi este de aşteptat ca şi în unitatea următoare să se vorbească despre ea.

REŢINERE (retaining, RET): Cb(un+1) = Cb(un) dar Cb(un+1) ≠ Cp(un+1), a cărui interpretare este că, deşi atât în un cât şi în un+1 se vorbeşte despre aceeaşi entitate, este de aşteptat ca în unitatea următoare să se vorbească despre o alta.

SCHIMBARE LINĂ (smooth-shifting, SSH): Cb(un+1) ≠ Cb(un) dar Cb(un+1) = Cp(un+1), cu semnificaţia că în un şi în un+1 nu se vorbeşte despre aceeaşi entitate şi este de aşteptat ca în unitatea următoare să se vorbească despre entitatea despre care s-a vorbit ultima oară.

SCHIMBARE ABRUPTĂ (abrupt-shifting, ASH): Cb(un+1) ≠ Cb(un) şi Cb(un+1) ≠ Cp(un+1), cu semnificaţia că în un şi în un+1 nu se vorbeşte despre aceeaşi entitate şi este de aşteptat ca în unitatea următoare să se vorbească despre o altă entitate decât ultima menţionată.

Nucleul CT este concentrat în două reguli, prima enunţând o constrângere asupra formei de realizare a centrelor prin pronume, iar cea de a doua formulând preferinţe asupra secvenţelor de tranziţii ale centrelor.

Regula a doua, cea care se referă la coerenţă, formulează presupunerea că anumite secvenţe produc o încărcare inferenţială în ascultător mai mare decât altele:

Regula 2: Secvenţele de continuări sunt preferabile secvenţelor de reţineri, care sunt preferabile secvenţelor de schimbări line, iar acestea sunt preferabile secvenţelor de schimbări bruşte: CON > RET > SSH > ASH.

Dacă ne abţinem de a penaliza CT, ca teorie locală, aşadar aplicabilă la întinderea unui segment, pe motivul fragilităţii noţiunii de segment, care are o definiţie recursivă (un segment este constituit din alte segmente), slăbiciune moştenită de la AST, atunci apare naturală tentativa de a lărgi aplicabilitatea CT la întregul discurs, într-o manieră recursivă, pe chiar această structură de segment, definită, ea însăşi, recursiv.

Teoria nervurilor propune o astfel de generalizare.

Teoria nervurilor (veins theory, VT) [Cristea et al., 1998], preluând de la RST diferenţierea dată de nuclearitate între argumentele relaţiilor retorice dar ignorând, ca şi în AST, numele acestora, relevă o structură "ascunsă" în arborele de discurs, numită nervură. Fără a nega structura lingvistică a segmentelor de discurs, cât şi pe cea intenţională a relaţiilor dintre scopurile comunicate de segmente şi care, prin echivalarea de care am amintit ([Moser, Moore, 1996, Marcu, 1999]), poate fi recuperată din structura de arbore proprie analizelor RST, VT corectează defectul de accesibilitate al AST înlocuind modelul accesibilităţii în stivă cu accesibilitatea de-a lungul nervurilor arborelui de discurs şi explicând naturaleţea unor referinţe la distanţă realizate prin mijloace de evocare foarte economice (pronume) [Fox, 1987].

(4)

Concluziile VT sunt, de asemenea, stabile la granularitate. În felul acesta VT se constituie într-o teorie globală a coeziunii discursului. VT generalizează totodată partea din CT relativă la încărcarea inferenţială (regula a doua), extinzând concluziile ei la întregul discurs, prin aceasta VT constituindu-se şi într-o teorie globală a coerenţei.

În secţiunea următoare sunt prezentate argumente lingvistice în favoarea teoriei. Secţiunea 3 prezintă definiţiile teoriei, secţiunea 4 enunţă conjectura VT relativă la referenţialitate, iar secţiunea 5 – conjectura VT referitoare la coerenţă. Secţiunea 6 descrie rezultate experimentale în sprijinul presupoziţiilor VT, secţiunea 7 prezintă o proprietate de granularitate, iar ultima secţiune este dedicată concluziilor şi prezentării unor aplicaţii ale VT.

2. Intuiţiile VT

Noţiunea de nervură s-a născut sintetizând observaţiile asupra modului în care se aliniază referinţele pe o reprezentare arborescentă a discursului. Considerând organizarea ierarhică dată de structura de arbore şi principiul compoziţionalităţii, care permite ca unităţi de discurs aflate la distanţă să fie fraţi sub aceeaşi relaţie, aceste observaţii au fost următoarele (pentru simplificarea exprimării vom spune că "o unitate A referă o unitate B" şi vom înţelege "o expresie referenţială aparţinând unei unităţi A referă o entitate de discurs introdusă de (sau referită dintr-o) unitate B"; de asemenea vom nota cu u1, u2, u3 – unităţi de discurs iar cu R, R1, R2 – relaţii. Atunci când apar ca argumente ale unei relaţii, unităţile de discurs vor purta un indice ridicat n sau s, cu semnificaţia de nucleu sau satelit):

- un satelit sau un nucleu poate referi un frate nuclear aflat la stânga: în combinaţii u1n R u2s, sau u1n R u2n, u2 poate referi u1;

Ex. 1

1. Ion a plecat de acasă fără umbrelă

2. deşi dimineaţă ø aflase la radio că va ploua.

Subiectul vid (notat ø) din unitatea 2, un satelit al unităţii 1, referă entitatea [Ion]1 introdusă de expresia referenţială Ion din prima unitate.

- un nucleu poate referi un satelit al său aflat la stânga: în combinaţii u1s R u2n, u2 poate referi u1. Astfel, în exemplul:

Ex. 2

1. Ion i-a dat Mariei o floare.

2. Pentru că ø s-a simţit frustrată, 3. soţia lui s-a supărat.

unitatea 2 este un satelit al unităţii 3. Pe cine desemnează pronumele vid (notat ø) din 2, pe [Maria] sau pe [soţia lui Ion]? Într-o interpretare incrementală a textului, la sfârşitul recepţionării celei de a doua unităţi avem tendinţa de a asocia, prea timpuriu, subiectul vid [Mariei]. După citirea unităţii 3 are loc însă o reconsiderare a legării øÆ [Maria] şi o identificare a expresiei referenţiale soţia lui cu subiectul vid din 2, ambele indicând entitatea [soţia lui Ion].

- un satelit drept al unui nucleu u nu e accesibil dintr-un alt frate drept, nuclear sau satelit, al lui u: în combinaţii (u1n R1 u2s)n R2 u3n sau (u1n R1 u2s)n R2 u3s, u3poate referi u1 dar nu u2.

Ex. 3

1. Ion i-a mărturisit Mariei că o iubeşte.

2. El n-a fost niciodată căsătorit

3. şi a trăit până la 40 de ani lângă mama sa.

4. Ea, dimpotrivă, a fost măritată de două ori.

1 Vom nota prin [text] entitatea de discurs introdusă/referită de expresia referenţială text.

(5)

Secvenţa 2-3-4 oferă o explicaţie la 1. Secvenţa 2-3 se află într-o relaţie de CONTRAST (o relaţie paratactică) faţă de 4, iar 3 aduce o completare la 2. Structura este deci următoarea:

u1n R1 ((u2n R2 u3s)n R3 u4n)s în care R3 este relaţia CONTRAST. Pentru cei mai mulţi cititori, ea din unitatea 4 trebuie să fie [Maria], iar nu [mama lui Ion], deşi [mama lui Ion] este entitatea cea mai recent referită, din poziţia unităţii 4, cu care pronumele feminin se potriveşte în număr şi gen. Motivul preferării Mariei în locul mamei este acela că cititorul recunoaşte unitatea 4 ca fiind într-o relaţie de CONTRAST cu unitatea 2 (relaţie pusă în evidenţă prin dimpotrivă), ceea ce face ca cele două unităţi să fie percepute ca fiind adiacente. Apropierea lor nu este însă una liniară, ci ierarhică, pe structură. Unitatea 3 este închisă la referinţă din unitatea 4.

- un nucleu blochează accesibilitatea dintr-un satelit drept spre un satelit stâng: în combinaţii (u1s R1 u2n)n R2 u3s, u3poate referi u2 dar nu u1.

Ex. 4

1. Încă înainte cu un an de terminarea mandatului său de preşedinte al firmei 2. dl. W. Ross începuse maşinaţiile pentru falimentarea acesteia.

*3. De altfel, circulau vorbe că l-ar fi obţinut fraudulos.

În acest exemplu 1 şi 3 sunt sateliţi ai lui 2 (1 este o circumstanţială a lui 2, în timp ce unitatea 3 dă o explicaţie la purtarea necinstită a lui Ross). Referinţa l=[mandatul de preşedinte al firmei al lui Ross] se deduce cu dificultate, ceea ce face ca întregul discurs să fie defectuos. Dimpotrivă, în următoarea variantă, discursul câştigă în cursivitate:

Ex. 5

1. Dl. W. Ross începuse maşinaţiile pentru falimentarea firmei al cărei preşedinte era 2. încă înainte cu un an de terminarea mandatului său.

3. De altfel, circulau vorbe că l-ar fi obţinut fraudulos.

În Ex. 5 unitatea 2 este un satelit al lui 1, iar 3 – un satelit al lui 2 (aici de altfel anunţă o paranteză la informaţia asupra mandatului de preşedinte). Referinţa l=[mandatul de preşedinte al firmei al lui Ross]

poate fi recuperată acum fără dificultate.

Motivaţia acceptării Ex. 5 şi rejectării Ex. 4, constă nu în depărtarea liniară mai mare a anaforului de antecedent în Ex. 4 decât în Ex. 5, ci în faptul că în Ex. 4, spre deosebire de Ex. 5, accesul anafor- antecedent se face dinspre un satelit către un alt satelit, între ei interpunându-se un nucleu. Să remarcăm că Ex. 4 este reparat dacă se elimină această referinţă:

Ex. 6

1. Încă înainte cu un an de terminarea mandatului său de preşedinte al firmei 2. dl. W. Ross începuse maşinaţiile pentru falimentarea acesteia.

3. De altfel, circulau vorbe că el ar fi fraudulat alegerile.

3. Definiţiile teoriei

Intuiţia fundamentală care stă la baza dezvoltărilor unificatoare asupra structurii de discurs şi accesibilităţii în VT este că distincţia specifică RST dintre nuclee şi sateliţi constrânge plaja de referenţi asupra cărora pot fi rezolvaţi anaforii; cu alte cuvinte, distincţia nucleu-satelit, corelată cu o structură de discurs, induce pentru fiecare unitate de discurs un domeniu de accesibilitate referenţială imediată pentru anaforii pe care-i conţine. Mai precis, pentru fiecare anafor x aparţinând unei unităţi de discurs u, VT avansează ipoteza că x poate fi rezolvată cu uşurinţă examinând doar un subset al mulţimii entităţilor de discurs care preced u. Dacă antecedentul lui x este plasat într-o unitate de discurs aflată în afara domeniului lui u atunci legătura anafor-antecedet este refăcută cu greutate, sau pentru realizarea ei e nevoie de mijloace referenţiale tari, cum sunt, de exemplu, numele proprii.

Mai mult decât atât, aceeaşi corelaţie nuclearitate-structură, aplicată întregului discurs, permite generalizarea CT dincolo de graniţele unui segment, ceea ce face posibilă aplicarea concluziilor CT asupra coerenţei la întregul discurs.

(6)

VT se bazează, în mare măsură, pe aceleaşi elemente ale structurii de discurs ca şi RST:

- unităţile de bază ale discursului sunt întinderi de text (în engleză – text span) ce nu se intersectează.

După cum am precizat mai sus, noi le vom asimila cu propoziţii, la nivel semantic fiecare conţinând o predicaţie (căreia îi corespunde o reprezentare evenimenţială sau situaţională);

- structura unui discurs este reprezentată ca un arbore. Spre deosebire de RST, dar fără a reduce generalitatea, în VT vom considera arborii de discurs ca fiind binari (fiecare nod are exact doi descendenţi) (pentru argumentaţie, v. [Marcu, 2000] şi [Cristea, Webber, 1997]);

- principiul secvenţialităţii [Cristea, Webber, 1997]: secvenţa de noduri de pe frontiera terminală a arborelui corespunde secvenţei de unităţi de discurs ce compune textul2;

- principiul compoziţionalităţii [Marcu, 2000]: o relaţie ce se aplică între două întinderi de text se aplică, de asemenea, şi între subîntinderile nucleare ale întinderilor aflate în relaţie;

- la fel ca în RST, nuclearitatea nodurilor este importantă, nodurile fiind clasificate în nuclee (cele mai importante) şi sateliţi (cele mai puţin importante);

- nodurile terminale ale arborelui reprezintă unităţile de discurs, în timp ce nodurile neterminale reprezintă relaţii retorice între întinderi adiacente de text. Spre deosebire de RST, în VT nu interesează numele relaţiilor, ceea ce contează fiind topologia arborelui, nuclearitatea nodurilor şi etichetarea nodurilor terminale;

- între fiii fiecărui nod intermediar al arborelui există cel puţin un nod nuclear. Nodul rădăcină, prin convenţie, e considerat satelit.

În vizualizarea arborilor vom reprezenta nodurile neterminale prin dreptunghiuri fără nume, pe cele terminale – prin ovaluri etichetate, iar nodurile nucleare vor fi subliniate (v. Figura 1). În definiţiile ce urmează vom folosi următoarele convenţii de notare:

- mark(α) este o funcţie care întoarce şirul α în care fiecare simbol este marcat (de exemplu, este poziţionat între paranteze);

- unmark(α) este funcţia inversă lui mark(), ce îndepărtează toate marcajele ataşate simbolurilor din expresia α (ex. unmark(mark(α)) = α);

- simpl(α) este funcţia care elimină toate simbolurile marcate din expresia argumentului α (ex.

simpl(mark(α)) = ø, şirul vid şi simpl(α · mark(β) · γ)) = α · γ);

- seq(α, β) este o funcţie de secvenţiere, care întoarce acea permutare a concatenării simbolurilor din α şi β dată de citirea de la stânga la dreapta a nodurilor corespunzătoare simbolurilor din α şi β pe frontiera terminală a arborelui. Funcţia menţine marcajele asupra simbolurilor, dacă acestea există, seq(ø, β) = β; şi seq(α, seq(β)) = seq(seq(α), β) = seq(α, β);

- H(n) şi V(n) reprezintă expresiile head şi nervură (în engleză – vein) ale unui nod n;

- pref(u, α) reţine prefixul expresiei simbolice α până la simbolul u inclusiv, o etichetă de nod terminal.

Teoria nervurilor calculează două expresii pe care le ataşează fiecărui nod al structurii.

3.1 Expresia head a unui nod al arborelui

Intenţia expresiei head a unui nod al arborelui de discurs este de a pune în evidenţă secvenţa celor mai importante unităţi de discurs din întinderea de text acoperită de nod. Ea este o secvenţă de etichete de unităţi, după cum urmează:

Definiţii

1. Expresia head a unui nod terminal este eticheta sa;

2. Expresia head a unui nod neterminal este dată de concatenarea, în ordinea apariţiei lor în arbore de la stânga la dreapta, a expresiilor head ale descendenţilor săi nucleari.

2 Unităţile de discurs întrerupte nuanţează acest principiu. Astfel într-un discurs precum următorul: O dată,1/ când treceau unul pe lângă altul pe coridor,2/ ea îi aruncase o privire piezişă1/ care parcă-l străpunsese3/ şi pentru o clipă fusese cuprins de o groază oarbă.4/ (G. Orwell, 1984), unitatea 1 este întreruptă de unitatea 2.

(7)

Definiţiile expresiilor head sugerează un proces de calcul care se propagă de jos în sus în arborele de discurs. Cele mai importante unităţi de discurs sunt proiectate în sus până în primul nod satelit întâlnit.

Figura 1: Calculul expresiilor head 3.2 Expresia nervurii unui nod al arborelui

Expresia nervurii unui nod intenţionează să surprindă secvenţa unităţilor de discurs care sunt semnificative pentru a sintetiza3, în contextul întregului text, întinderea de text (în engleză – text span) acoperită de nod. Pentru orice nod al structurii, expresia nervurii este formată din cele mai importante unităţi din întinderea acoperită de nod, împreună, eventual, cu alte unităţi din afara acestei întinderi.

Definiţiile care urmează, datorită recursivităţii lor, vor face posibilă considerarea contextului dat de totalitatea textului din exprimarea "a înţelege, în contextul întregului text, întinderea s" mărginit la întinderea de text acoperită de nodul părinte al celui corespunzător întinderii s. Cu alte cuvinte, la fiecare nivel al structurii, cu excepţia rădăcinii, adică acolo unde există două noduri fii sub un nod părinte, cu întinderile celor două noduri fii însumând întinderea nodului părinte, expresia nervură a părintelui conţine deja informaţia care permite înţelegerea/rezumarea întinderii acoperite de el în contextul global. Coborârea pentru înţelegerea/rezumarea subîntinderii acoperite de nodul curent al definiţiei (unul dintre cele două noduri fii) înseamnă adăugarea şi/sau ştergerea unei secvenţe noi/subsecvenţe la/din secvenţa de etichete contribuită de nervura părintelui, în funcţie de polaritatea şi poziţia specifică a întinderii corespunzătoare nodului fiu curent în întinderea nodului părinte. În continuare, întinderea întregului text, o constantă pentru orice subîntindere, va fi numită contextul total. În figurile 2-6, nodurile curente – cele vizate de definiţiile curente de nervură – apar în gri. Ele sunt notate simultan cu un dreptunghi şi un oval pentru a sugera că pot fi atât noduri interioare (neterminale), cât şi noduri terminale.

Definiţii

1. Expresia nervurii rădăcinii este egală cu expresia sa head.

Expresia nervurii nodului rădăcină, conform intenţiei generale a nervurii unui nod, ar trebui să fie formată din cele mai semnificative unităţi de discurs necesare înţelegerii/rezumării întinderii acoperite de nod (în cazul de faţă – întregul text) în contextul total. Cum contextul este aici egal cu textul în totalitatea lui, el poate fi lăsat la o parte în descriere, ceea ce ne lasă cu definiţia expresiei head a nodului rădăcină.

2. Pentru fiecare nod nuclear, al cărui părinte are nervura v:

a. dacă nodul nu are un frate nenuclear în stânga, atunci expresia nervurii este v (v. Figura 2);

3 Prin sinteza, sau rezumatul, unei întinderi de text se înţelege un text mai scurt care redă ideea principală a textului supus sintezei. Indiferent dacă este realizat prin parafrazare sau prin punerea cap la cap a unor subsecvenţe ale întinderii originale [Mani, 2001], orice rezumat trebuie să fie comprehensibil, adică trebuie să poată fi înţeles prin el însuşi (printre altele, de exemplu, rezumatul trebuie să conţină toate elementele care să permită rezolvarea anaforilor). Adesea însă, atunci când întinderea este decupată dintr-un context mai larg, pentru ca rezumatul să fie comprehensibil, el trebuie să conţină şi elemente din afara întinderii şi care aparţin contextului. Avem de a face, în acest caz, cu o sinteză a unei întinderi de text în contextul unei întinderi mai vaste. Să mai observăm că, în multe privinţe, "a sintetiza" e analog cu "a înţelege", pentru că ceea ce ne rămâne după lectura unui text este o sinteză a lui.

direcţia de propagare a calculelor pentru expresiile head

b a

c H=a

H=a

H=b

H=c H=c

d H=d

H=cd

(8)

Figura 2: Expresia nervurii unui nod nuclear fără frate satelit în stânga

Definiţia exprimă faptul că secvenţa de unităţi necesară înţelegerii/rezumării, în contextul total, a unei întinderi nucleare de text ce are ca frate în structură o altă întindere nucleară necesită aceeaşi secvenţă de unităţi ca şi cea necesară înţelegerii/rezumării, în contextul total, a reuniunii celor două întinderi. Cu alte cuvinte, o întindere nucleară ce este frate, în structură, întinderii nucleare curente este esenţială înţelegerii/rezumării întinderii curente.

b. dacă nodul are un frate nenuclear în stânga de head h, atunci expresia nervurii lui este seq(mark(h), v) (v. Figura 3);

Figura 3: Expresia nervurii unui nod nuclear având un frate satelit în stânga

Secvenţa de unităţi necesară înţelegerii/rezumării, în contextul total, a unei întinderi nucleare de text ce are ca frate stâng în structură o întindere nenucleară necesită, suplimentar faţă de secvenţa necesară înţelegerii în contextul total a întinderii acoperită de nodul părinte (comunicată de expresia nervură a nodului părinte) şi secvenţa head a întinderii frate stângi (adică cele mai importante unităţi din întinderea stângă). Considerarea, în expresia nervurii întinderii nucleare curente, a expresiei head a întinderii nenucleare frate stângi, corespunde, prin prisma definiţiei 2a, cu atribuirea întinderii stângi a calităţii de a se comporta ca un nucleu. Marcarea contribuţiei satelitului frate stâng prin funcţia mark() face însă această revizuire a nuclearităţii lui, una cu valoare temporară, după cum se va dovedi mai jos, în definiţia 3b.

3. Pentru fiecare nod nenuclear de head h, al cărui părinte are nervura v:

a. dacă nodul este descendentul stâng al părintelui său, atunci expresia nervurii este seq(h, v);

Figura 4: Expresia nervurii unui nod satelit stâng V=v

H=h V=seq(mark(h), v)

V=v

H=h

V=seq(h, v) V=v

V=v V=v

(9)

Definiţia exprimă faptul că pentru a înţelege/rezuma, în contextul total, o întindere nenucleară de text ce este descendent stâng, în structură, nodului părinte, la secvenţa de unităţi necesară înţelegerii/rezumării contextului total (contribuită de expresia nervură a părintelui) trebuie adăugate cele mai importante unităţi din întinderea proprie (contribuite de expresia head proprie). Să observăm că în expresia nervurii nodului părinte, care moşteneşte expresii head ale nodurilor superioare, nu poate răzbate influenţa unui fiu satelit al său, deci numai includerea head-ului fiului satelit, direct în expresia nervurii sale poate completa această influenţă.

b. dacă nodul este descendentul drept al părintelui său, atunci expresia nervurii lui este seq(h, simpl(v)).

Figura 5: Expresia nervurii unui nod satelit drept

Pentru a înţelege, în contextul total, o întindere nenucleară de text ce este descendent pe dreapta al nodului părinte, la secvenţa de unităţi necesară înţelegerii/rezumării contextului total (contribuită de expresia nervură a părintelui) şi din care s-au şters unităţile marcate trebuie adăugate cele mai importante unităţi din întinderea proprie (contribuite de expresia head proprie). În acest fel, dacă expresia nervură a nodului părinte nu conţine unităţi marcate (prin contribuţia definiţiei 2b), atunci expresia nervură a unui satelit drept nu diferă de expresia nervură a aceluiaşi satelit ce ar fi fost poziţionat pe stânga (conform definiţiei 3a). Dacă însă nervura părintelui conţine unităţi marcate, atunci acestea dispar din expresia nervurii satelitului drept. Cum, conform definiţiei 2b, unităţile marcate pot fi contribuite doar de un satelit stâng, frate al celui mai apropiat ascendent nuclear al întinderii curente, urmează că definiţia curentă exprimă o proprietate de blocare a accesibilităţii dinspre un satelit plasat în dreapta unui nucleu către un satelit plasat în stânga sa (v. Figura 6).

Figura 6: Simplificări în calculul expresiei nervură a unui satelit drept:

V=seq(h2, simpl(seq(v, mark(h1))) = seq(h2, seq(v)) = seq(h2, v)

Dacă semnificaţia expresiei nervurii unui nod oarecare din structură este particularizată la un nod terminal, obţinem: expresia nervurii unei unităţi de discurs reprezintă secvenţa unităţilor de discurs care sunt semnificative pentru a înţelege/rezuma, în contextul întregului text, însăşi unitatea de discurs în cauză. Printre altele, aceasta înseamnă că expresia nervurii unei unităţi de discurs este suficientă pentru a interpreta toate referinţele anaforice conţinute în unitate.

V=v

H=h

V=seq(h, simpl(v))

V=seq(v, mark(h1))

H=h2

V=seq(h2, v) V=v

H=h1

(10)

4. Relaţia dintre structura de discurs şi referenţialitate

Ipoteza pe care o avansăm este că există două tipuri de procese de rezoluţie anaforică: evocative (sau imediate) şi post-evocative (sau inferenţiale). Procesele evocative, cele mai frecvente, sunt rapide şi pot fi realizate prin orice mijloace de evocare referenţială, inclusiv cele fragile (de tipul subiectelor vide şi pronumelor). Ele dau textului fluenţă şi-l fac coeziv. Cele post-evocative sunt mult mai puţin frecvente decât cele evocative, necesită o încărcare inferenţială mai mare pentru procesarea lor şi utilizează mijloace referenţiale tari (nume proprii, substantive comune articulate).

Vom asocia spaţiul de căutare al proceselor evocative unui domeniu de accesibilitate referenţială evocativă sau imediată (domain of evocative accessibility – dea) pe baza definiţiei nervurii şi al următoarelor observaţii:

- natura semantică a relaţiei anaforice [Halliday, Hassan, 1976]: o relaţie anaforică are doi termeni:

anaforul şi antecedentul. Anaforul este reprezentat de o expresie referenţială a cărei natură este textuală. Natura semantică a relaţiei anaforice trebuie înţeleasă ca răsfrângându-se asupra antecedentului care nu trebuie identificat cu o anumită expresie referenţială ce precede în text anaforul ci cu o reprezentare a acesteia într-un plan semantic în aşa fel încât semnificaţia anaforului se construieşte din cea a antecedentului însuşi iar nu a semnificaţiei lui. În cazul particular al unui lanţ co- referenţial acest lucru înseamnă că antecedentul este "realizat" repetat în text în aceeaşi entitate de discurs. Expresiile co-referenţiale "ancorează" în diverse poziţii ale textului entitatea de discurs.

- dinamica incrementală a interpretării discursului: un discurs este un text în procesul citirii ori ascultării lui de către un subiect (om sau maşină). Când citirea/ascultarea unui text s-a terminat discursul este încheiat şi ceea ce rămâne este o reprezentare a lui în memoria subiectului. De asemenea, la un moment dat pe parcursul interpretării unui text, anumite elemente ale discursului pot fi plasate privilegiat în sfera atenţiei [Grosz, Sidner, 1986, Sidner, 1983, Walker, 1996], iar trecerea de la o unitate de discurs la următoarea poate produce schimbări în structura memorată ce configurează sfera atenţională.

- natura cognitivă comună a anaforei şi a cataforei: dintr-un punct de vedere cognitiv, toate referinţele anaforice se fac dinspre expresii referenţiale (entităţi textuale) către entităţi ale discursului (entităţi semantice) deja introduse de discursul trecut. Acest lucru înseamnă că într-o limbă în care textul se notează de la stânga spre dreapta nu există referinţe anaforice spre dreapta. Distincţia dintre anaforă şi cataforă, devine, în această viziune care încearcă să reconstituie procesele cognitive ce stau la baza înţelegerii textelor (cu sau fără scopul simulării lor pe maşină), inutilă. În aceeaşi manieră în care, într-o anaforă, un antecedent este o entitate de discurs propusă de o expresie referenţială ce precede anaforul şi pe care anaforul o referă apoi, pronumele ce precede un nume într-o cataforă propune o reprezentare, mai săracă, pe care numele o referă şi o completează în acelaşi timp [Cristea, Dima, 2001]. Acest lucru atribuie interpretării discursului o unică direcţionalitate, care corespunde axei timpului lecturii, şi care este cea a desfăşurării liniare a textului (pentru limbile europene, de exemplu, de la stânga la dreapta). Relaţia de referenţialitate trebuie deci să se proiecteze pe această axă, dinspre entităţi "noi" către entităţi "vechi", mereu către înapoi pe axa timpului lecturii.

Ex. 7

1. Pentru că φ n-a vrut să-şi lase tata singur, 2. Ion a renunţat la concediu.

Expresia referenţială vidă de pe poziţia de subiect a unităţii de discurs 1 propune o entitate de discurs caracterizată cel mult de o descriere [type human] (contribuită, cel mai probabil, de surse de cunoaştere de natură pragmatică: cineva care nu poate să-şi lase tatăl singur trebuie să fie o persoană).

Apoi, substantivul propriu Ion, din unitatea 2, referă entitatea construită precedent şi o completează până la o reprezentare: [type human, name Ion].

Corelarea definiţiei nervurii cu observaţiile de mai sus, conduce la definirea domeniului de accesibilitate referenţială evocativă ca fiind format din toate unităţile de discurs care preced unitatea în care se găseşte expresia referenţială (şi din care au fost îndepărtate eventualele marcaje, ce îndeplineau un rol de memorie temporară):

(11)

dea(u) = pref(u, unmark(V(u)).

Definiţia dea formalizează prima conjectură a VT (sau a coeziunii), care pune în legătură accesibilitatea referenţială imediată de structura de discurs: antecedenţii expresiilor referenţiale dintr-o unitate de discurs u se găsesc, cu precădere, printre entităţile de discurs ancorate în unităţile ce preced pe u, inclusiv u, în expresia nervurii acesteia.

Paul Cornea [1998] vorbeşte despre recodificarea sensului şi memorizarea. El pune în evidenţă trei tipuri de memorie, ce apar, de altfel, la mai mulţi cercetători [Kinntsch, Van Dijk, 1975, Schank, Abelson, 1977, Walker, 1996]: memoria imediată, memoria de scurtă durată (de termen scurt – MST) şi cea de lungă durată (de termen lung – MLT). Memoria imediată este un sistem de stocaj senzorial al informaţiilor, reţinerea urmelor din ultima jumătate de secundă. MST conservă câteva secunde informaţia. Lungimea acestei memorii pare a fi de 7±2 semne (cuvinte, cifre, litere – funcţie de context, v. şi [Miller, 1956]; alţi cercetători apreciază acest “empan” mijlociu la 13-15 cuvinte, la un lector lent fiind de 8 cuvinte, la unul rapid – de 16-20, de ex. [Richadeau, 1969] – citat în [Cornea, 1998] p. 166).

Construcţia structurii de discurs se face dinamic, în actul lecturii. Să ignorăm un posibil proces de multi-interpretare ce poate duce la sintetizarea simultană a mai multor construcţii alternative din care să se selecteze, în urma unui proces de dezambiguizare, una sau mai multe structuri arborescente finale. Arborele însuşi poate fi considerat rezumat în diverse grade, conform capacităţii de memorare a subiectului. Dacă unitatea curentă este un, să notăm ARn arborele de structură rezumat, la momentul prelucrării unităţii un. Nervura acesteia, culeasă pe ARn, este V(un), iar domeniul ei de accesibilitate imediată dea(un). Noi credem că MST poate fi considerată o fereastră de lungime 7±2 semne în directă legătură cu dea(un): fie 7±2 unităţi din această secvenţă, fie tot atâtea structuri evenimenţiale – ca reprezentări ale unităţilor de discurs, fie încă numai simboluri (cuvinte etc.) culese din acest şir de unităţi. Tranzitarea la următoarea unitate, un+1, înseamnă înlocuirea memoriei de scurtă durată dea(un) cu dea(un+1). Acest lucru duce uneori la o simplă prelungire a domeniului de accesibilitate precedent, alteori la o alterare a lui prin ştergerea unor unităţi şi adăugarea altora, de fiecare dată domeniul încheindu-se cu unitatea curentă. MST este aşadar o proiecţie a unui şir de unităţi de discurs (sau de microstructuri suportate de unităţi) decupate din structura dinamică curentă. Modificările ce apar în şirul MST reflectă schimbările de focalizare, în parcurgerea discursului.

Componenţa acestui şir este influenţată de uitare (deci de un proces de abstractizare) şi de modificarea de interes curentă în parcurgerea discursului. Când interesul s-a mutat pe o altă axă, componenţa nervurii şi, de aici, a domeniului de accesibilitate imediată sunt şi ele actualizate. Includerea sau excluderea din MST a unor unităţi de discurs în ritmul citirii, pentru că dea evoluează eliminând unele unităţi şi "redeşteptând"

altele "uitate", amintesc de procesele de "chemare" în sfera atenţiei ale memoriei cash a lui Walker [Walker, 1996]. Pe de altă parte, structura memorată (rezumată) a discursului este păstrată în MLT şi folosită pentru aducerea în prim plan a unităţilor de interes curent ce au fost temporar retrogradate de o comutare a atenţiei într-o altă direcţie. Procesele evocative se desfăşoară aşadar în memoria de scurtă durată. Pe de altă parte, procesele post-evocative sunt procese de rezoluţie anaforică de natură inferenţială, ce presupun un anumit efort de regăsire a unei entităţi de discurs într-o zonă a memoriei de lungă durată sau evocă entităţi ale cunoaşterii generice din sfera culturală a subiectului. Noi credem că aceste procese se dezvoltă tot pe structura de discurs dezvoltată deja, ieşind din dea, când rezoluţia a eşuat acolo.

Dintr-un punct de vedere ce se concentrează asupra relaţiei dintre referinţele anaforice şi structura de discurs, celor două tipuri de procese anaforice le corespund referinţe evocative, respectiv post-evocative (sau inferenţiale). Diferenţa dintre ele este că primele apar când lanţul retroactiv al unităţilor ce ancorează expresii aflate în relaţii referenţiale intersectează domeniul de accesibilitate referenţială imediată al unităţii anaforului în cel puţin încă un punct decât unitatea anaforului, pe când în cazul referinţelor post-evocative nu există această intersecţie dublă. În [Cristea et al., 2000, Cristea, 2000] referinţele evocative sunt, mai departe, detaliate în directe şi indirecte.

În referinţele directe a doua unitate de intersecţie este cea mai recentă liniar unitate ce ancorează aceeaşi entitate de discurs ca şi anaforul (în cazul relaţiei de co-referinţă) sau o entitate corelată funcţional cu aceasta (în cazul unei relaţii de referinţă funcţională). În referinţele indirecte intersecţia dea cu lanţul co/func-referenţial se realizează într-o unitate mai depărtată decât cea mai recentă liniar de unitatea anaforului. În referinţele inferenţiale lanţul retroactiv al legăturilor anaforice al anaforului nu intersectează dea (în Figura 7 lanţul legăturilor anaforice este reprezentat punctat, iar dea printr-o linie groasă).

(12)

Figura 7: Referinţe evocative şi post-evocative

O categorie particulară de referinţe post-evocative sunt referinţele pragmatice (ce pot fi numite şi pseudo-referinţe). În acest tip de referinţe participă expresii referenţiale care pot fi interpretate fără un antecedent pentru că interpretarea lor se bazează pe cunoştinţe exterioare textului, ce vin din cunoaşterea comună asupra lumii, deci din pragmatică. Deşi există cel puţin încă o expresie referenţială în text ce realizează aceeaşi entitate de discurs, expresiile co-referenţiale pot să nu aibă, în mod necesar, o reprezentare unică, fără ca prin acesta înţelegerea textului să sufere.

Recunoaşterea antecedentului se datorează, în toate cazurile, unor procese de pattern-matching îmbogăţite cu euristici, în care intervin structura de caracteristici morfo/sintactico/semantice ce definesc anaforul şi structurile de caracteristici ce definesc entităţile de discurs deja introduse [Cristea, Dima, 2001, Cristea et al., 2002a].

5. Relaţia dintre structura de discurs şi cursivitate 5. 1 Linii de argumentaţie

Expresiile nervură ale unităţilor ce compun un discurs arată tot atâtea moduri diferite în care poate fi citit acel discurs. Fiecare în parte dă o rezumare a discursului prin prisma unităţii de discurs curente. Atunci când interesul este orientat către un anumit episod al povestirii, putem sări peste pasaje întregi pentru a ne concentra asupra manierei în care elementul de interes se leagă cu ansamblul discursului. În acelaşi fel, putem avea în vedere o altă pistă şi atunci lectura focalizează un alt fir de interes. Acest nou fir poate să aibă elemente în comun cu primul dar poate, de asemenea, să incorporeze şi altele noi. Fiecare fir în parte poate pune în evidenţă anumite particularităţi, legate însă strâns de linia principală a discursului. Toate aceste sub-discursuri sunt coerente şi nu există referinţe anaforice pentru a căror interpretare să avem nevoie de fragmente aflate în afara rezumatului însuşi. Acest lucru înseamnă că traseele referenţiale ale rezumatului conţin suficiente elemente care să ducă la recuperarea înţelesului anaforilor.

Să luăm următorul text:

Ex. 8

1. Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, 2. cînd va trece prin munte,

3. şi să-i răpună viaţa.

4. Hera-l ura pe fiul cel nou născut al Letei,

5. pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares.

referinţă directă

referinţă indirectă

referinţă inferenţială

(13)

6. Cînd a ajuns Apolo în muntele Parnas, 7. dihania uriaşă s-a avîntat spre dînsul, 8. dornică să-l ucidă.

9. Dar zeul şi-a întins arcul.

10. A tras prima săgeată.

11. Erau doar patru zile de cînd văzuse lumea, 12. şi întiia lui săgeată a şi nimerit monstrul.

Alexandru Mitru - Legendele Olimpului, Editura Tineretului, 1966 Structura de discurs a acestui text este cea din Figura 8. Tabela 1 dă expresiile nervură şi domeniile de referenţialitate evocativă ale nodurilor terminale. În coloana dea(u) au fost, totodată, marcate în aldine domenii de referenţialitate imediată maximale vis-à-vis de relaţia de incluziune (cele mai lungi trasee dea).

Astfel dea(1) dea(2) dea(3) dea(4) ⊆ dea(5) dea(6) ş.a.m.d. Vom numi aceste secvenţe care întrerup lanţuri de incluziuni linii de argumentaţie (la), în cazul nostru: 1 2, 1 3 4 5, 1 3 6 7, 1 3 7 8 şi 1 3 7 9 10 11 12. Dacă la(u1) precede imediat la(u2), atunci în la(u2) se regăsesc domeniile tuturor unităţilor dintre u1+1 şi u2. În particular, în la(u2) se regăsesc unităţile ce preced imediat unitatea u, pentru orice u între u1+1 şi u2, în domeniul lor de accesibilitate imediată (adică acel domeniu care conferă discursului maximul de coerenţă). Cu alte cuvinte, pe la(u2) putem aplica definiţiile CT de calculare a tranziţiilor pentru orice u între u1+1 şi u2.

Figura 8: Structura de discurs a Ex. 8

Tabela 1: Nervurile şi domeniile unităţilor din Ex. 8

u V(u) dea(u)

1 1 3 7 9 10 12 1 2 1 2 3 7 9 10 12 1 2 3 1 3 7 9 10 12 1 3 4 1 3 4 7 9 10 12 1 3 4 5 1 3 4 5 7 9 10 12 1 3 4 5 6 1 3 6 7 9 10 12 1 3 6 7 1 3 (6) 7 9 10 12 1 3 6 7 8 1 3 7 8 9 10 12 1 3 7 8 9 1 3 7 9 10 12 1 3 7 9 10 1 3 7 9 10 12 1 3 7 9 10 11 1 3 7 9 10 11 12 1 3 7 9 10 11 12 1 3 7 9 10 (11) 12 1 3 7 9 10 11 12

5. 2 O generalizare a CT

Urmând recomandările teoriei centrelor, să presupunem că marcăm tranziţiile ce apar între unităţi de discurs cu scoruri care să dea un grad al uşurinţei de prelucrare:

CONTINUARE (CON) 4

REŢINERE (RET) 3

SCHIMBARE LINĂ (SSH) 2

SCHIMBARE ABRUPTĂ (ASH) 1

LIPSĂ Cb (-) 0

În felul acesta, tranziţiile line primesc scoruri mari, cele abrupte, scoruri mici. Însumând aceste scoruri pentru fiecare unitate a unui segment (segment, în spiritul AST) vom avea un scor al segmentului. Să notăm un scor în spiritul CT al unui segment s cu SCCTs (CCT de la Classical Centering Theory). El ne va da o măsură a uşurinţei de interpretare a segmentului: cu cât un segment s, în totalitatea lui, e mai fluent, cu atât

1

12 2

3 4 5

7 8

6 9

10

11

(14)

scorul lui va fi mai mare şi cu cât el este mai abrupt, mai dificil de prelucrat, cu atât scorul lui va fi mai scăzut. În fine, să adunăm aceste scoruri pentru toate segmentele discursului, într-un scor al sumei segmentelor SCCT:

SCCT=

s

SCCTs

Să ne imaginăm acuma că forţăm nota şi calculăm aceste scoruri şi dincolo de graniţele de segment, deci inclusiv în punctele de frontieră dintre segmente. Să notăm acest scor global cu SCCTG. În scorul global SCCTG contribuie cu scoruri de tranziţii toate unităţile cuprinse între a doua unitate şi ultima. În mod normal tranziţiile în punctele de trecere între segmente ar trebui să fie foarte abrupte, cotate deci slab ori zero, şi deci scorul global ataşat textului n-ar trebui să fie modificat semnificativ. Dacă apare totuşi o diferenţă, ea trebuie să fie datorată unor tranziţii accidentale peste graniţa de segment. În orice caz trebuie să avem SCCTG ≥ SCCT.

Să procedăm acum în mod analog, ca suport folosind de data aceasta liniile de argumentaţie iar nu secvenţele liniare de unităţi ale segmentelor în sensul clasic. Datorită comportamentului lor similar segmentelor, putem numi liniile de argumentaţie segmente în sens ierarhic. Să notăm SHCTs (HCT de la Hierarchical Centering Theory) suma scorurilor unităţilor aparţinând unei linii de argumentaţie (segment ierarhic) s. Ca să dăm o măsură a fluenţei discursului în accepţiunea ierarhică, similară scorului global SCCTG, în calculul scorului global al discursului în sens ierarhic nu va trebui să repetăm contribuţiile unităţilor ce apar în mai mult decât o singură linie de argumentaţie. Dacă notăm SHCTs’ scorul unui segment ierarhic s’ în care am păstrat numai unităţile noi faţă de segmentul anterior, atunci scorul global ierarhic al discursului este:

SHCTG=

s'

SHCTs’

Cea de a doua conjectură a VT (a coerenţei): Scorul global în sensul ierarhic al unui discurs este mai bun sau cel puţin egal decât scorul global în sensul clasic: SHCTG ≥ SCCTG.

Pentru un anumit detaliu de granularitate în definirea segmentelor în sens clasic, unui segment în sens clasic îi corespunde o secvenţă de nervură, deci o porţiune a unei linii de argumentaţie. În spiritul acestei observaţii, cea de a doua conjectură enunţă prezumţia că tranziţiile la distanţă lungă calculate în lungul nervurilor sunt sistematic mai line decât tranziţiile accidentale la graniţele dintre segmente. Să notăm că această presupoziţie este conformă unor observaţii făcute de autori precum Passonneau [1995] şi Walker [1998], furnizând totodată o explicaţie pentru rezultatele lor.

În cele ce urmează prezentăm o analiză comparativă clasic-ierarhic care probează ipoteza coerenţei, pe discursul din Ex. 8.

Tabela 2: Analiza Ex. 1 în maniera CCT

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

2 cînd ∅ va trece prin munte, ∅ = [Apolo], [munte] [Apolo] SSH 2

3 şi ∅ să-i răpună viaţa. ∅ = [Piton], i=[Apolo], [viaţa] [Apolo] RET 3 4 Hera-l ura pe fiul cel nou născut al Letei, [Hera], [Leta], fiul cel nou-

născut al Letei=[Apolo] - - 0

5 pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei:

Hefaistos şi Ares.

[Zeus], său=[Hera], dînsul=[Apolo], [Hefaistos], [Ares]

[Hera] ASH 1

6 Cînd a ajuns Apolo în muntele Parnas, [Apolo], [munte] [Apolo] SSH 2

7 dihania uriaşă s-a avîntat spre dînsul, dihania uriaşă=[Piton],

dînsul=[Apolo] [Apolo] RET 3

8 ∅ (era) dornică să-l ucidă. ∅ = [Piton], l=[Apolo] [Piton] SSH 2

9 Dar zeul şi-a întins arcul. zeul = [Apolo], [arcul] [Apolo] SSH 2

10 ∅ A tras prima săgeată. ∅ = [Apolo], [săgeata] [Apolo] CON 4

(15)

11 Erau doar patru zile de cînd ∅ văzuse lumea, [4 zile], ∅ = [Apolo], [lumea] [Apolo] RET 3 12 şi întiia lui săgeată a şi nimerit monstrul. lui=[Apolo], [săgeata],

monstrul=[Piton]

[Apolo] CON 4 Total 26 În construcţia tabelului de mai sus am presupus că toate referinţele anaforice au fost corect rezolvate.

Unităţile cărora le corespund tranziţiile listate în tabelă sunt cele ale căror numere apar în caractere aldine în prima coloană, adică 2-12, în număr total de 11. Scorul total de 23 corespunde unei scor mediu pe tranziţie de 26/11=2,36, ceea ce înseamnă că textul, conform aprecierii CT, se comportă, în medie, intermediar între o schimbare lină (SSH) şi o reţinere (RET), mai apropiat de o schimbare lină.

Dacă luăm în calcul liniile de argumentaţie indicate de nervuri, pot fi puse în evidenţă 5 sub- discursuri, în lungul cărora vom calcula, de asemenea, tranziţiile. În tabelele 3÷7 de mai jos unităţile pentru care considerăm tranziţiile sunt, de asemenea, indicate în caractere aldine în prima coloană. Să remarcăm că citirea textelor date de liniile de argumentaţie produce, în toate cazurile, discursuri perfect coerente. În ansamblu, doar câte o tranziţie este calculată pentru fiecare unitate, la fel ca şi în interpretarea clasică.

Tabela 3: Analiza HCT a primei linii de argumentaţie, secvenţa de unităţi 1-2

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

2 cînd ∅ va trece prin munte, ∅ = [Apolo], [munte] [Apolo] SSH 2

Total 2 Tabela 4: Analiza HCT a celei de a doua linii de argumentaţie, secvenţa de unităţi 1-3-4-5

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

3 şi ∅ să-i răpună viaţa. ∅ = [Piton], i=[Apolo], [viaţa] [Piton] CON 4 4 Hera-l ura pe fiul cel nou născut al Letei, [Hera], [Leta], fiul cel nou-

născut al Letei=[Apolo] - - 0

5 pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei:

Hefaistos şi Ares.

[Zeus], său=[Hera], dînsul=[Apolo], [Hefaistos], [Ares]

[Hera] ASH 1

Total 5 Se constată că tranziţia RET a unităţii 3 către 2 din analiza CCT s-a transformat într-o tranziţie CON, pe nervură, dinspre 3 către 1.

Tabela 5: Analiza HCT a celei de a treia linii de argumentaţie, secvenţa de unităţi 1-3-6-7

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

3 şi ∅ să-i răpună viaţa. ∅ = [Piton], i=[Apolo], [viaţa] [Piton] - -

6 Cînd a ajuns Apolo în muntele Parnas, [Apolo], [munte] [Apolo] SSH 2

7 dihania uriaşă s-a avîntat spre dînsul, dihania uriaşă=[Piton],

dînsul=[Apolo] [Apolo] RET 3

Total 5 Tabela 6: Analiza HCT a celei de a patra linii de argumentaţie, secvenţa de unităţi 1-3-7-8

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

3 şi ∅ să-i răpună viaţa. ∅ = [Piton], i=[Apolo], [viaţa] [Piton] - - 7 dihania uriaşă s-a avîntat spre dînsul, dihania uriaşă=[Piton],

dînsul=[Apolo]

[Piton] - - 8 ∅ (era) dornică să-l ucidă. ∅ = [Piton], l=[Apolo] [Piton] CON 4

Total 4

(16)

Se constată că tranziţia SSH a unităţii 8 către 7 din analiza CCT s-a transformat într-o tranziţie CON, pe nervură, tot între 8 şi 7 (Cb-ul unităţii 7 s-a schimbat din [Apolo] în [Piton], pentru că, pe nervura lui 8, precedenta unitate a lui 7 este acum 3, iar nu 6 ca în secvenţa liniară).

Tabela 7: Analiza HCT a ultimei linii de argumentaţie, secvenţa de unităţi 1-3-7-9-10-11-12

n un Cf(un) Cb(un) Traz. Scor

1 Piton primise-n taină poruncă de la Hera să-l

pîndească pe Apolo, [Piton], [Hera], [Apolo], [Piton] - -

3 şi ∅ să-i răpună viaţa. ∅ = [Piton], i=[Apolo], [viaţa] [Piton] - - 7 dihania uriaşă s-a avîntat spre dînsul, dihania uriaşă=[Piton],

dînsul=[Apolo]

[Piton] - -

9 Dar zeul şi-a întins arcul. zeul = [Apolo], [arcul] [Apolo] SSH 2

10 ∅ A tras prima săgeată. ∅ = [Apolo], [săgeata] [Apolo] CON 4 11 Erau doar patru zile de cînd ∅ văzuse lumea, [4 zile], ∅ = [Apolo], [lumea] [Apolo] RET 3 12 şi întiia lui săgeată a şi nimerit monstrul. lui=[Apolo], [săgeata],

monstrul=[Piton] [Apolo] CON 4

Total 13 Însumând scorurile tranziţiilor pentru toate liniile de argumentaţie se obţine scorul total: 29, ceea ce corespunde unei tranziţii medii a discursului, calculată conform HCT de 29/11=2,63, aşadar o tranziţie mai apropiată de reţinere, mai bună decât scorul mediu calculat conform CCT.

6. Validarea conjecturilor VT

Validarea conjecturilor VT s-a realizat pe corpusuri adnotate la structură şi la legături co-referenţiale.

Astfel în [Cristea et al., 1998] se raportează o investigaţie efectuată pe texte în limbile engleză, franceză şi română ce au însumat un total de 176 de unităţi de discurs. Plecând de o adnotare în maniera RST a structurii de discurs, un program a calculat expresiile nervurilor unităţilor. Pentru verificarea conjecturii coeziunii, utilizând adnotarea legăturilor referenţiale s-a calculat apoi procentajul referinţelor directe, indirecte şi pragmatice. În medie 99,1% dintre referinţe se încadrează acestor trei categorii (87,1% directe, 8,5% indirecte şi 3,5% pragmatice). Pentru verificarea conjecturii coerenţei, suplimentar marcajelor de structură şi lanţuri co-referenţiale s-au marcat manual, pentru fiecare unitate, Cb-ul, în varianta clasică şi în varianta ierarhică, şi s-au calculat tranziţiile în cele două variante. Scorul SHCT a fost mai bun decât scorul SCCT în toate cazurile (scorurile medii pe tranziţie au fost de 2,03 în varianta ierarhică faţă de 1,89 în cea clasică).

În [Cristea et al., 2000] se raportează experimente care au urmărit să compare potenţialul modelelor ierarhice, precum cele bazate pe VT, de a regăsi un antecedent într-o plajă de căutare dată faţă de modelele lineare (modele ce presupun o parcurgere lineară a textului dinspre unitatea anaforului spre începutul textului). Pentru aceasta s-au utilizat 30 de texte englezeşti (însumând aproximativ 1560 de unităţi de discurs), adnotate la structura RST şi lanţuri co-referenţiale. Presupunând o plajă de căutare de doar 2 unităţi, căutarea pe nervură a adus cu aproximativ 16% mai mulţi antecedenţi decât căutarea liniară. După cum era de aşteptat, pe măsură ce lungimea textului căutat creşte cele două tipuri de modele se apropie în ceea pe priveşte potenţialul de a regăsi legături co-referenţiale. O căutare ierarhică înapoi într-o plajă de 5 unităţi rezolvă potenţial doar 70% dintre anafore, pentru ca o performanţă potenţială de 90% să poată fi atinsă doar dacă se organizează o căutare într-o lungime de 12 unităţi pe nervură. O altă investigare a urmărit compararea efortului necesar regăsirii unui anumit antecedent în cele două tipuri de abordări (liniară şi ierarhică), unde prin efortul necesar găsirii unui antecedent se înţelege numărul de unităţi de discurs ce separă, în domeniu, unitatea anaforului de unitatea celei mai recente ancorări în text a unui antecedent. Din nou modelele ierarhice, de tipul celui dat de VT, s-au dovedit superioare celor liniare: în corpusul folosit în experiment, care a conţinut 1200 de expresii referenţiale, spaţiul de căutare pentru legături co-referenţiale s-a redus cu aproximativ 800 de unităţi.

Un alt tip de investigaţie empirică [Ide, Cristea, 2000] a urmărit frecvenţa referinţelor evocative în comparaţie cu cele post-evocative şi depistarea unor corelaţii între tipul de referinţe şi puterea de evocare a anaforilor. Studiul a comparat prezicerile avansate de VT relativ la domeniul de referenţialitate evocativă cu cele ale modelului stivă al AST, corelând excepţiile (referinţe ce nu se supun prevederilor celor două

Referințe

DOCUMENTE SIMILARE

• Un bootloader (pentru RISC) incarca o secventa de cod de pe un mediu de stocare extern pentru a-l executa ca

Deoarece adunarea determină pe V o structură de grup comutativ, rezultă că adunarea indusă pe Φ(X, V) determină pe această mulţime o structură de grup comutativ..

Imaginea digitizat˘ a este reprezentat˘ a printr-o matrice ˆın care fiecare element este o colect¸ie de numere ce descriu atributele unui pixel al imaginii sau o funct¸ie de

Pentru a analiza relația dintre spațiu și comunitate, propun termenul spațiu-în- comun, care, pe de o parte, este infuzat de imaginea grupului, fiind vorba de un spațiu

O altă fază de construcţie a locuinţei este reprezentată printr-o podea realizată din sediment siltic gălbui, omogen, compact, fără constituenţi antropici, ce este suprapusă

3. Personalul didactic titularizat în instituŃia de învăŃământ superior unde are funcŃia de bază este luat în considerare la evaluare pentru o singură normă

Distribute, de două ori: o dată pentru a marca opţiunea Relative to Page, iar a doua oară pentru a alege distribuirea pe orizontală sau pe verticală. Prin imagine se înţelege

 În cazul în care calculatorul nu “va vede” Arduino-ul, se poate ca o masură de siguranţă să fi intrat în acţiune (de fapt este o “siguranţă” automatizată – ce