¸i romˆ an˘ a

(1)

ACADEMIA ROM ˆ AN ˘ A

Institutul de Cercet˘ ari pentru Inteligent ¸˘ a Artificial˘ a

Metode de dezambiguizare semantic˘ a automat˘ a. Aplicat ¸ii pentru limbile englez˘ a

s

¸i romˆ an˘ a

Radu ION

Conduc˘ator: prof. dr. Dan TUFIS¸, Membru Corespondent al Academiei Romˆane

Bucure¸sti, mai 2007

(2)

Rezumat

Dezambiguizarea semantic˘a automat˘a (DSA) reprezint˘a un subdomeniu al Prelucr˘arii Automate a Limbajului Natural (PLN) ¸si se refer˘a la identificarea algoritmic˘a a ˆınt¸elesului unui cuvânt ˆıntr-un context dat. Problema DSA a ap˘arut ca o necesitate imediat˘a a cercet˘arilor de traducere automat˘a care au evident¸iat faptul c˘a ˆınt¸elesurile cuvintelor nu se traduc uniform pentru c˘a la ˆınt¸elesuri diferite corespund traduceri diferite. Astfel, pentru a selecta traducerea corect˘a a unui cuvânt, trebuie s˘a existe o metod˘a de a alege acea traducere care conserv˘a ˆınt¸elesul cuvântului.

Adnotarea cu ˆınt¸elesuri a devenit util˘a ¸si pentru alte aplicat¸ii ale PLN.

Dintre acestea, putem ment¸iona aplicat¸iile de ˆınt¸elegere a limbajului natural:

generarea automat˘a a r˘aspunsurilor la ˆıntreb˘ari, sisteme de recunoa¸stere a comenzilor ˆın limbaj natural, etc. sau algoritmii de transcriere a vorbirii (pentru o list˘a mai cuprinz˘atoare se poate consulta [37]).

Problema DSA este recunoscut˘a ca fiind una IA-complet˘a. Ea nu poate fi rezolvat˘a f˘ar˘a a rezolva ˆın prealabil celelalte probleme complexe ale In- teligent¸ei Artificiale (IA) printre care pe primul loc se afl˘a Reprezentarea Cuno¸stint¸elor (RC) cu un accent special pe reprezentarea cuno¸stint¸elor im- plicite (a¸sa numitele cuno¸stint¸e “de bun-simt¸”). De aceea metodele de DSA existente aproximeaz˘a capacitatea uman˘a de a atribui ˆınt¸elesuri cuvintelor modelˆand algoritmi evident¸iabili experiemental prin care se presupune c˘a fiint¸ele umane ˆınt¸eleg limbajul natural. Cel mai important dintre ace¸stia este exemplificat de axioma potrivit c˘areia ˆınt¸elesul unui cuvˆant este determinat de contextul de aparit¸ie al acestuia¹ ([126, 26]).

Determinarea contextului de aparit¸ie a unui cuvânt ¸si reprezentarea lui constituie principala dificultate ˆın proiectarea de algoritmi de DSA. Exist˘a metode care reprezint˘a contextul ca pe o mult¸ime de cuvinte care apar ˆın ve- cin˘atatea cuvântului studiat (t¸int˘a). Altele impun restrict¸ii pe aceste mult¸imi cum ar fi ordinea ˆın care apar cuvintele sau gradele de relevant¸˘a a cuvintelor din mult¸ime asupra ˆınt¸elesului cuvântului t¸int˘a. Pe lâng˘a acestea, metodele de DSA pe texte paralele beneficiaz˘a de un avantaj: câmpul semantic al cuvântului t¸int˘a se restrânge² prin traducerea lui ˆıntr-o alt˘a limb˘a.

1[126, pag. 117]: “43. Pentru o clas˘a larg˘a de cazuri de folosire a cuvˆantului

“semnificat¸ie” . . . semnificat¸ia unui cuvˆant este folosirea lui ˆın limbaj”. Aici termenul

“semnificat¸ie” este sinonim cu “ˆınt¸eles”.

2Avem ˆın vedere faptul c˘a traducerea conserv˘a ˆınt¸elesul cuvˆantului surs˘a ¸si c˘a, ˆın general, la traduceri diferite, corespund ˆınt¸elesuri diferite.

(3)

Lucrarea de fat¸˘a ˆı¸si propune s˘a studieze problema DSA atˆat pe texte simple cˆat ¸si pe texte paralele. Din perspectiva monolingv˘a ne intereseaz˘a modelele sintactice ale contextului iar din cea multilingv˘a, traducerile ca ¸si cuantific˘ari ale contextului.

Ideea de reprezentare sintactic˘a a contextului de aparit¸ie a unui cuvânt nu este nou˘a ˆın peisajul cercet˘arilor de DSA (vezi de exemplu [97, 53, 98, 51]). În general, modelele sintactice ale contextelor au folosit gramaticile de constituent¸i pentru a evident¸ia corespondent¸ele dintre cuvinte. Prin ˆıns˘a¸si natura lor, gramaticile de constituent¸i sunt gramatici generative care ˆıncearc˘a, ˆın ultim˘a instant¸˘a, s˘a explice realizarea formelor de suprafat¸˘a³ a propozit¸iilor limbii f˘ar˘a a se preocupa de corespondent¸a analizei sintactice cu cea a analizei semantice⁴. În contrast, formalismul sintactic al structurilor de dependent¸˘a din [61] este conceput ca o etap˘a ˆın reprezentarea semantic˘a a propozit¸iei. Mel’ˇcuk observ˘a faptul c˘a ordinea cuvintelor este un mijloc expresiv universal al oric˘arei limbi ¸si care, tocmai din acest motiv, nu poate fi inclus˘a ˆıntr-un formalism sintactic care ar trebui s˘a fie independent de limb˘a⁵.

Structura sintactic˘a de dependent¸e a unei propozit¸ii va fi aproximat˘a de modele de atract¸ie lexical˘a ([131]) care sunt modele statistice ale structurii de dependent¸˘a a unei propozit¸ii. Aceast˘a structur˘a simplific˘a definit¸ia din [61] prin eliminarea orient˘arii arcelor ¸si a identific˘arii lor cu numele relat¸iilor sintactice din limb˘a. Din punctul de vedere al dezambiguiz˘arii semantice automate, simplificarea nu reduce complexitatea algoritmului de DSA dar, pe de alt˘a parte, generarea grafului bazat pe modelul de atractie lexical˘a are propriile avantaje care nu pot fi neglijate.

ˆIn ce prive¸ste DSA pe texte paralele, se va prezenta un algoritm care utilizeaz˘a traducerea cuvˆantului t¸int˘a ca reprezentare a contextului acestuia.

Înt¸elesurile diferite ale unui cuvânt se traduc de regul˘a diferitˆıntr-o alt˘a limb˘a iar acest fapt se datoreaz˘a cuno¸stint¸elor pe care traduc˘atorul le-a ˆınglobat ˆın traducerea cuvântului t¸int˘a prin examinarea contextului acestuia. Dac˘a exist˘a inventare de ˆınt¸elesuri compatibile⁶ pentru cele dou˘a limbi, atunci prin intersect¸ia mult¸imilor de ˆınt¸elesuri ale cuvântului t¸int˘a ¸si traducerii acestuia, obt¸inem o mult¸ime de ˆınt¸elesuri redus˘a ¸si comun˘a ambelor cuvinte.

3Forma observabil˘a a propozit¸iei. Gramaticile generative cont¸in reguli de product¸ie din a c˘aror aplicare ar trebui s˘a rezulte propozit¸ii gramatical corecte.

4Pentru care nu exist˘a ˆınc˘a formaliz˘ari general acceptate.

5Lucru care nu se ˆıntˆampl˘a cu gramaticile generative. Pentru o corespondent¸˘a formal˘a, vezi [69].

6Prin inventare de ˆınt¸elesuri compatibile pentru dou˘a limbi, ˆınt¸elegem inventare de ˆınt¸elesuri ˆıntre care ˆınt¸elesurile unuia sunt echivalate la nivel sinonimic cu ˆınt¸elesurile celui de-al doilea.

(4)

(5)

Cuprins

1 Introducere 1

1.1 O clasificare a metodelor de DSA . . . 4

1.2 Despre sensuri ¸si ˆınt¸elesuri . . . 6

1.2.1 Sens ¸si denotat¸ie. Analiza limbajului . . . 6

1.2.2 DSA ¸si not¸iunea de sens . . . 8

2 Preprocesarea textelor. Resurse lingvistice computat¸ionale 10 2.1 Modulul de preprocesare a textelor TTL . . . 12

2.1.1 Recunoa¸sterea entit˘at¸ilor denumite . . . 13

2.1.2 Segmentarea la nivel de fraz˘a . . . 14

2.1.3 Segmentarea la nivel de cuvˆant . . . 16

2.1.4 Adnotarea cu etichete morfosintactice . . . 18

2.1.5 Lematizarea . . . 22

2.2 SemCor2.0: O versiune adnotat˘a ˆın limba romˆan˘a . . . 26

2.2.1 Adnotarea textului englezesc din SemCor2.0 . . . 28

2.2.2 Adnotarea textului romˆanesc din SemCor2.0 . . . 32

2.2.3 Transferul sensurilor din englez˘a ˆın romˆan˘a . . . 34

2.3 Ret¸eaua semantic˘a a limbii romˆane . . . 38

3 DSA pe texte paralele 49 3.1 Aliniatorul lexical YAWA . . . 50

3.1.1 Faza 1 . . . 53

3.1.2 Faza 2 . . . 54

3.1.3 Fazele 3 ¸si 4 . . . 57

3.2 WSDTool . . . 60

3.2.1 Descrierea algoritmului de baz˘a . . . 60

3.2.2 O extensie a algoritmului de baz˘a . . . 64

3.2.3 Evalu˘ari . . . 67

(6)

4 DSA cu structuri sintactice de dependent¸e 69

4.1 Formalismul dependent¸elor sintactice . . . 72

4.1.1 Relat¸ia de dependent¸˘a sintactic˘a . . . 72

4.1.2 Meaning Text Model . . . 78

4.2 Modele de atract¸ie lexical˘a. Analizorul de leg˘aturi LexPar . . 81

4.2.1 Modele de atract¸ie lexical˘a . . . 82

4.2.2 LexPar . . . 88

4.3 SynWSD . . . 93

4.3.1 Descrierea algoritmului . . . 95

4.3.2 Evalu˘ari . . . 101

5 Concluzii 106 5.1 Contribut¸ii proprii . . . 108

A 111

B 116

C 123

(7)

List˘ a de figuri

1.1 O clasificare a metodelor de DSA. . . 6

2.1 Gramatic˘a pentru recunoa¸sterea unei abrevieri . . . 14

2.2 Filtru pentru gramatica din figura 2.1 . . . 14

2.3 Rezultatul operat¸iei de recunoa¸stere a entit˘at¸ilor . . . 15

2.4 Cˆateva abrevieri uzuale ˆın romˆan˘a . . . 15

2.5 Cˆateva abrevieri uzuale ˆın englez˘a . . . 16

2.6 Compu¸si romˆane¸sti ca unit˘at¸i lexicale . . . 17

2.7 Prefixe (LEFTSPLIT) ¸si sufixe (RIGHTSPLIT) care trebuie separate ˆın romˆan˘a. . . 17

2.8 Regul˘a pentru a rezolva ambiguitatea de MSD Di.../Pi.... . 22

2.9 Formele flexionare ale substantivului “aram˘a”. . . 24

2.10 Reguli de lematizare pentru un substantiv singular, articulat, nominativ/acuzativ. . . 25

2.11 “in” este adnotat ca adverb (RB) cˆand ar fi trebuit s˘a fie prepozit¸ie (IN); “which” este adverb (!) cˆand aceast˘a parte de vorbire nici nu se afl˘a ˆın clasa sa de ambiguitate. Aici ar fi trebuit s˘a fie pronume relativ (WP). . . 29

2.12 Adjectivul “much” ˆın Princeton WordNet 2.0. . . 36

2.13 Exemple de diferent¸e ˆın cazul de transfer 2 (leme diferite). . . 36

2.14 Exemple de diferent¸e ˆın cazul de transfer 3 (etichete morfosintactice diferite). . . 36

2.15 Matricea de corespondent¸˘a ˆıntre ˆınt¸elesuri ¸si cuvinte. . . 41

2.16 Conceptul de “vehicul pe patru rot¸i propulsat de un motor cu ardere intern˘a” ˆın ROWN2.0. . . 42

2.17 Conceptul de “vehicul pe patru rot¸i propulsat de un motor cu ardere intern˘a” ˆın PWN2.0. . . 42

2.18 Alinierea ˆınt¸elesurilor de “pix - instrument de scris” ¸si “ball- point pen”. . . 47

2.19 Echivalent¸a conceptual˘a a arborilor de hipernimi pentru conceptul pix(1). . . 48

(8)

3.1 Exemplu de aliniere lexical˘a ˆıntre o fraz˘a ˆın englez˘a ¸si tradu-

cerea acesteia ˆın romˆan˘a. . . 51

3.2 Exemplu de aliniere lexical˘a ˆıntre dou˘a cuvinte de categorii gramaticale diferite: “thinking” ¸si “gˆanduri”. . . 52

3.3 Gramatic˘a pentru recunoa¸sterea grupurilor nominale ¸si prepozit¸ionale (tipice) ˆın englez˘a. . . 54

3.4 Exemplu de codificare XML din corpusul paralel SemCor2.0. . 55

3.5 Situat¸ii posibile ˆın alinierea de blocuri. . . 57

3.6 Matricea echivalent¸ilor de traducere (MTEQ). . . 62

3.7 Matricea de dezambiguizare (MSET). . . 63

3.8 O traducere aproximativ˘a (corespondent¸˘a indirect˘a). . . 64

4.1 Un arbore de constituent¸i . . . 73

4.2 Un arbore de relat¸ii sintactice binare cu r˘ad˘acina ˆın “pleac˘a” . 73 4.3 Relat¸ie intranzitiv˘a care nu este relat¸ie de dependent¸˘a sintactic˘a 77 4.4 Exemplu ˆın care condit¸ia de planaritate nu este ˆındeplinit˘a . . 77

4.5 Exemplul 4.1: Translat¸ia de la SSyntR la DSyntR . . . 80

4.6 Exemplul 4.2: Translat¸ia de la SSyntR la DSyntR . . . 81

4.7 Dependent¸e ale cuvintelor ˆın context. . . 85

4.8 Cˆateva reguli sintactice pentru englez˘a folosite de LexPar. . . 90

4.9 Functor care exprim˘a ˆınt¸elesul propozit¸iei 4.5. . . 94

4.10 O corespondent¸˘a ˆıntre SemR¸si DSyntR. . . 94

4.11 Exemplu de generalizare pentru substantivul “floare”. . . 98

(9)

List˘ a de tabele

2.1 Rezultatele lematiz˘arii pentru romˆan˘a ¸si englez˘a. . . 27

2.2 Primele 62 de expresii ca rang de frecvent¸˘a din SemCor-ul englezesc. . . 31

2.3 Transferul de etichete semantice SC20-en-Brill–SC20-en-TTL . 35 2.4 Corpusul paralel englez-romˆan SemCor2.0. . . 39

2.5 Situat¸ia transferului de sensuri ˆın romˆan˘a. . . 39

2.6 Relat¸ii transferate automat din PWN2.0 ˆın ROWN2.0 (tabel din [105]). . . 46

3.1 Performant¸ele YAWA pe corpusul HLT-NAACL 2003. . . 58

3.2 Performant¸ele YAWA pe corpusul ACL 2005. . . 59

3.3 Performant¸a WSDTool pe SemCor2.0. . . 67

4.1 Memoria procesorului LexPar ˆınainte de rularea acestuia pe exemplul 4.4. . . 91

4.2 Gradul de acord ˆıntre LexPar ¸si MiniPar pe SemCor2.0. . . 93

4.3 Rezultatele algoritmului SynWSD pe SemCor2.0. . . 102

4.4 Comparat¸ia preciziilor algoritmilor WSDTool ¸si SynWSD (cu combinatorul int). . . 104

4.5 WSDTool ¸si SynWSD (cu combinatorul int) ¸si cei mai buni algoritmi de DSA din SensEval pentru limba englez˘a. . . 105

B.1 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın limba englez˘a. Inventarul de sensuri este dat de ILI iar evaluarea este strict˘a. . . 117

B.2 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın limba englez˘a. Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este strict˘a. . . 118

B.3 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın limba englez˘a. Inventarul de sensuri este dat de domeniile IRST iar evaluarea este strict˘a. . . 119

(10)

B.4 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın limba romˆan˘a. Inventarul de sensuri este dat de ILI iar evaluarea este strict˘a. . . 120 B.5 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın

limba romˆan˘a. Inventarul de sensuri este dat de categoriile SUMO iar evaluarea este strict˘a. . . 121 B.6 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 ˆın

limba romˆan˘a. Inventarul de sensuri este dat de domeniile IRST iar evaluarea este strict˘a. . . 122 C.1 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba englez˘a (m˘asura de atract¸ie semantic˘a este mi). Inven- tarul de sensuri este dat de ILI iar evaluarea este relaxat˘a. . . 124 C.2 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba englez˘a (m˘asura de atract¸ie semantic˘a este mi). Inven- tarul de sensuri este dat de categoriile SUMO iar evaluarea este strict˘a. . . 125 C.3 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba englez˘a (m˘asura de atract¸ie semantic˘a este dice). In- ventarul de sensuri este dat de domeniile IRST iar evaluarea este strict˘a. . . 126 C.4 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba romˆan˘a (m˘asura de atract¸ie semantic˘a este prob). In- ventarul de sensuri este dat de ILI iar evaluarea este relaxat˘a. 127 C.5 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba romˆan˘a (m˘asura de atract¸ie semantic˘a este mi). Inven- tarul de sensuri este dat de categoriile SUMO iar evaluarea este strict˘a. . . 128 C.6 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba romˆan˘a (m˘asura de atract¸ie semantic˘a este dice). In- ventarul de sensuri este dat de domeniile IRST iar evaluarea este strict˘a. . . 129 C.7 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba englez˘a (combinator int). Inventarul de sensuri este dat de ILI iar evaluarea este relaxat˘a. . . 130 C.8 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 ˆın

limba romˆan˘a (combinator int). Inventarul de sensuri este dat de ILI iar evaluarea este relaxat˘a. . . 131

(11)

Capitolul 1 Introducere

Dezambiguizarea Semantic˘a Automat˘a¹ (o vom abrevia DSA de aici ˆınainte) reprezint˘a un subdomeniu al Prelucr˘arii Automate a Limbajului Natural (PLN) care ¸si-a câ¸stigat recunoa¸sterea ˆınc˘a de la ˆınceputurile cercet˘arilor preocupate de procesarea limbajului natural. De exemplu, ˆın traducerea automat˘a, pentru a reda cu o cât mai mare acuratet¸e traducerea unui cuvânt din limba surs˘a, sensul acestuia trebuia cunoscut pentru a se putea alege acea lexicalizare care ˆıl conserv˘a ˆın limba t¸int˘a².

Un al doilea exemplu ˆın sprijinul utilit˘at¸ii unui proces de DSA ar fi acela ˆın care se ia ˆın considerare selectarea documentelor ˆın care numai un anume sens al cuvˆantului cheie este c˘autat. ˆIn prezent, motoarele de c˘autare existente pe Internet nu fac distinct¸ia de sensuri³ pentru cheile c˘autate ¸si astfel, interogarea se soldeaz˘a cu afi¸sarea documentelor care cont¸in cuvintele cheie f˘ar˘a nici o alt˘a procesare.

ˆIn [37], Ide ¸si V´eronis dau o serie de alte argumente practice ˆın favoarea DSA:

• insert¸ia de diacritice ˆıntr-un cuvˆant. De exemplu cuvˆantul “fata” ar fi

1Acronimul din limba englez˘a pentru aceasta problem˘a este WSD ˆınsemnˆand “Word Sense Disambiguation”. Dezambiguizarea semantic˘a se refer˘a astfel la distinct¸ia de sens.

2Unele ambiguit˘at¸i de sens se p˘astreaz˘a cu traducerea cum este exemplul englez˘a- romˆan˘a country-t¸ar˘a ˆın care ambiguitatea de sens teritoriu/nat¸iune cap˘at˘a lexicaliz˘ari identice ˆın cele dou˘a limbi. Astfel, sistemul de traducere automat˘a trebuie s˘a fac˘a de fapt numai acele distinct¸ii relevante pentru traducere.

3Nu se t¸ine de asemnea cont de categoriile gramaticale ale cuvintelor cheie. O c˘autare dup˘a “book” va returna documente care cont¸in atât verbul cât ¸si substantivul “book” chiar dac˘a suntem interesat¸i numai de documentele care se refer˘a la c˘art¸i. În plus, cuvintele funct¸ionale sunt eliminate pentru c˘a sunt prea frecvente ¸si deci f˘ar˘a relevant¸˘a pentru c˘autare. Totu¸si, pentru o cerere de tipul “books about Peter Pan”, o simpl˘a preprocesare la nivel morfosintactic a frazei de interogare ne-ar putea indica faptul c˘a “books” este substantiv.

(12)

putut proveni din “fat˘a”, persoan˘a tˆan˘ar˘a de sex feminin, “fat¸˘a” sau

“fat¸a”, chip, figur˘a, sau din “fat˘a”, “f˘at˘a”, proces prin care un mamifer d˘a na¸stere puilor s˘ai;

• ata¸sarea grupurilor prepozit¸ionale ˆın analiza sintactic˘a. ˆIn [[John]_NP [[ate]_V [the cake]_NP [with a spoon]_PP]_VP]_S

grupul prepozit¸ional “with a spoon” se ata¸seaz˘a verbului “ate” pentru c˘a, de obicei, o prajitur˘a se m˘anˆanc˘a cu lingurit¸a⁴.

• transcrierea automat˘a a vorbirii ¸si segmentarea cuvintelor ˆıntr-o secvent¸˘a vorbit˘a;

• clasificarea tematic˘a a documentelor.

ˆIn [48], Kilgarriff studiaz˘a aplicabilitatea DSA ˆın urm˘atoarele 4 domenii ale PLN:

1. extragerea informat¸iilor⁵; 2. traducerea automat˘a;

3. analiza sintactic˘a;

4. ˆınt¸elegerea limbajului natural⁶.

Meritul DSA ˆın traducerea automat˘a este recunoscut ¸si a¸sa cum am afirmat mai sus un algoritm de DSA lucrˆand pentru un sistem de traducere automat˘a, trebuie s˘a identifice numai acele distinct¸ii de sens care sunt relevante pentru traducere. ˆIn ce prive¸ste analiza sintactic˘a, Kilgarriff observ˘a c˘a nu exist˘a studii care s˘a indice clar dac˘a DSA ar ˆımbun˘at˘at¸i performant¸ele unui analizor sintactic. Argumentul s˘au care sugereaz˘a c˘a DSA nu ar fi necesar˘a analizei sintactice se bazeaz˘a pe pe urm˘atorul exemplu:

(1.1) I love baking cakes with friends.

(1.2) I love baking cakes with butter icing.

4Asta nu ˆınseamn˘a c˘a analiza [[John]_NP[[ate]_V [the cake [with a spoon]_PP]_NP]_VP]_Snu este posibil˘a. Este probabil mai put¸in plauzibil˘a decˆat cealalt˘a.

5ˆIn englez˘a, “Information Retrieval (IR)”.

6ˆIn englez˘a, “Natural Language Understanding (NLU)”.

(13)

unde ˆın 1.1 grupul prepozit¸ional “with friends” se ata¸seaz˘a verbului “baking”

iar ˆın 1.2 grupul prepozit¸ional “with butter icing” se ata¸seaz˘a substantivului

“cakes”. Motivat¸ia ata¸samentului corect se afl˘a ˆın informat¸ia lexical˘a de combinare disponibil˘a analizorului ¸si pentru c˘a centrul⁷ grupului nominal

“friends” apart¸ine clasei semantice a oamenilor iar centrul grupului nominal

“butter icing” apart¸ine clasei semantice a ingredientelor pentru pr˘ajituri, nu exist˘a nici o ambiguitate semantic˘a care s˘a ˆımpiedice ata¸samentul corect.

Putem r˘aspunde acestui argument cu un alt exemplu:

(1.3) Am cump˘arat un plic pentru copii.

Propozit¸ia 1.3 are dou˘a interpret˘ari: fie plicul a fost cump˘arat pentru un grup de cop´ıi (lem˘a “copil”) care probabil c˘a au cerut acest lucru (grupul prepozit¸ional se ata¸seaz˘a la verb), fie s-a cump˘arat un plic special conceput pentru cópii presupunând c˘a exist˘a un astfel de plic (lem˘a “copie”, grupul prepozit¸ional se ata¸seaz˘a la substantiv). Putem observa de asemenea c˘a un analizor sintactic care se bazeaz˘a pe cadrele de valent¸˘a ale verbului ¸si nu pe informat¸ia de coocurent¸˘a, are nevoie de determinarea claselor semantice ale argumentelor sale iar aceast˘a problem˘a este echivalent˘a cu problema de DSA cu un inventar de sensuri ˆın care acestea sunt grupate ˆın astfel de clase semantice (sensul unui cuvânt devine astfel egal cu clasa semantic˘a)⁸.

În ce prive¸ste aplicat¸iile de ˆınt¸elegere a limbajului natural, Kilgarriff con- chide c˘a DSA are o aplicabilitate limitat˘a ˆın acest domeniu pentru c˘a, ˆın general, aceste aplicat¸ii sunt proiectate pentru domenii relativ restrânse unde ambiguitatea de sens nu exist˘a (sau nu intereseaz˘a). În plus, conceptele onto- logiilor implicate au corespondent¸e stabilite prin metode ad-hoc cu domeniul de discurs iar DSA nu ar ajuta la stabilirea acestor corespondent¸e. Totu¸si se accept˘a ideea evolut¸iei acestor sisteme ˆın direct¸ia dep˘a¸sirii barierelor de domeniu, caz ˆın care DSA devine necesar˘a.

Dincolo de toate aplicat¸iile imediate ale dezambiguiz˘arii semantice, cre- dem c˘a DSA este un domeniu al PLN care pune bazele celei mai importante cercet˘ari a PLN: ˆınt¸elegerea limbajului natural. Cu sigurant¸˘a c˘a cercet˘arile ˆın DSA vor conduce la crearea de resurse lingvistice computat¸ionale foarte complexe construite special pentru a veni ˆın ajutorul procesului. WordNet ([25]) este un prim exemplu (de¸si aceast˘a ret¸ea semantic˘a nu a fost construit˘a special pentru DSA ea este responsabil˘a de aparit¸ia unui num˘ar foarte mare de algoritmi de DSA care ˆıi exploateaz˘a direct structura ˆın procesul de dezambiguizare).

7ˆIn englez˘a, “head (of a phrase)”.

8Suntem de p˘arere c˘a cele dou˘a procese, analiza sintactic˘a ¸si DSA, sunt interdepen- dente. DSA are de beneficiat de pe urma procesului de analiz˘a sintactic˘a a¸sa cum se arat˘a ˆın [33, 53, 97].

(14)

1.1 O clasificare a metodelor de DSA

Rezolv˘arile problemei de DSA au urmat c˘ai diferite dˆand astfel na¸stere mai multor tipuri de rezolv˘ari posibile. Distinct¸ia cea mai important˘a care s-a f˘acut ˆıntre tipurile de rezolv˘ari a fost cea de metod˘aasistat˘a⁹ fat¸˘a de metod˘a neasistat˘a¹⁰. Metodele de DSA asistat˘a (vezi de exemplu [33, 29, 19, 97]) folosesc ˆın general texte ˆın care fiecare cuvˆant de interes¹¹este adnotat la nivel de sens, pentru a se “antrena” ˆın recunoa¸sterea sensurilor acestor cuvinte.

Antrenarea presupune construct¸ia unui clasificator pentru fiecare cuvânt adnotat din textul de antrenament care va fi folosit apoi pentru a clasifica ocurent¸ele cuvântului dintr-un nou text (numit “de test”) ˆıntr-una din clasele “ˆınv˘at¸ate”. Un impediment real ˆın folosirea acestei metode de DSA este costul mare de timp pentru a produce texte adnotate cu sensuri. În general, ˆıntr-un text oarecare nu toate sensurile unui cuvânt din inventarul de sensuri sunt reprezentate ˆın text. De aceea, un text de antrenare care s˘a furnizeze un num˘ar suficient de exemple pentru fiecare sens al fiec˘arui cuvânt din inventarul de sensuri considerat este aproape imposibil de realizat “manual”. O metod˘a de DSA asistat˘a are nevoie de un astfel de text de antrenare pentru a putea fi aplicat˘a, iar la rândul lui textul de antrenare ar putea beneficia de o metod˘a de DSA pentru a se u¸sura crearea sa. Acest fenomen este cunoscut sub denumirea de “knowledge acquisition bottleneck”¹²¸si el a generat aparit¸ia metodelor DSA intermediare de “bootstrapping”. “bootstrapping” ˆınseamn˘a ˆın contextul DSA, adnotarea manual˘a a unor ocurent¸e ale cuvântului t¸int˘a ˆın textul de antrenare ¸si aplicarea DSA asistate pentru restul de ocurent¸e ale

cuvˆantului. Exemple ˆın acest sens sunt [33, 93].

Metodele de DSA neasistat˘a sunt toate cele care nu sunt asistate (nu au nevoie de texte de antrenament). În mod tradit¸ional, aceste metode grupeaz˘a ocurent¸ele cuvântului t¸int˘a (de dezambiguizat) ˆın clase de echivalent¸˘a ˆın care ocurent¸ele cuvântului dintr-o clas˘a au acela¸si sens (vezi de exemplu [93, 130, 94]). Identitatea sensurilor ˆıntr-o clas˘a de echivalent¸˘a este justificat˘a de modul de construct¸ie al clasei ¸si anume, clasa cont¸ine acele ocurent¸e ale cuvântului t¸int˘a care apar ˆın contexte similare. Similaritatea contextelor este dependent˘a de metod˘a dar de obicei, un context este dat de o fereastr˘a de cuvinte centrat˘a ˆın cuvântul t¸int˘a¹³.

9ˆIn englez˘a, “supervised (WSD method)”.

10ˆIn englez˘a, “unsupervised (WSD method)”.

11Cuvintele vizate ˆın DSA sunt a¸sa-numitele cuvinte cont¸inut, adic˘a substantivele, ver- bele, adjectivele ¸si adverbele.

12ˆIn IA “knowledge acquisition bottleneck” se refer˘a la imposibilitatea de a descrie ¸si stoca cuno¸stint¸e cu caracter enciclopedic.

13Formalizare a contextului cunoscut˘a sub numele de “bag of words”.

(15)

O alt˘a clasificare a metodelor de DSA consider˘a sursele de informat¸ii folosite de algoritm. La o extrem˘a se afl˘a algoritmul lui Lesk ([52]) care folose¸ste textul de dezambiguizat (f˘ar˘a vreo adnotare prealabil˘a) ¸si inventarul de sensuri care este o simpl˘a list˘a de definit¸ii pentru fiecare sens. La cealalt˘a extrem˘a se afl˘a algoritmul lui Stevenson ¸si Wilks ([98]) care utilizeaz˘a diverse adnot˘ari ale textului de dezambiguizat ¸si un inventar de sensuri structurat.

ˆIn general, un algoritm care folose¸ste fie adnot˘ari suplimentare ale textului de dezambiguizat cum ar fi de exemplu analiza sintactic˘a, fie inventare de sensuri structurate (WordNet este un exemplu ˆın acest sens) ¸si/sau ontologii (vezi SUMO, [75]) este un algoritm de DSA cu surse externe de informat¸ie (SEI)¹⁴.

Dac˘a judec˘am solut¸iile problemei de DSA dup˘a acuratet¸ea pe care algoritmii de DSA o obt¸in, putem afirma c˘a cele mai bune metode de DSA sunt cele hibride. Metodele hibride de DSA folosesc de obicei ˆın procesul de dezambiguizare orice surs˘a de informat¸ie la care au acces ¸si pe lˆang˘a acest lucru, se folosesc de proces˘arile metodelor de DSA neasistat˘a pentru a g˘asi clasele de echivalent¸˘a ca un pas foarte util ˆın activitatea de dezambiguizare.

Hinrich Sch¨utze afirm˘a ˆın [94] c˘a DSA este procesul de atribuire a etichetelor semantice ocurent¸elor unui cuvˆant ambiguu iar aceast˘a problem˘a poate fi ˆımp˘art¸it˘a ˆın dou˘a subprobleme:

• sense discrimination: gruparea ocurent¸elor cuvˆantului ambiguu ˆın clase de ocurent¸e ˆın care toate ocurent¸ele au acela¸si sens;

• sense labeling: identificarea sensurilor (etichetelor semantice) aplicabile claselor de ocurent¸e.

Este un mod de a privi DSA ca pe un proces compus ˆın care ˆıntâi se aplic˘a o metod˘a de DSA neasistat˘a pentru a se stabili clasele de echivalent¸˘a ale sensurilor cuvântului t¸int˘a dup˘a care intervine procedura de atribuire a unei etichete de sens unei clase de echivalent¸˘a ¸si deci implicit fiec˘arei ocurent¸e a cuvântului din clas˘a.

ˆIn figura 1.1 se afl˘a o reprezentare ierarhic˘a a metodelor de DSA ˆın viziu- nea autorului. Metodele care folosesc inventare de sensuri structurate sunt considerate cu surse externe de informat¸ie (+ SEI). Algoritmii pe care ˆıi vom prezenta ˆın aceast˘a lucrare implementeaz˘a urm˘atoarele tipuri de metode de DSA dup˘a aceast˘a clasificare:

• WSDTool este o metod˘a de DSA multilingv˘a, neasistat˘a cu surse externe de informat¸ie;

14ˆIn englez˘a, “knowledge-based WSD”.

(16)

Figura 1.1: O clasificare a metodelor de DSA.

• SynWSD este o metod˘a de DSA monolingv˘a, neasistat˘a cu surse externe de informat¸ie.

1.2 Despre sensuri ¸ si ˆınt ¸elesuri

1.2.1 Sens ¸ si denotat ¸ie. Analiza limbajului

În ˆıncercarea sa de a descrie o teorie complet˘a a ˆınt¸elesului, Frege (vezi [15]) face o distinct¸ie clar˘a ˆıntre sensul unui cuvânt ¸si referint¸a¹⁵ (sau denotat¸ia) sa. În concept¸ia fregean˘a, sensul unui cuvânt precizeaz˘a referint¸a cuvântului ˆıntr-un context dat¹⁶. Astfel, dou˘a expresii pot avea aceea¸si referint¸˘a dar

dou˘a sensuri diferite:

(1.4) The Morning Star is The Evening Star.

15Un corespondent ˆın logica predicatelor de ordinul I pentru referint¸˘a ar fi extensiunea dat˘a unui predicat de modelul de interpretare.

16Sau sensul este acea component˘a semantic˘a a unui cuvânt cu ajutorul c˘areia putem preciza referint¸a cuvântului ˆıntr-un context. În logica predicatelor de ordinul I, predicatele ar putea fi concepute ca sensuri.

(17)

(1.5) The Morning Star is The Morning Star.

ˆIn timp ce 1.5 este o relat¸ie de indentitate tautologic˘a de tipul a = a¹⁷ f˘ar˘a cont¸inut informativ, 1.4 este o relat¸ie care ne informeaz˘a despre o identi- tate de tipul a = aˆın care fiecare a a fost obt¸inut altfel. Aceast˘a modali- tate de denotare este numit˘a de Frege “sens”. Prin conectarea not¸iunilor de

“informat¸ie” (deci “cunoa¸stere”) ¸si “sens”, Frege ˆı¸si justific˘a punctul de vedere conform c˘aruia sensul este o component˘a a ˆınt¸elesului unui cuvânt unde ˆınt¸elesul unui cuvânt este “ceea ce cunoa¸ste/¸stie cineva atunci când ˆınt¸elege

un cuvˆant”.

Pentru Frege, componentele ˆınt¸elesului unui cuvânt sunt: tonul (sau conotat¸ia), fort¸a (cum este definit˘a de teoria actelor de vorbire) ¸si sensul cuvântului. Referint¸a cuvântului nu intr˘a deloc ˆın aceast˘a descriere ¸si la prima vedere, ea nu joac˘a nici un rol ˆın determinarea ˆınt¸elesului cuvântului.

Dar pentru c˘a sensul cuvˆantului ˆıi precizeaz˘a referint¸a ¸si pentru c˘a sensul este componenta semantic˘a a ˆınt¸elesului care ajut˘a la stabilirea valorii de adev˘ar a propozit¸iei, concluzion˘am c˘a, de¸si referint¸a nu este ment¸ionat˘a explicit ˆın schema de ˆınt¸eles a unui cuvˆant, ea este prezent˘a totu¸si ˆın determinarea ˆınt¸elesului lui.

Frege a fost interesat de rolul semantic al expresiilor ˆın compunerea ˆınt¸elesului ¸si de clasificarea lor ˆın acest scop. Despre ˆınt¸elesurile expresiilor, Frege formuleaz˘a dou˘a principii, principii care reflect˘a concept¸ia sa asupra analizei limbajului:

• sensul unei expresii se compune din sensurile expresiilor constituente¹⁸;

• referint¸a unei expresii se construie¸ste din referint¸ele expresiilor compo- nente¹⁹.

O prim˘a distinct¸ie care se face ˆıntre expresii este aceea de expresii complete

¸si expresii incomplete. Expresiile complete sunt de dou˘a tipuri: nume proprii

¸si enunt¸uri. Expresiile incomplete sunt definite pe baza celor complete (de nivel 0) prin intermediul celor incomplete de nivel imediat inferior dup˘a cum urmeaz˘a:

• Expresii incomplete de nivelul 1 (sunt expresii din care se elimin˘a expresii de nivel 0):

– Conectorii logici unari ¸si binari: ¬,∨,∧,→,↔;

17Dac˘a aeste un designator rigid (aeste o constant˘a c˘areia i se atribuie acela¸si obiect din domeniul de discurs indiferent de modelul de interpretare ales).

18Expresia minimal˘a c˘areia i se poate atribui sens este cuvˆantul.

19Mai exact, referint¸a ˆıntregului este denotat˘a de sensul compus.

(18)

– Predicate unare²⁰ obt¸inute din eliminarea unui nume propriu dintr-un enunt¸: din “John loves Mary” obt¸inem “x loves Mary” sau din “Brutus killed Caesar”, “xkilled Caesar”;

– Predicate n-are²¹ care se obt¸in din eliminarea a n nume proprii dintr-un enunt¸: din “Brutus killed Caesar” rezult˘a predicatul bi- nar “x killed y”;

– Descript¸ii definite din care se elimin˘a unul sau dou˘a nume proprii:

“the father of John and Mary” genereaz˘a “the father ofx andy”.

• Expresii incomplete de nivelul 2 (sunt expresii din care se elimin˘a expresii de nivel 1):

– Cuantificatorii logici: de exemplu un cuantificator ˆımpreun˘a cu un predicat unar formeaz˘a un enunt¸, deci o expresie complet˘a. Altfel spus, din ∀x ¸si P(x) obt¸inem ∀xP(x) care are valoare de adev˘ar

¸si este deci un enunt¸;

– Operatorul de descriere: “the x [such that] φ(x)” unde φ(x) este o variabil˘a care ia valori ˆın mult¸imea predicatelor unare.

1.2.2 DSA ¸ si not ¸iunea de sens

Dac˘a accept˘am definit¸ia lui Frege a ˆınt¸elesului, putem afirma c˘a DSA se refer˘a la selectarea algoritmic˘a a ˆınt¸elesului (nu a sensului) unui cuvânt ˆın contextul s˘au de aparit¸ie. În lucrarea de fat¸˘a vom folosi totu¸si termenii de “sens” ¸si “ˆınt¸eles” ca fiind sinonimi²² ¸si vom considera c˘a problema de DSA este definit˘a ˆın raport cu un inventar de sensuri²³ care este disponibil algoritmului de dezambiguizare ¸si despre care se presupune c˘a face acele distinct¸ii de sensuri relevante pentru textul procesat²⁴. Not¸iunea de sens al unui cuvânt a fost folosit˘a ˆın aceast˘a ˆımprejurare pentru a individualiza acea component˘a semantic˘a a cuvântului de care depinde o viitoare procesare a lui sau a contextului de aparit¸ie a lui. De exemplu, ˆın traducerea automat˘a intereseaz˘a lexicaliz˘arile diferite ale ˆınt¸elesurilor cuvântului surs˘a. Not¸iunea

20Denumite ¸si propriet˘at¸i.

21Denumite ¸si relat¸ii.

22Unde nu sunt, se va sublinia diferent¸a dintre ei (vezi sect¸iunea 2.3).

23Un sens este privit aici ca o definit¸ie de dict¸ionar ¸si din acest motiv punem semnul (aproximativ) egal ˆıntre “sens” ¸si “ˆınt¸eles” (vezi sect¸iunea 2.3 pentru detalii asupra egalit˘at¸ii dintre “sens” ¸si “ˆınt¸eles”).

24ˆIn aceast˘a lucrare nu vom considera problemele care apar ˆın leg˘atur˘a cu incompleti- tudinea inventarului de sensuri.

(19)

de sens al unui cuvˆant a suferit astfel modific˘arile cerute de aplicat¸ia de procesare a limbajului natural care folose¸ste DSA.

Sensul unui cuvânt este un concept neclar din punctul de vedere al repre- zent˘arii pe care o cap˘at˘a pentru fiecare vorbitor. Neclaritatea este accentuat˘a de opiniile diferite pe care le au diversele dict¸ionare ˆın legatur˘a cu sensurile unui cuvânt dat ¸si chiar s-a afirmat c˘a sensurile exist˘a ˆın cadrul unui domeniu de aplicat¸ie (vezi [48]). În plus, “problema” creativit˘at¸ii limbajului natural este invocat˘a ˆın defavoarea consider˘arii dict¸ionarelor ca inventare de sensuri pentru metodele de dezambiguizare semantic˘a automat˘a. Un cuvânt poate fi folosit practic ˆın orice context, cu orice categorie gramatical˘a, pentru a satisface nevoile de comunicare ale vorbitorului. Din acest punct de vedere, putem fi siguri c˘a orice inventar de sensuri nu va fi niciodat˘a suficient de bogat pentru a acoperi descriptiv ˆıntreg fondul lexical la care un om are acces. Totu¸si, formularea problemei dezambiguiz˘arii semantice automate este clar˘a: g˘asirea acelui sens al cuvântului cu care acesta este folosit ˆın contextul s˘au de aparit¸ie, sens extras din inventarul de sensuri care este disponibil algoritmului. De aceea, din punctul de vedere al problemei, faptul c˘a un inventar de sensuri este incomplet, nu este relevant. În cazul cuvintelor/sensurilor necunoscute, un algoritm de DSA ar trebui s˘a indice c˘a ele nu sunt cunoscute²⁵.

Dezambiguizarea semantic˘a automat˘a a fost considerat˘a ca fiind o procesare util˘a altora. De aceea, datele de intrare (inventarul de sensuri, modul de adnotare) au fost modificate astfel ˆıncˆat rezultatul dezambiguiz˘arii s˘a fie util proces˘arilor ulterioare. Printre acestea, aplicat¸iile de ˆınt¸elegere a limbajului natural sunt cele mai ˆın m˘asur˘a s˘a cear˘a serviciile oferite de un modul de DSA pentru c˘a, ˆın conformitate cu postulatul de compozit¸ionalitate a ˆınt¸elesului, ˆınt¸elesurile p˘art¸ilor trebuie cunoscute pentru a se putea compune din ele ˆınt¸elesul ˆıntregului. O ˆıntrebare natural˘a care se poate pune ˆın acest punct este dac˘a pentru a reu¸si dezambiguizarea semantic˘a, este necesar˘a con- struirea ˆınt¸elesului propozit¸iei pe care vrem s˘a o dezambiguiz˘am. Rezolv˘arile propuse pˆan˘a acum r˘aspund negativ.

25Acest lucru nu se ˆıntâmpl˘a ˆın prezent. Lucr˘arile despre dezambiguizarea semantic˘a automat˘a nu precizeaz˘a care/câte cuvinte/sensuri nu au fost recunoscute pentru c˘a nu erau prezente ˆın lexicon. În cele mai multe cazuri, algoritmii de DSA se concentreaz˘a pe mult¸imi reduse de cuvinte de dezambiguizat pentru care se testeaz˘a acuratet¸ea dezambiguiz˘arii pentru un num˘ar determinat de sensuri care se afl˘a ˆın lexicon.

(20)

Capitolul 2

Preprocesarea textelor.

Resurse lingvistice computat ¸ionale

Algoritmii de DSA atribuie sensuri¹ cuvintelor unui text. Pentru a realiza acest lucru, ei au nevoie s˘a identifice ˆın text cuvintele² iar ˆın funct¸ie de dict¸ionarul folosit, au de asemenea nevoie s˘a cunoasc˘a categoriile gramaticale³ ¸si lemele⁴ cuvintelor. În consecint¸˘a, pentru a putea face DSA pe un text acesta are nevoie de câteva proces˘ari prealabile, proces˘ari care se fac de obicei pe niveluri (fiecare nivel depinzând de cel anterior):

1. segmentare la nivel de fraz˘a⁵: cei mai mult¸i algoritmi de DSA folosesc contexte care nu sunt egale cu fraza. Dar pentru cei care folosesc fraza ca limit˘a a contextului, aceast˘a operat¸ie este necesar˘a.

Operat¸ia de identificare a unei fraze poate ˆıntâmpina dificult˘at¸i atunci când aceasta cont¸ine abrevieri de exemplu. În acest caz, punctul final al unei abrevieri poate sau nu s˘a fie ¸si marcator de sfâr¸sit de fraz˘a (vezi [31]).

2. segmentare la nivel de cuvˆant⁶: acest proces este absolut necesar

1Aceste “sensuri” sunt de fapt ni¸ste etichete care identific˘a ˆınt¸elesuri anume ale cuvintelor a¸sa cum sunt ele date de un dict¸ionar.

2Identificarea unui cuvˆant poate s˘a par˘a o operat¸ie foarte simpl˘a care nu merit˘a ment¸ionat˘a dar exist˘a ambiguit˘at¸i ˆın segmentarea la nivel de cuvˆant (vezi de exemplu [31]).

3Este vorba despre categoriile morfosintactice (sau p˘art¸ile de vorbire) cum ar fi substantiv, adjectiv, verb, adverb.

4Vezi nota de subsol 8 din capitolul 4.

5ˆIn englez˘a, “sentence splitting”.

6ˆIn englez˘a, “tokenizing”.

(21)

fiec˘arui algoritm de DSA. Pentru a putea atribui un sens unui cuvˆant, algoritmul trebuie s˘a obt¸in˘a ˆıntˆai o list˘a a cuvintelor de dezambiguizat.

3. adnotare cu etichete morfosintactice⁷: exist˘a lucr˘ari de DSA (vezi [98]) ˆın care se consider˘a c˘a ambiguitatea de categorie gramatical˘a este de asemenea ¸si ambiguitate semantic˘a. De aceea, performant¸a adnot˘arii cu categorii gramaticale este creditat˘a ca performant¸˘a a adnot˘arii semantice ˆın cazul ˆın care pentru o anumit˘a categorie gramatical˘a, cuvˆantul are un singur sens ˆın dict¸ionar. Cunoa¸stem totu¸si faptul c˘a algoritmii de adnotare cu etichete morfosintactice ajung la ora actual˘a la performant¸e ˆın intervalul de precizie 96%−98% (vezi [100, 101, 7, 88]) iar ˆın acest caz, “dezambiguizarea” cuvintelor cu un singur sens pe categorie gramatical˘a nu mai reprezint˘a o problem˘a pentru c˘a aici meritul este al algoritmului de adnotare cu etichete morfosintactice. ˆIn practicile curente de DSA, acest proces de dezambiguizare morfosintactic˘a este considerat ca o etap˘a standard premerg˘atoare dezambiguiz˘arii semantice.

4. lematizare: operat¸ie de asemenea obligatorie pentru DSA. Asigur˘a re- ducerea formelor flexionare ale cuvintelor la formele standard care sunt inventariate de dict¸ionare. Trebuie s˘a observ˘am c˘a aceast˘a operat¸ie este dependent˘a de adnotarea cu etichete morfosintactice pentru c˘a pentru o form˘a flexionar˘a a unui cuvˆant lema acestuia depinde de categoria gramatical˘a a cuvˆantului. De exemplu, “haina” poate s˘a fie adjectiv feminin, singular, articulat cu lema “hain” sau substantiv comun, feminin, singular, articulat cu lema “hain˘a”.

Pe lâng˘a informat¸ia necesar˘a pentru dezambiguizare prezentat˘a mai sus, un algoritm de DSA mai are nevoie ¸si de un inventar de sensuri⁸ din care s˘a aleag˘a sensul unui cuvânt dintr-un context dat. Aceste inventare de sensuri fac parte din categoria resurselor lingvistice computat¸ionale (al˘aturi de corpusuri, lexiconuri, gramatici, ¸s.a.) ¸si sunt indispensabile dezambiguiz˘arii semantice. De ele depinde ˆıntr-o oarecare m˘asur˘a chiar proiectarea algoritmilor de DSA. De exemplu, ˆın [1], ret¸eaua semantic˘a Princeton WordNet 2.0 (PWN2.0) a limbii engleze ([25, 24]) este folosit˘a pentru a calcula o densitate conceptual˘a ˆıntre ˆınt¸elesurile cuvântului t¸int˘a ¸si ˆınt¸elesurile cuvintelor din context de aceea¸si categorie gramatical˘a iar aceast˘a densitate este folosit˘a apoi pentru a selecta ˆınt¸elesul cuvântului t¸int˘a.

7ˆIn englez˘a, “part-of-speech tagging”. Vezi ¸si nota de subsol 9 din capitolul 4.

8Sau dict¸ionar ˆıntr-o accept¸iune larg˘a a termenului. Acest dict¸ionar trebuie s˘a existe ˆın format electronic astfel ˆıncˆat s˘a poat˘a fi interogat de un algoritm de DSA.

(22)

În acest capitol vom prezenta un modul de preprocesare a textelor care efectueaz˘a toate operat¸iile ment¸ionate anterior, vom continua cu o prezentare a unui corpus paralel englez-român ˆın care partea englez˘a este adnotat˘a cu etichete de sens din PWN2.0 ¸si care constituie un corpus de referint¸˘a ˆın cercet˘arile de DSA ([67]). Odat˘a cu traducerea ˆın limba român˘a a acestui corpus am reu¸sit s˘a transfer˘am adnot˘arile de sens din englez˘a ˆın român˘a folosind ret¸eaua semantic˘a a limbii române (Romanian WordNet sau pe scurt, ROWN2.0, [105, 106]) care este aliniat˘a (vezi sect¸iunea 2.3 pentru definit¸ia acestei operat¸ii) la PWN2.0.

2.1 Modulul de preprocesare a textelor TTL

TTL⁹ este un modul Perl ([125]) care a fost dezvoltat din dorint¸a de a dis- pune de un singur program care s˘a produc˘a ni¸ste adnot˘ari care altfel ar fi trebuie obt¸inute separat prin invocarea mai multor programe. O problem˘a suplimentar˘a care apare din folosirea mai multor programe care nu sunt compatibile din punctul de vedere al formatelor datelor de intrare ¸si ie¸sire este conversia ˆıntre aceste formate. De asemenea se dorea o interfat¸˘a programa- bil˘a¹⁰ cu acest modul, anume posibilitatea de a incorpora diverse proceduri de adnotare ˆın alte programe.

TTL este capabil ˆın versiunea sa curent˘a (6.7) s˘a produc˘a independent de limb˘a¹¹ urm˘atoarele adnot˘ari:

• recunoa¸sterea entit˘at¸ilor denumite¹²: ˆın general acest proces se refer˘a la adnotarea numelor proprii de persoane, ora¸se, t¸˘ari, institut¸ii, etc. dintr-un text dar ¸si la depistarea unor entit˘at¸i cum ar fi datele, numerele (ˆıntregi, reale), ¸s.a.m.d. (vezi de exemplu [6] pentru o introducere). ˆIn majoritatea limbilor aceste entit˘at¸i au o grafie proprie diferit˘a de cea a cuvintelor comune iar acest aspect este folosit ˆın principal la identificarea lor. De exemplu, ˆın romˆan˘a ca ¸si ˆın englez˘a substantivele proprii se scriu cu majuscul˘a. TTL folose¸ste o list˘a de expresii regulate pentru fiecare entitate pe care o recunoat¸e iar pentru fiecare expresie regulat˘a exist˘a o etichet˘a care-i specific˘a tipul (dat˘a, num˘ar real, etc.). Urmeaz˘a s˘a descriem ce dificult˘at¸i exist˘a la acest nivel ¸si cum procedeaz˘a exact TTL pentru a identifica entit˘at¸ile.

9ˆIn englez˘a, ”Tokenizing, Tagging and Lemmatizing free running texts”.

10Termen cunoscut ˆın englez˘a ca API (Application Programming Interface).

11Cu except¸ia resurselor de care are nevoie ¸si care sunt evident folositoare unei limbi anume.

12”Named Entity Recognition (NER)” ˆın englez˘a.

(23)

• segmentare la nivel de fraz˘a: se folosesc o serie de ¸sabloane pentru identificarea sfˆar¸sitului de fraz˘a ¸si de asemenea o list˘a de abrevieri frecvente pentru o limb˘a dat˘a pentru a putea judeca natura punctului final al unei fraze.

• segmentare la nivel de cuvˆant: a fost inspirat˘a de segmentatorul MtSeg ([2]) ¸si folose¸ste liste de expresii pe care le recunoa¸ste ˆın text

¸si liste de prefixe ¸si sufixe care dac˘a fac parte dintr-un cuvˆant, sunt desp˘art¸ite de acesta din motive care vor deveni clare ˆın cele ce urmeaz˘a.

• adnotare cu etichete morfosintactice: implementeaz˘a adnotatorul TnT ([7]) pe care ˆıl ˆımbun˘at˘at¸e¸ste cu cˆateva euristici noi.

• lematizare: funct¸ia de lematizare folose¸ste un model de leme extras automat dintr-un lexicon care cont¸ine pentru fiecare form˘a ocurent˘a a unui cuvˆant, lema ¸si eticheta morfosintactic˘a a ei.

2.1.1 Recunoa¸ sterea entit˘ at ¸ilor denumite

Aceast˘a problem˘a a fost rezolvat˘a prin diverse metode (pentru exemple vezi [6, 16]) ˆıns˘a o etap˘a care apare de obicei este etapa antren˘arii clasificatorului pe un corpus ˆın care entit˘at¸ile sunt deja recunoscute¹³ (ˆınv˘at¸are asistat˘a¹⁴).

Pentru a rezolva problema entit˘at¸ilor denumite, TTL apeleaz˘a la expresiile regulate ca la o metod˘a facil˘a, u¸sor de implementat ¸si care nu necesit˘a antrenare. Astfel, un expert codific˘a ˆıntr-o gramatic˘a nerecursiv˘a care su- port˘a operatorii de repetit¸ie Kleene {∗,+,?}¹⁵ câte o regul˘a pentru fiecare tip de entitate care trebuie s˘a fie recunoscut˘a. Regulile gramaticii sunt apoi traduse automat prin expandarea lor¹⁶ ˆın expresii regulate Perl. Ordinea ˆın care aplicarea lor este verificat˘a este dat˘a de un fi¸sier de control care se nume¸ste filtru ¸si care specific˘a prioritatea fiec˘arei product¸ii de start din gramatic˘a cât ¸si faptul dac˘a product¸ia se ia ˆın calcul sau nu ˆın procesul de recunoa¸stere. Prioritatea de aplicare este necesar˘a pentru c˘a o entitate poate s˘a fie un sub¸sir de caractere al altei entit˘at¸i iar dac˘a sub¸sirul este recunoscut primul, entitatea mai cuprinz˘atoare r˘amâne astfel nerecunoscut˘a. Din acest motiv, expresiile regulate care recunosc ¸siruri mai lungi de caractere primesc prioritate mai mare decât restul expresiilor regulate.

13Adnotate ca atare de un expert.

14ˆIn englez˘a, “supervised training”.

15a+ =aa∗,a? = (|a).

16Din acest motiv gramatica nu trebuie sa fie recursiv˘a pentru c˘a, ˆın caz contrar, expandarea ar dura la nesfˆar¸sit.

(24)

LMarker -> ( ’(^|\s|$|\[|\{|\"|\’|,|\.|:|;|\?|\!)’ ) RMarker -> ( ’($|\s|$|\]|\}|\"|\’|,|\.|:|;|\?|\!)’ ) Abbrev -> ( ’(?:[A-Z]\.){1,4}’ )

AbbrevS -> LMarker ’(’ Abbrev ’)’ RMarker

Figura 2.1: Gramatic˘a pentru recunoa¸sterea unei abrevieri apply AbbrevS priority 100 ctag Y msd Yn emsd Ed

Figura 2.2: Filtru pentru gramatica din figura 2.1

Un prim dezavantaj al recunoa¸sterii entit˘at¸ilor denumite cu expresii regulate este acela c˘a dac˘a exist˘a dou˘a entit˘at¸i de tipuri diferite care sunt recunoscute de o aceea¸si regul˘a de start a gramaticii avem un conflict de tipuri. În acest caz nu avem nicio metod˘a de a selecta un singur tip pentru entitatea respectiv˘a ¸si din acest motiv suntem obligat¸i fie s˘a generaliz˘am tipul entit˘at¸ii, fie s˘a ajust˘am regulile gramaticii astfel ˆıncât acest lucru s˘a nu se ˆıntâmple.

Pentru exemplificare, fie gramatica din figura 2.1, filtrul din figura 2.2 ¸si fraza (format˘a dintr-o singur˘a propozit¸ie) din 2.1.

(2.1) Serviciul Romˆan de Informat¸ii (S.R.I.) este o institut¸ie similar˘a cu C.I.A.

S¸irurile de caractere aflate ˆıntre apostrofuri reprezint˘a simboluri terminale ale gramaticii (sunt simboluri ale expresiilor regulate Perl) iar simbolul de start al gramaticii este AbbrevS. Prin expandarea product¸ieiAbbrevS, vom obt¸ine o expresie regulat˘a Perl care va putea fi verificat˘a pentru aplicare pe propozit¸ia 2.1. Ea recunoa¸ste ¸sirurile de caractere “S.R.I.” ¸si “C.I.A.” ca fiind abrevieri pentru c˘a filtrul permite recunoa¸sterea abrevierilor (apply). Tipul entit˘at¸ii este dat de mai multe etichete morfosintactice aflate ˆın corespondent¸˘a (vezi prezentarea adnot˘arii cu etichete morfosintactice pentru detalii). Dup˘a adnotare, propozit¸ia dat˘a va cont¸ine informat¸ia din figura 2.3.

2.1.2 Segmentarea la nivel de fraz˘ a

Problema identific˘arii sfˆar¸sitului unei fraze se reduce la a dezambiguiza punctuat¸ia final˘a. Dac˘a semnul ˆıntreb˘arii (’ ?’) sau semnul exclam˘arii (’ !’) nu

(25)

Serviciul Romˆan de Informat¸ii (

) este o institut¸ie similar˘a cu

Figura 2.3: Rezultatul operat¸iei de recunoa¸stere a entit˘at¸ilor

^

ı.e.n. ABBREVIATION ^ınaintea erei noastre

¸

s.a.m.d. ABBREVIATION ¸si a¸sa mai departe

¸

s.a. ABBREVIATION ¸si altele

Figura 2.4: Cˆateva abrevieri uzuale ˆın romˆan˘a

sunt aproape niciodat˘a ambigue (ele termin˘a fraze ˆın marea majoritate a ca- zurilor), interpretarea punctului (’.’) este ambigu˘a ˆıntre marcajul de final de fraz˘a sau finalul unei abrevieri (sau poate primi ambele interpret˘ari simultan, vezi de asemenea [31]). Exist˘a cazuri ˆın care punctul apare ¸si ˆın component¸a unor entit˘at¸i cum ar fi ˆın englez˘a numerele reale: 1,234.543 de exemplu.

Ca ¸si recunoa¸sterea entit˘at¸ilor denumite, identificarea sfˆar¸sitului unei fraze este o problem˘a care a fost studiat˘a ¸si pentru care exist˘a de asemenea algoritmi care ˆınvat¸˘a din corpusuri adnotate ([89]). Abordarea noastr˘a este iar˘a¸si una mai simpl˘a ¸si anume aceea bazat˘a pe reguli: mai exact, aceste reguli definesc de fapt ¸sabloanele sfˆar¸sitului de fraz˘a.

Segmentarea la nivel de fraz˘a se desf˘a¸soar˘a dup˘a analiza precedent˘a din cauz˘a c˘a entit˘at¸ile pot cont¸ine simboluri de sfâr¸sit de fraz˘a. Odat˘a cu recunoa¸sterea entit˘at¸ilor, se elimin˘a cazul ˆın care se putea segmenta textul ˆın interiorul unei entit˘at¸i. R˘amâne de rezolvat problema judec˘arii semnificat¸iei punctului. TTL folose¸ste o list˘a de abrevieri uzuale pentru fiecare limb˘a pentru a putea identifica abrevierile. Punctul final dup˘a un cuvânt care se afl˘a ˆın aceast˘a list˘a reprezin˘a finalul unei abrevieri. Dac˘a dup˘a abreviere se ˆıntâlne¸ste un cuvânt care ˆıncepe cu majuscul˘a, punctul este de asemenea ¸si final de fraz˘a. Cazul r˘amas (punct dup˘a un cuvânt care nu este ˆın lista de abrevieri) este considerat ca fiind sfâr¸sit de fraz˘a.

Pentru limba romˆan˘a lista de abrevieri pe care o utilizeaz˘a TTL cont¸ine 731 de abrevieri (vezi figura 2.4 pentru formatul listei de abrevieri) iar pentru englez˘a, 186 de abrevieri (figura 2.5).

S¸abloanele de sfˆar¸sit de fraz˘a rezolv˘a problemele care apar atunci cˆand fraza se ˆıncheie cu punctuat¸ie pereche a¸sa cum sunt parantezele (deschise

(26)

m.p.h. ABBREVIATION miles per hour vs. ABBREVIATION versus

i.e. ABBREVIATION id est

a.m. ABBREVIATION ante meridiem p.m. ABBREVIATION post meridiem

Figura 2.5: Cˆateva abrevieri uzuale ˆın englez˘a

h,(,{,[ ¸si ˆınchise ],},),i), ghilimelele (deschise “ ¸si ˆınchise ”) sau apostrofurile (deschis ‘ ¸si ˆınchis ’). Dac˘a dup˘a punctuat¸ia de final de fraz˘a (’.’, ’ ?’, ’ !’,

’...’, ’ ?...’ sau ’ !...’) apare de exemplu o parantez˘a ˆınchis˘a, atunci ea trebuie p˘astrat˘a ˆın fraza curent˘a. ˆIn schimb, o parantez˘a deschis˘a nu trebuie p˘astrat˘a dac˘a apare dup˘a punctuat¸ia de final.

2.1.3 Segmentarea la nivel de cuvˆ ant

Se face ˆın mod necesar dup˘a segmentarea la nivel de fraz˘a din acela¸si motive ment¸ionate mai sus: entit˘at¸ile pot cont¸ine punctuat¸ie care nu trebuie seg- mentat˘a iar abrevierile cont¸in la rˆandul lor punctuat¸ie final˘a care iar˘a¸si nu trebuie separat˘a. La acest nivel trebuie s˘a avem deci garant¸ia c˘a entit˘at¸ile cˆat ¸si abrevierile sunt marcate ˆın stilul prezentat ˆın figura 2.3.

Dac˘a la segmentarea frazelor punctul nu era ˆıntotdeauna marcaj de sfâr¸sit de fraz˘a, aici putem afirma c˘a spat¸iul nu este ˆıntodeauna marcaj de sfâr¸sit de cuvânt. Mai mult, marcajul de sfâr¸sit de cuvânt poate fi chiar ¸sirul vid () !

ˆIn orice limb˘a exist˘a expresii idiomatice al c˘aror ˆınt¸eles este nedecompo- zabil¹⁷ ¸si din acest motiv ele trebuie considerate ca unit˘at¸i lexicale de sine st˘at˘atoare¹⁸. Chiar dac˘a ˆınt¸elesul unei secvent¸e de cuvinte poate fi construit din ˆınt¸elesurile cuvintelor care o compun¹⁹, exist˘a diverse motive pentru care putem totu¸si considera secvent¸a ca fiind o expresie: expresia se afl˘a ˆıntr- un dict¸ionar, expresia este identificat˘a ca o colocat¸ie²⁰ (pentru depistarea

17De exemplu “a arunca o vorb˘a”, “a-¸si arunca ochii”, ˆın romˆan˘a sau “to take a look”,

“to catch one’s breath” ˆın englez˘a

18Spat¸iul nu este delimitator de cuvˆant ˆın acest caz.

19“Ecuat¸ie diferent¸ial˘a” de exemplu.

20Manning ¸si Sch¨utze, [57]: o colocat¸ie este o secvent¸˘a de dou˘a sau mai multe cuvinte folosit˘a ˆın mod uzual pentru a exprima ceva.

(27)

mai cu seam˘a COMPOUND peste poate COMPOUND peste tot COMPOUND praf de pu¸sc˘a COMPOUND punct de vedere COMPOUND punctul de vedere COMPOUND

Figura 2.6: Compu¸si romˆane¸sti ca unit˘at¸i lexicale

^

ıntr- LEFTSPLIT prepozit¸ie le- LEFTSPLIT pronume ne- LEFTSPLIT pronume -t¸i RIGHTSPLIT pronume -¸si RIGHTSPLIT pronume -o RIGHTSPLIT pronume

Figura 2.7: Prefixe (LEFTSPLIT) ¸si sufixe (RIGHTSPLIT) care trebuie separate ˆın romˆan˘a.

colocat¸iilor ˆıntr-un corpus, vezi [57, pag. 151]). Din p˘acate²¹, o secvent¸˘a de cuvinte poate s˘a constituie o expresie ˆıntr-un context iar ˆın altul nu (vezi exemplele 2.2 ¸si 2.3 cˆat ¸si [91]).

(2.2) Au venit cu miileˆın piat¸˘a.

(2.3) Negocierea se face cu miile de euro.

Din acest motiv, TTL folose¸ste o list˘a de secvent¸e de cuvinte²²care indiferent de context constituie expresii ¸si care astfel pot fi recunoscute ca atare ˆıntr-o fraz˘a²³ (vezi figura 2.6).

O alt˘a problem˘a cu care se confrunt˘a segmentarea la nivel de cuvˆant este aceea c˘a exist˘a situat¸ii ˆın care dintr-o secvent¸˘a de caractere care nu cont¸ine spat¸iu pot fi extrase dou˘a sau mai multe cuvinte²⁴. Asta ˆınseamn˘a c˘a ¸sirul vid este separator de cuvinte. Dar pentru c˘a ¸sirul vid apare ˆıntre fiecare dou˘a

21Pentru prelucrarea automat˘a a limbajului natural.

22Sau cuvinte compuse sau compu¸si.

23TTL nu rezolv˘a deci problema dezambiguiz˘arii ˆınt¸elesului expresiei ˆın context ca unic mijloc de a identifica expresia.

24De exemplu, ˆın englez˘a, “cannot” se separ˘a ˆın “can” ¸si “not”.

(28)

caractere consecutive ale unei secvent¸e de caractere, nu putem s˘a separ˘am pur ¸si simplu secvent¸a dup˘a ¸sirul vid. Din acest motiv, TTL p˘astreaz˘a o list˘a de prefixe ¸si sufixe care trebuie separate dac˘a sunt identificate ˆıntr-un ¸sir de caractere care nu cont¸ine spat¸iul. Aceast˘a list˘a precizeaz˘a astfel pozit¸iile ˆın care ¸sirul vid este separator de cuvˆant (figura 2.7).

La acest nivel de segmentare facem uz de expresii regulate (ca ¸si Kart- tunen ˆın [47]) pentru a separa punctuat¸ia de la stânga ¸si de la dreapta unui cuvânt. Sumar, algoritmul de segmentare la nivel de cuvânt parcurge urm˘atorii pa¸si pentru a obt¸ine o list˘a de cuvinte dintr-o fraz˘a S (ca ¸sir de caractare cu spat¸ii):

1. fiecare adnotare de tipul<entity ...>...</entity>devine un cuvˆant ˆın lista final˘a de cuvinte; se prelucreaz˘aSastfel ˆıncˆat segmentarea dup˘a

spat¸iu s˘a nu distrug˘a aceste adnot˘ari;

2. se segmenteaz˘a fraza S dup˘a spat¸iu ¸si se obt¸ine astfel o prim˘a list˘a tentativ˘a de cuvinteL₁;

3. pentru fiecare cuvˆantwi din L1, se elimin˘a punctuat¸ia de la ˆınceputul

¸si de la sfˆar¸situl lui w_i ¸si se construie¸ste astfel o nou˘a list˘a L₂ ˆın care punctuat¸ia are intr˘ari separate aflate pe pozit¸iile corespunz˘atoare (fie ˆınaintea sau dup˘awi);

4. pentru fiecare cuvˆant w_i din L₂ se elimin˘a prefixe ¸si sufixe dac˘a w_i le cont¸ine, extrase dintr-o list˘a ca cea din figura 2.7 construindu-se astfel o nou˘a list˘a L₃ ˆın care prefixele ¸si sufixele eliminate apar pe pozit¸iile lor corespunz˘atoare (fie ˆınaintea sau dup˘a w_i);

5. se construie¸ste lista final˘a de cuvinte L₄ ˆın care fiecare secvent¸˘a de N cuvinte consecutive²⁵ devine o singur˘a unitate lexical˘a dac˘a secvent¸a se afl˘a ˆıntr-o list˘a similar˘a cu cea din figura2.6.

2.1.4 Adnotarea cu etichete morfosintactice

Adnotarea cu etichete morfosintactice este o problem˘a a Prelucr˘arii Auto- mate a Limbajului Natural care s-a bucurat de o mare atent¸ie din partea comunit˘at¸ii ¸stiint¸ifice²⁶. La ora actual˘a exist˘a diverse metode de a rezolva aceast˘a problem˘a printre care amintim cˆateva: Modelele Markov Ascunse

25UndeNreprezint˘a num˘arul maxim de cuvinte care pot s˘a apar˘a ˆıntr-o expresie. Acest num˘ar este calculat din lista de expresii.

26Vezi articolul despre “Part of Speech Tagging” de la adresa Internet http://en.wikipedia.org/wiki/Part-of-speech_tagging.

(29)

([7]), Principiul Entropiei Maxime ([88]) sau Ret¸elele Neurale ([92]). Nivelul de performant¸˘a actual al algoritmilor de adnotare cu etichete morfosintactice se ˆıncadreaz˘a ˆın intervalul 96%−98% ceea ce ˆınseamn˘a c˘a dintr-un text oarecare primit la intrare, cel put¸in 96% din unit˘at¸ile lexicale care-l compun vor primi automat eticheta morfosintactic˘a corect˘a ˆın context. Cu un asemenea nivel de ˆıncredere ˆın performant¸elele algoritmului, adnotarea cu etichete morfosintactice a devenit o procesare standard ˆın aproape orice prelucrare automat˘a de text.

O etichet˘a morfosintactic˘a²⁷ este o codificare a unei p˘art¸i de vorbire ˆımpreun˘a cu valori ale variabilelor morfosintactice aplicabile ei. De exemplu, ˆın romˆan˘a, substantivul are asociate urm˘atoarele variabile morfosintactice:

• tipul, valori: propriu, comun;

• genul, valori: masculin,feminin;

• num˘arul, valori: singular, plural;

• cazul, valori: nominativ, acuzativ, genitiv, dativ, vocativ;

• articolul, valori: articulat, nearticulat.

Dac˘a ar fi s˘a construim mult¸imea de etichete morfosintactice pentru substantiv ˆın romˆan˘a am avea 2×2×2×5×2 = 80 de etichete morfosintactice numai pentru substantiv.

Adnotarea cu etichete morfosintactice implic˘a existent¸a unei mult¸imi de etichete morfosintactice²⁸ pentru o limb˘a dat˘a. Acest inventar de etichete este ˆın general proiectat astfel ˆıncˆat s˘a se obt¸in˘a un maxim de performant¸˘a ˆın adnotare relativ la cantitatea de informat¸ie cont¸inut˘a ˆın fiecare etichet˘a din inventar ([109], vezi de asemenea [110] pentru un experiment ˆın proiectarea automat˘a de inventare de etichete morfosintactice).

Pentru limba român˘a cât ¸si pentru englez˘a au fost proiectate²⁹ câte dou˘a inventare de etichete morfosintactice aflate ˆın corespondent¸˘a (vezi ¸si tehnica adnot˘arii stratificate, [100, 110] ¸si anexa A): primul inventar de etichete respect˘a specificat¸iile MULTEXT-East ([23], similare cu exemplul pe care l-am dat mai sus) iar cel de-al doilea este derivat din primul eliminându-se din fiecare etichet˘a morfosintactic˘a variabilele morfosintactice care nu sunt

27Vezi ¸si nota de subsol 9 din capitolul 4.

28ˆIn englez˘a, “tagset”.

29ˆIn cadrul proiectului MULTEXT-East, [21].

(30)

dependente de context³⁰. Astfel, pentru o etichet˘a morfosintactic˘a din primul inventar avem o singur˘a etichet˘a din al doilea iar unei etichete morfosintactice din al doilea inventar ˆıi corespund una sau mai multe etichete din primul.

O etichet˘a morfosintactic˘a compatibil˘a MULTEXT-East se nume¸ste MSD (din englez˘a, “Morpho-Syntactic Descriptor”) iar o etichet˘a derivat˘a CTAG (“Corpus TAG”).

TTL implementeaz˘a adnotatorul cu etichete morfosintactice TnT ([7]) care este un adnotator probabilistic bazat pe Modele Markov Ascunse (MMA,

“Hidden Markov Models” ˆın englez˘a, vezi [87, 57]). Folose¸ste un corpus adnotat pentru a-¸si estima probabilit˘at¸ile de tranzit¸ie iar st˘arile automatului sunt trigrame de etichete morfosintactice CTAG. Pentru a evita probabilit˘at¸ile de tranzit¸ie nule dintr-o stare ˆın alta care nu a fost g˘asit˘a la antrenament, probabilitatea tranzit¸iei ˆın orice stare este dat˘a de interpolarea liniar˘a Jelinek-Mercer:

p(t_k+1|tk−1, t_k) =λ₁p(t_k+1) +λ₂p(t_k+1|t_k) +λ₃p(t_k+1|tk−1, t_k) λ₁+λ₂+λ₃ = 1

Probabilit˘at¸ile de emisie sunt de asemenea estimate din corpusul de antrenare la care se adaug˘a un lexicon care cont¸ine forme ocurente ale cuvintelor ˆımpreun˘a cu etichetele morfosintactice corespunz˘atoare³¹. În cazul ˆın care adnotatorul g˘ase¸ste un cuvânt pe care nu l-a ˆıntâlnit la antrenare, euristi- cile de ghicire a etichetei intr˘a ˆın funct¸iune iar ˆın acest punct implementarea noastr˘a difer˘a de descrierea original˘a prin:

• analiza de sufix (adic˘a atribuirea unei etichete morfosintactice t unui cuvˆant pe baza analizei ultimelormcaractere din celenale cuvˆantului:

i= 0, . . . , m−1, P(t|ln−i+1, . . . , l_n) =

Pˆ(t|ln−i+1, . . . , l_n) +θ_iP(t|ln−i, . . . , l_n)

1 +θ_i ,

Pˆ(t|ln−i+1, . . . , ln) = f(t, l_n−i+1, . . . , l_n)

f(ln−i+1, . . . , l_n) , P(t) = ˆP(t), P¯= 1

s

X

j=1

Pˆ(t_j), θ_i = 1 s−1

s

X

j=1

( ˆP(t_j)−P¯)²

30De exemplu, pentru substantiv, ˆıntre gen ¸si num˘ar, genul poate fi eliminat pentru c˘a ˆın afar˘a de cazul ˆın care determin˘a acordul cu un adjectiv, genul substantivului nu mai determin˘a nicio alt˘a etichet˘a spre deosebire de num˘ar care apare atˆat la acordul cu adjectivul cˆat ¸si la acordul cu un verb ˆın situat¸ia de subiect-predicat.

31Pentru romˆan˘a acest lexicon cont¸ine aproximativ 570000 de intr˘ari iar pentru englez˘a, 126000. Pentru un exemplu, vezi figura 2.9.