• Nu S-Au Găsit Rezultate

Recunoa¸sterea umorului ˆın texte

N/A
N/A
Protected

Academic year: 2022

Share "Recunoa¸sterea umorului ˆın texte"

Copied!
53
0
0

Text complet

(1)

Recunoa¸sterea umorului ˆın texte

T ¸ ifrea Oana

Facultatea de Informatic˘ a, Universitatea Alexandru Ioan Cuza,

Ia¸si,

coordonator: Dan Cristea,

29 iunie 2008

(2)

Cuprins

1 Introducere 5

1.1 O privire de ansamblu asupra umorului . . . 6

1.2 Tipuri de umor . . . 8

1.2.1 Gramatica umorului . . . 10

1.3 Teoriile umorului . . . 11

1.4 Criterii pentru determinarea succesului umorului . . . 13

1.5 Umorul din punct de vedere social . . . 14

2 Cercet˘arile ˆın domeniul umorului computat¸ional 16 2.1 Generare de umor . . . 16

2.1.1 LBJOJG . . . 16

2.1.2 Jape . . . 17

2.1.3 HAHAcronym . . . 17

2.1.4 WISCRAIC . . . 17

2.1.5 MSG . . . 18

2.1.6 Jester . . . 18

2.2 Recunoa¸sterea umorului . . . 18

2.2.1 Recunoa¸sterea umorului f˘ar˘a ˆınt¸elegera sensului . . . . 18

2.2.2 Aplicarea clasificatorilor de texte ¸si a unor atribute pentru recunoa¸sterea umorului . . . 21

3 Experimente de identificare a umorului prin implementarea algoritmii clasici de clasificare de texte 26 3.1 Clasificarea de texte . . . 26

3.2 Metode de reprezentare a documentelor . . . 28

3.2.1 N-gramele . . . 29

3.3 Ma¸sinile cu vector suport (Suport Vector Machine SVM) . . . 30

3.4 Clasificatorul Bayes Naiv . . . 34

(3)

4 Experimente ˆın detectarea automat˘a a umorului ¸si rezul-

tatele obt¸inute 36

4.1 Corpusurile . . . 36 4.2 Experimentele . . . 41

5 Interpretarea rezultatelor 46

5.1 Observat¸ii privind rezultatele obt¸inute . . . 46 5.2 Posibilit˘at¸i de ˆımbun˘at˘at¸ii programul de recunoa¸stere al umoru-

lui ˆın texte . . . 46 5.3 Concluzii . . . 47

(4)

List˘ a de figuri

3.1 Maparea pe un alt spat¸iu . . . 31 3.2 SVM-hiperplanul ¸si vectorii suport . . . 33 4.1 Num˘arul de cuvinte din component¸a glumelor . . . 37 4.2 Num˘arul cuvintelor pe categorii din component¸a textelor non-

umoristice Corpus 1 . . . 38 4.3 Distribut¸ia num˘arului de cuvinte penrtu datele nonumoristice

dup˘a a doua filtrare . . . 40 4.4 Experimetul I . . . 42 4.5 Experimentul II . . . 44

(5)

List˘ a de tabele

1.1 Scara nivelurilor de de ata¸sament . . . 14 2.1 Recunoa¸sterea umorului prin caracteristici . . . 21 2.2 Rezultatele obt¸inute folosind euristicile stilistice . . . 25 2.3 Rezultatele obt¸inute folosind algoritmi de inv˘at¸are automat˘a . 25 4.1 Structura Datelor dup˘a prima filltrare . . . 37 4.2 Media num˘arului de cuvinte pentru datele nonumoristice . . . 39 4.3 Num˘arul de componente al vectorilor . . . 42 4.4 Num˘arul de componente al vectorilor . . . 44

(6)

Capitolul 1 Introducere

”Rat¸ionamentul corect se na¸ste din experient¸˘a. Experient¸a se na¸ste din rat¸ionament eronat. Concluzie: Rat¸ionamentul corect se na¸ste din rat¸ionament eronat.”(anonim) La ˆınt¸elegerea acestor cuvinte suntem contrariat¸i de absurditatea logicii si izbucnim ˆın rˆas.

Umorul are un caracter specific (literar, subtil sau fin) prin solut¸ii nea¸steptate, caraghioase care pot produce ilaritate. Persoanele cu umor sunt acele per- soane care prin comportare sau prin vorbe, ˆın anumite contexte, declan¸seaz˘a rˆasul.

Simt¸ul umorului este influent¸at de tradit¸iile, cultura, istoria unui popor, sau difer˘a dup˘a pozit¸ia pe scara ierarhiei sociale sau dup˘a etate. Nu numai c˘a variaz˘a de la o persoan˘a la alta, dar se poate ca acea¸si persoan˘a s˘a g˘aseasc˘a o glum˘a ca fiind amuzant˘a ˆıntr-o zi ¸si ˆın alt˘a zi nu, depinzˆand de starea de spirit a persoanei, de evenimentele recent petrecute ˆın viat¸a persoanei respective.

Umorul difer˘a de asemenea dup˘a anumite perioade istorice, multe glume din trecut nemaifiind actualedeoarece a disp˘arut contextul care permitea per- ceperea lor ca avˆand un anumit haz. Umorul poate fi ustur˘ator prin- satir˘a, ironie, batjocur˘a; cinic, sau blˆand, binevoitor, plin de ˆınt¸elegere, autocritic.

Lucrarea de fat¸˘a ˆı¸si propune s˘a depisteze umorul f˘ar˘a a ˆınt¸elege sensul mesajului. Se vor ˆıncerca algoritmii clasici de clasificare de texte si diferite atribute ale textelor umoristice si neumoristice determinate euristic.

Umorul computat¸ional este un domeniu ˆın care exist˘a unele abord˘ari de g˘asire a unui ¸sablon universal pentru generarea ¸si recunoa¸sterea umorului ˆın texte.

(7)

Experimentele testate ˆın aceast˘a lucrera cu privire la recunoa¸sterea umorului ˆın texte sunt comparabile cu cele existente ˆın domeniu.

1.1 O privire de ansamblu asupra umorului

Comunicarea om calculator nu mai constituie demult un deziderat iluzoriu al inteligent¸ei artificiale. Pentru ca aceast˘a comunicare s˘a fie una cˆat mai apropiat˘a de comunicarea interuman˘a, calculatorul (va trebui nu numai s˘a re- cunoasc˘a, ci ¸si s˘a foloseasc˘a ¸si umorul. Mai mult, umorul ofer˘a profunzimi ale limbajului uman- referindu-ne la cel real, complex, un limbaj creativ nu doar o mult¸ime de propozit¸ii standard. Reu¸sind s˘a model˘am ˆınt¸elegerea ¸si gener- area umorului de c˘atre calculatoare, cˆa¸stig˘am o mai bun˘a imagine asupra modului ˆın care creierul uman funct¸ioneaz˘a nu doar ˆın privint¸a umorului ci a limbajului ¸si cuno¸sterii ˆın general. Sunt multe situat¸ii ˆın interact¸iunea interuman˘a unde umorul joac˘a un rol important permit¸ˆand continuitatea conversat¸iei, ˆınt˘arind relat¸iile interumane. Urmat¸i de paradigma CASA (Computers are Social Actors)(Calculatoarele sunt actori sociali) ne putem a¸stepta ca umorul s˘a joace un rol similar ¸si ˆın interact¸iunea om-calculator.

ˆIn accept¸iunea popular˘a, calculatoarele nu vor putea s˘a foloseasc˘a ¸si s˘a aprecieze umorul. Calculatoarele fict¸ionale ¸si robot¸ii au fost mereu imaginat¸i ca fiind f˘ar˘a de umor chiar dac˘a pot utiliza limbajul natural. Dar ¸si ¸sahul a fost odat˘a considerat ca fiind un domeniu al oamenilor iar acum calculatoarele joac˘a la nivel grandmaster.

Agent¸ii sociali ¸si inteligent¸i au devenit o paradigm˘a pentru rezolvarea

¸si descrierea problemelor ˆın stilul oamenilor. Cercet˘arile ˆın privint¸a acestor agent¸i includ capacitatea de percept¸ie a dorint¸elor, credint¸elor ¸si a intent¸iilor.

Dar precum spune ¸si Roddz Cowie, Dac˘a vom ar˘ata emot¸ii la ace¸si agent¸i cu sigurant¸˘a ne vom a¸stepta ca ei s˘a aib˘a ¸si un pic de simt¸ al umorului [Binsted et al., 2006].

Pentru a ˆınt¸elege umorul trebuie s˘a-l plas˘am ˆın mediul s˘au natural, care este societatea, trebuie mai ˆıntˆai s˘a-i determin˘am funct¸ia util˘a, care este o funct¸ie social˘a. Dintreinfluent¸ele pozitive ale umoruluiputem ment¸iona:

• afecteaz˘a atent¸ia ¸si memoria [Baym, 1995];

• faciliteaz˘a interact¸iunile sociale [Binsted et al., 2006];

• amelioreaz˘a problemele de comunicare [Bergson, 1992];

(8)

• ajut˘a la armonizarea unei conversa t¸ii[Bergson, 1992];

• poate stabili un punct comun ˆıntre partenerii de discut¸ie [Hewitt, 2002];

• face conversat¸ia pl˘acut˘a [Nijholt, 2005];

• contribuie la motivare, la atent¸ie, la ˆınt¸elegerea ¸si captarea informat¸iilor

¸si dezvoltarea unui sentiment afectiv a mesajului [Nijholt, 2006] [Bin- sted et al., 2006];

• poate ˆınlesni problemele de comunicare ce pot ap˘area ˆın interact¸iunea dintre agent¸i ¸si om, pentru c˘a umorul este un mecanism primar de stabilire a individualit˘at¸ii, ˆınt˘arindu-se raporturile acestei comunic˘ari (omul se simte apreciat atunci cˆand alt¸ii ˆıi recunoscc glumele ceea ce ˆımbun˘at˘at¸e¸ste [Baym, 1995] [Black and Forro, 1999];

• umorul ˆınlesne¸ste comunicarea ¸si ˆınv˘at¸area individual˘a ¸si ajut˘a la sin- cronizarea ˆınv˘at¸˘arii ˆın grup atˆat la adult¸i cˆat ¸si la tineri [Binsted et al., 2006];

• faciliteaz˘a crearea unei ˆınt¸elegeri comune, ajut˘a la generarea solidarit˘at¸ii

¸si a identit˘at¸ii de grup [Binsted et al., 2006];

• reduce stressul [Binsted et al., 2006];

• stimuleaz˘a creativitatea ¸si ˆımbun˘at˘at¸e¸ste comunicarea, morala ¸si pro- ductivitatea [Stock and Strapparava, 2006];

• atragerea atent¸iei auditoriului [Stock and Strapparava, 2006];

• ajut˘a la memorare [Stock and Strapparava, 2006];

Umorul trebuie s˘a r˘aspund˘a unor exigent¸e ale viet¸ii ˆın comun, avˆand o semnificat¸ie social˘a. Nerespectarea acestor exigent¸e de utilizare a umorului poate genera efecte contrare pentru care umorul a fost init¸ial creat. Pot ap˘area astfel tensiuni de ordin personal ¸si social:

• cˆateodat˘a este greu de ˆınt¸eles glumele celorlalt¸i deoarece indivizii, de¸si au acela¸si set de cuno¸stint¸e, au rat¸ionamente total diferite. Mediul so- cial al umorului este vast ¸si umorul poate fi v˘azut ca o parte din alte multe act¸iuni sociale. Potrivit sociologilor impactul unei glume ¸si a umorului este foarte mare ˆın viat¸a de zi cu zi;

(9)

• ˆın cadrul grupului -umorul se bazeaz˘a pe normele grupului, cuno¸stint¸e, practici ¸si probleme, generˆand identitatea uman˘a dar ¸si pe cea de grup. Vorbim despre o identitate individual˘a, pentru c˘a fiecare din cei implicat¸i transmit p˘art¸i de mesaje care apoi sunt filtrate de fiecare individ ˆın parte. Deci se poate spune c˘a umorul utilizat ˆın grup de- fine¸ste grupul respectiv. Unii oameni se pot simt¸i frustrat¸i datorit˘a neˆınt¸elegerii umorului celorlalt¸i, ¸si, de¸si umorul ar trebui s˘a deten- sioneze, utilizat gre¸sit poate ˆınr˘aut˘at¸i situat¸ia;

Din influent¸ele negative ale umorului putem aminti:

• poate jigni;

• poate inhiba comunicarea din cauza stilurilor diferite de a face glume;

• poate crea tensiuni din punct de vedere profesional [Black and Forro, 1999]

1.2 Tipuri de umor

Exist˘a numeroase forme ¸si tipuri de umor. Dintre acestea, cˆateva sunt adec- vate pentru folosire ˆın dezbateri, fiind deopotriv˘a ¸si cele mai des ˆıntˆalnite:

• Anecdota: orice ˆıntˆamplare interesant˘a care ajut˘a vorbitorul s˘a clar- ifice o chestiune. De multe ori cei care dezbat sunt ˆıncurajat¸i s˘a foloseasc˘a studii de caz sau s˘a construiasc˘a scenarii. Unele dintre ele pot c˘ap˘ata o nuant¸˘a comic˘a, nu doar pentru a capta atent¸ia,ci ¸si pentru a accentua o anumit˘a idee.

Acordorul: Bun˘a dimineat¸a, am venit s˘a v˘a acordez pianul.

Domnul Bergovici: Dar eu nu am cheamat nici un acordor.

Acordorul: S¸tiu, vecinul dumneavoastr˘a m-a chemat [Solomivici, 2002].

• Exagerarea (Hiperbola): exagerarea unor tr˘as˘aturi, defecte sau a neadecv˘arii unei act¸iuni.

Simon ¸si Dov stau de vorb˘a la cafenea

-ˆIn timpul c˘al˘atoriei mele ˆın Africa, poveste¸ste Simon, am ˆıntˆalnit un negru atˆat de negru, ˆıncˆat a trebuit s˘a aprind lumina ˆın plin˘a zi, ca s˘a-l pot vedea.

(10)

-Asta nu-i nimic, spune Dove, cˆand am fost ˆın Spania am v˘azut un om atˆat de slab c˘a trebuia s˘a intre de dou˘a ori ˆıntr-o ˆınc˘apere ca s˘a-t¸i pot¸i da seama c˘a e acolo [Solomivici, 2002].

• Ironia: folosirea cuvintelor pentru a exprima altceva decˆat ˆın mod normal. De obicei vorbitorul spune opusul la ce se gˆande¸ste sau a ce a¸steapt˘a publicul de la el.

Rabinul nu este deloc mult¸umit de atitudinea plin˘a de umilint¸˘a a lui Gelb.

-M˘ai Gelb, nu e¸sti tu atˆat de mare pe cˆat de mic vrei s˘a pari [Solomivici, 2002].

• Revenirea: vorbitorul comite o eroare ˆın mod intent¸ionat, numai pen- tru a reveni ¸si a corecta repede acea eroare (ˆın cazul unei dezbateri aceasta metod˘a poate fi folosit˘a pentru a da dreptate init¸ial oponent¸ilor,

¸si a reveni apoi pentru a ar˘ata cˆat de gre¸sit ar fi fost acest lucru).

-Am auzit c˘a b˘aiatul t˘au s-a c˘as˘atorit. Din dragoste sau pentru bani?

-Din dragoste... pentru bani [Solomivici, 2002].

• Satira: o form˘a de sarcasm care scoate ˆın evident¸˘a lipsurile unei idei/act¸iuni/persoane.

S¸tii bancul cu statuia? Statu-ia tot...

• Subestimarea: transformarea a ceva mare sau important ˆın ceva nor- mal sau chiar mult mai mic/mai put¸in important decˆat este ˆın realitate Doi ardeleni t˘aiau o bomb˘a cu fier˘astr˘aul. Vine al treilea ¸si ˆıi ˆıntreab˘a:

- M˘a, dar dac˘a explodeaz˘a?

La care ceilalt¸i:

-Ap˘ai nu-i bai, c˘a mai avem una!

• Umorul de situat¸ie: umor care vine din experient¸a proprie. Putet¸i fi siguri c˘a publicul nu are de unde s˘a cunoasc˘a situat¸ia descris˘a.

Aflat ˆın delegat¸ie constat˘a c˘a ¸si-a uitat papucii acas˘a. Se a¸seaz˘a la o mas˘a ¸si ˆıi scrie o scrisoare sot¸iei:

Drag˘a Lea,

Trimite-mi numaidecˆat papucii t˘ai. Am scris ”papucii t˘ai” fiindc˘a dac˘a a¸s fi scris ”papucii mei” ai fi citit papucii mei ¸si mi-ai fi trimis papucii t˘ai. Ce s˘a fac eu cu papucii t˘ai? A¸sa c˘a ˆıt¸i scriu foarte clar ca s˘a ˆınt¸elegi-”papucii t˘ai” ¸si nu ”papucii mei”, ca s˘a cite¸sti papucii t˘ai ¸si s˘a ˆımi trimit¸i papucii mei...[Solomivici, 2002]

(11)

1.2.1 Gramatica umorului

Varietatea elementelor ¸si tipurilor care contribuie la crearea diferitelor forme de umor este nem˘asurat˘a, totu¸si aceste elemente trebuie s˘a cont¸in˘a un in- gredient de baz˘a ¸si indispensabil: un impuls sau o urm˘a de agresivitate sau chiar r˘autate. Asta este tocmai ce filozoful francez Henri Bergson numea o anestezie m˘areat¸˘a a inimii [Bergson, 1992]. Mult¸i teoreticieni ai umorului au ˆıncercat s˘a determine logica sau gramatica umorului. S˘a lu˘am de exemplu

urm˘atoarele glume:

1. Un masochist e o persoan˘a c˘areia, de¸si ˆıi place s˘a fac˘a un du¸s fierbinte dimineat¸a, face unul cald.

2. Domnule a¸s vrea s˘a v˘a cer mˆana fiicei dumneavoastre. De ce nu? Deja ai avut restul.

Analizˆand cele dou˘a glume, dorint¸a noastr˘a este de a identifica un ¸sablon care subliniaz˘a cele dou˘a situat¸ii. Gluma masochistului care se pedepse¸ste ¸si nu ˆı¸si satisface pl˘acerea zilnic˘a este guvernat˘a de regula care prezint˘a oinver- sare a situat¸iei logice. Mˆana fetei este perceput˘a ˆın primul caz ˆın sensul metaforic dar apoi ˆın sensul de baz˘a. Altfel ascult˘atorul percepe situat¸ia ˆın dou˘a cadre incompatibile. Mintea lui trebuie s˘a opereze simultan ˆın dou˘a lungimi de und˘a. Evenimentul nu este numai asociat unui singur cadru (cum este ˆıin cazul normal), ci ˆımp˘art¸it ˆın dou˘a.

ˆIn umor, atˆat creat¸ia cˆat ¸si percept¸ia unei glume implic˘a pl˘acerea de a face salt de la un sens la altul. S¸ablonul comun care subliniaz˘a cele dou˘a glume este percept¸ia unei situat¸ii ˆın dou˘a cadre incompatibile, care ˆı¸si g˘asesc un punct comun, ceea ce implic˘a inteligent¸˘a. Totu¸si umorul vine de cele mai multe ori din percept¸ia unei relat¸ii ˆıntre dou˘a contexte consistente, dar incompatibile ¸si acest tip de activitate mental˘a pare s˘a fie ˆıncˆant˘atoare pentru fiint¸ele umane. Tot ce estecontrarnu numaiobi¸snuint¸eidar ¸sisimt¸urilor sau rat¸iunii sau ceva care las˘a loc de interpretare este amuzant. Sensul logic comun este neviabil pentru uzul practic. Nu poate fi reperat, de aceea trebuie s˘a ˆıncerc˘am s˘a evit˘am funct¸ion˘arile cele mai comune. Umorul joac˘a un rol important ˆın ˆınv˘at¸area ¸si comunicarea acestui aspect [Minski, 1981].

Umorul ˆın mod sigur se bazeaz˘a pe complicat¸ie. ˆIn primul rˆand sunt dou˘a scenarii, cel natural ¸si cel nea¸steptat ¸si de obicei acestea dou˘a sunt ˆın opozit¸ie. Un cuvˆant cheie sau un declan¸sator ˆındreapt˘a mintea ascult˘atorului spre o alt˘a viziune.

(12)

1.3 Teoriile umorului

Teoriile umorului sunt o ˆıncercare de a g˘asi un ¸sablon comun pe baza c˘aruia amuzamentul este construit. Marile ¸scoli de filozofie au ˆıncercat s˘a g˘asesc˘a r˘aspunsuri la scopul ¸si originea umorului, precum ¸si modul de manifestare.

E.M. Blistein identific˘a trei mari categorii: [Blistein, 1964]

• Teoria de superioritate

Potrivit teoriei de superioritate a umorului chiar ¸si cel mai subtil umor ˆı¸si are originea ˆıntr-o anumit˘a cruzime ¸si pl˘acere, altfel umorul vine dintr-un sentiment de superioritate fat¸˘a de cei de care rˆadem. Pasi- unea pentru amuzament nu este altceva decˆat un sentiment de m˘aret¸ie crescut˘a ˆın noi dintr-o concept¸ie de superioritate ˆın comparat¸ie cu in- ferioritatea celorlalt¸i. Adesea absurditatea, m˘aret¸ia, ciud˘at¸enia, infir- mitatea provoac˘a rˆasul.

Aceast˘a teorie cont¸ine trei part¸i:

– orice situat¸ie amuzant˘a are un cˆa¸stig˘ator; Pe parcursul istoriei oamenii au folosit umorul pentru a concura cu alte persoane, f˘acˆandu-i t¸inta glumelor lor. Cˆa¸stig˘atorul este cel care reu¸se¸ste s˘a ˆıl ia ˆın rˆas pe cel˘alalt. Potrivit teoriei de superioritate oamenii care nu respect˘a un standard al societ˘at¸ii tind s˘a fie ridicoli.

– nepotrivirea este mereu prezent˘a ˆın umor;

– umorul necesit˘a un elemet surpriz˘a;

• Teoria de nepotrivire

Cˆand glumele sunt examinate din lumina teoriei de nepotrivire pot fi observate dou˘a obiecte prezentate sub un singur concept sau cadru.

Conceptul poate fi aplicat ambelor obiecte ¸si obiectele devin similare.

Pe m˘asur˘a ce gluma progreseaz˘a, discrepant¸a dintre aceste obiecte devine tot mai evident˘a. Teoria de nepotrivire se axeaz˘a pe elementul surpriz˘a. Umorul este creat dintr-un conflict ˆıntre ceea ce se a¸steapt˘a

¸si ceea ce se ˆıntˆampl˘a de fapt ˆıntr-un text scris. Aceasta are ˆın vedere cel mai evidente forme de umor: ambiguitate, dublul ˆınt¸eles care ˆın mod deliberat induce ˆın eroare auditoriul, urmat˘a de ultima fraz˘a a unei glume. ˆIn acest fel umorul ˆıncalc˘a o regul˘a important˘a a utiliz˘arii limbii: Comunicarea trebuie sa fie cˆat mai clar˘a.

(13)

• Teoria de eliberare

Teoria de eliberare este de natur˘a fiziologic˘a ¸si psihofiziologic˘a [Rutter, 1997]. ˆın afar˘a c˘a exprim˘a o b˘at˘alie ˆıntre dou˘a persoane sau un grup din societate, umorul poate exprima ¸si un conflict cu noi ˆın¸sine, ne elibereaz˘a de grija de a fi noi ˆın¸sine . Seriozitatea este un stress obi¸snuit asupra mint¸ii ˆın fat¸a ordinii evenimentelor urmate cu o regularitate, pe cˆınd umorul este o pierdere nea¸steptat˘a sau o domolire a acestui stress [Hazlitt, 1963].

Oamenii care sunt tensionat¸i izbucnesc ˆın rˆas de ˆındat˘a ce tensiunea dis- pare. Potrivit teoriei de eliberare, elementul central ˆın umor nu este nici sentimentul de superioritate nici noutatea ci sentimentul de eliberare care vine din eliberarea inhibit¸iilor.

S˘a lu˘am ca exemplu urm˘atoarea glum˘a:

Un om intr˘a ˆıntr-o cofet˘arie ¸si comand˘a o pr˘ajitur˘a, dar cum i se aduce pr˘ajitura cere un pahar cu lichior ˆın locul ei. A b˘aut paharul ¸si voia s˘a plece f˘ar˘a s˘a fi pl˘atit pentru el. Propritetarul l-a oprit:

-Nu at¸i pl˘atit lichiorul.

-Dar v-am dat pr˘ajitura ˆın locul lui.

-Dar nu at¸i pl˘atit nici pentru aceasta.

-Dar nici nu am mˆancat-o [Freud, 1957].

Rezultatul unei asemenea glume este c˘a ne simt¸im contrariat¸i apoi ˆın ˆıncurc˘atur˘a; dup˘a aceea rˆadem ¸si g˘asim absurditatea logicii amuzant˘a. Per- sonificarea perfect˘a pentru aceast˘a teorie poate fi g˘asit˘a ˆın teoria lui Sigis- mund Freud. Freud prive¸ste umorul ca o metod˘a de a se elibera de cenzur˘a - termen folosit pentru inhibit¸iile interne care ne previn s˘a ne eliber˘am de toate impulsurile noastre naturale. Prin cenzur˘a nu se refer˘a doar la impul- surile de natur˘a sexual˘a, ci ¸si la cele r˘aut˘acioase. Teoria de superioritate a lui Freud se bazeaz˘a pe r˘autate. El distinge ˆıntre glumele nevinovate si cele tendent¸ioase ¸si de¸si afirm˘a c˘a exist˘a ¸si glume inocente, acestea foarte rar reu¸sesc s˘a provoace o izbucnire ˆın rˆas ca cele r˘aut˘acioase. El explic˘a de ce glumele tind s˘a fie compacte ¸si condensate, cu dublu ˆınt¸eles. Este pen- tru a-i p˘ac˘ali pe cenzorii care v˘ad doar partea nevinovat˘a a ˆınt¸elesului ¸si nu reu¸sesc s˘a perceap˘a dorint¸ele interzise [Freud, 1957]. ˆIn cele din urm˘a nu explic˘a umorul doar dup˘a sensurile acestor dispozitive comice; ele ar fi f˘ar˘a

(14)

sens dac˘a omul nu ar putea, sub acoperire, s˘a dea frˆau liber dorint¸elor repri- mate. Glumele sunt comparate cu visele, pentru c˘a datorit˘a lor putem afla mai multe despre activitatea normal˘a a psihicului fiec˘aruia. Scopul umoru- lui este de a readuce ˆın lumea adult¸ilor pl˘acerea care caracteriza copil˘aria noastr˘a, cˆand nu aveam nevoie de glume pentru a ne simt¸i fericit¸i.

1.4 Criterii pentru determinarea succesului umorului

Criteriul prin care se determin˘a dac˘a umorul este bun sau r˘au depinde ˆın mare m˘asur˘a de gustul ¸si preferint¸ele personale,¸si, ˆın particular, depinde de stil ¸si tehnica umoristic˘a. Totu¸si, se pare c˘a sunt trei criterii de care de- pinde succesul umorului: originalitatea, accentul ¸si economia. Meritul originalit˘at¸ii este de la sine ˆınt¸eles; ofer˘a elementul esent¸ial: surpriza, care dep˘a¸se¸ste a¸stept˘arile noastre. Accentul se obt¸ine prin exagerare sau simpli- ficare, dou˘a criterii care conduc la efectele umorului. Economia ˆın umor nu ˆınseamn˘a curaj, ci mici aluzii ˆın locul atacului frontal, indicii implicite ˆın locul declarat¸iilor explicite. Fiecare din aceste trei teorii pot explica cˆateva dintre tipurile de umor, dar nu pot constitui explicat¸iile pentru toate tipurile de umor. Dar umorul este ˆın mod sigur cu mai multe fet¸e. Poate fi agre- siv sau poate batjocoritor, poate fi inteligibil, poate exprima eliberarea din tensiune sau libertatea de griji, poate fi juc˘au¸s, sau inteligent, chiar poate deveni serios, dar nu poate fi fals. Umorul, chiar ¸si la cel mai exagerat nivel de r˘autate,nu poate abandona adev˘arul.

Sunt trei condit¸ii pentru existent¸a umorului [Veatch, 1998]:

• V Violarea unui anumit angajament al ascult˘atorului despre cum lu- crurile trebuie s˘a fie.

• N Receptorul are sentimentul dominant c˘a o anumit˘a situat¸ie este nor- mal˘a.

• S Simultaneitate: cele dou˘a condit¸ii anterioare N ¸si V trebuie s˘a fie prezente ˆın mintea receptorului ˆın acela¸si timp.

ˆIn alt˘a ordinne de idei, o situat¸ie este amuzant˘a cˆınd situat¸ia pare normal˘a dar ˆın acela¸si timp ceva apare ˆın neregul˘a.

(15)

Veatch descrie condit¸ia V ca violare a moralit˘at¸ii subiective, o violare a lucrului de care este ata¸sat perceptorul. Poate fi descris˘a cel mai bine ˆın acest fel, pentru c˘a depinde de ceea ce perceptorul experimenteaz˘a ca violare. De- pinde de angajamentul sau ata¸samentul s˘au fat¸˘a de o situat¸ie dat˘a. Veatch continu˘a explicˆand c˘a gradul de ata¸sament al perceptorului este important deoarce o stuat¸ie i se poate p˘area amuzant˘a, jignitoare sau neremarcant˘a.

Descrie acest fenomen cu trei niveluri de angajament ¸si consecint¸e, relat¸ia ata¸sament-umor fiind descris˘a mai bine ˆın Tabelul 1.

Perceptorul

Nivel Logica Ata¸sament O ˆınt¸elege ˆıl jigne¸ste Observ˘a umorul

Nivelul 1 non-V nimic nu nu nu

Nivelul 2 V ¸si N slab da nu da

Nivelul 3 V ¸si non-V puternic da da nu

Tabela 1.1: Scara nivelurilor de de ata¸sament

Factorul de normalitate (totalitatea informat¸iilor normale dintr-o glum˘a) ˆımpreun˘a cu nivelul de ata¸sament, au o profund˘a important¸˘a ˆın felul cum

receptorul percepe experient¸a viol˘arii.

1.5 Umorul din punct de vedere social

Simt¸ul umorului poate fi:

• individual (doar unor indivizi li se pot p˘area amuzante unele situat¸ii);

• universal (de ex: clovnii pentru majoritatea oamenilor sunt stimulatori de umor);

• cultural (de ex: vestimentat¸ia africanilor pot provoca ”‘¸socuri ”’cultur- ale europenilor);

Ceea ce poate pentru un individ este foare amuzant pentru altcineva poate s˘a nu ˆınsemne nimic. Recunoa¸sterea umorului nu este doar subiectv˘a, ci este ¸si personal˘a. Umorul caracterizeaz˘a interact¸iunea persoanelor ˆın soci- etate ¸si r˘aspunsul nostru la acest˘a interact¸iune trebuie ˆınt¸eles ˆın plin context [Mulder and Anton, 2001]. ˆın construct¸ia unui mesaj, vorbitorii ¸si scriitorii

(16)

pornesc cu ni¸ste cuno¸stint¸e pe care ei le presupun a fi cunoscute de mai mult¸i destinatari ¸si la care noua informat¸ie (cea pe care o vor sa o transmit˘a) poate fi ata¸sat˘a. Presupunerea este bazat˘a pe cuno¸stint¸e acumulate ale lumii sau pe experient¸ele cu membrii comunit˘at¸ii. Cˆand comunicarea are succes, a¸stept˘arile vorbitorului sau ale scriitorului sunt ˆın concordant¸˘a cu percept¸ia destinatarului ¸si noua informat¸ie se poate lega cu celelalte.

Umorul ¸si comunicarea ˆın sine depind de acumularea de ˆınt¸elesuri ˆımp˘art¸ite, de stilul oratoric al oamenilor apart¸inˆand unei anumite culturi. Comuni- carea se rupe cˆand nivelul de cuno¸stint¸e anterior acumulate de c˘atre vor- bitor/scriitor si ascult˘ator/cititor nu sunt la fel. Aceasta este adev˘arat pen- tru orice tip de comunicare dar ruperea este ˆın mod special evident˘a ˆın cazul umorului, a c˘arui percept¸ie depinde direct de concurent¸a ˆıntre fapte ¸si impre- sii disponibile atˆat vorbitorului/scriitorului cˆat ¸si ascult˘atorului/cititorului.

Sunt multe glume care semantic pot ˆınsemna acela¸si lucru , dar ˆın ter- meni de pragmatism ¸si cultur˘a pot ap˘area neˆınt¸elegeri care pot ˆımpiedica ˆınt¸elegerea glumei. Acestea sunt, ceea ce numim ”glume culturale”sau ”glume etnice” ¸si ar fi dificil s˘a spunem c˘a exist˘a glume universale. Poate o glum˘a universal˘a este o glum˘a bicultural˘a. Multe glume etnice sunt interschimba- bile, depinzˆand totu¸si, de audient¸˘a ¸si de cel ce spune gluma. Bancuri despre olteni pot deveni despre moldoveni pentru oamenii din diferite regiuni ale t¸˘arii.

(17)

Capitolul 2

Cercet˘ arile ˆın domeniul umorului computat ¸ional

Studierea prin mijloace computat¸ionale a umorului este un domeniu ale c˘arui baze au ˆınceput s˘a se pun˘a abia ˆın ultimii ani, neexistˆand o teorie general acceptat˘a (ca de exemplu Centering Theory ˆın Teoria Discursului). ˆIn con- tinuare sunt trecute ˆın revist˘a principalele cercet˘ari dedicate acestui domeniu pe plan mondial.

2.1 Generare de umor

2.1.1 LBJOJG

LBJOJG(Light Bulb Joke Generator) a fost dezvoltat de Attardo si Raskin ˆın 1993 si dup˘a cum ˆıi spune ¸si numele, este un generator de glume de tipul

”De cˆat¸i (substantiv) este nevoie pentru a (verb)”, ˆıns˘a era foarte limitat deoarece nu ansamblez˘a sau analizeaz˘a atribute ale glumelor [Attardo and Raskin, 1994].

De exemplu ¸sablonul:

How many [substantiv] does it take to change a light bulb?

[num˘ar1].[num˘ar1-num˘ar2] to [activitate1] and [num˘ar2] to [activitate2].

cu intrarea:

(poles (activitate1 hold the light bulb) (num˘ar1 five) (activity2 turn the table he’s standing on)(num˘ar2 four))

(18)

va genera urm˘atoarea glum˘a:

How many Poles does it take to change a light bulb? Five. One to hold the light bulb and four to turn the table he’s standing on.

2.1.2 Jape

Cercet˘arile lui Binsted si Ritchie au condus la model semantic si sintactic de reguli ce a produs generaratorul de glume numit JAPE. JAPE folose¸ste substitut¸ia cuvintelor, a silabelor pentru a crea ambiguitate fonologic˘a. Este alc˘atuit dintr-un vocabular format din 59 de cuvinte omofone, 14 ¸sabloane

¸si un validator de glume [Binsted and Ritchie, 1997].

Exemplu: What do you call a quirky quantifier? An odd number.

2.1.3 HAHAcronym

Un alt proiect a fost HAHAcronym dezvoltat de Stock si Straparava pentru un sistem care genereaz˘a versiuni amuzante ale acronimelor deja existente.

Efectul comic s-a obt¸inut mai ales prin exploatarea teoriei de nepotrivire.

Algoritmul urm˘areste prima dat˘a parsarea acronimelor. Se va p˘astra o parte din cuvintele care definesc acronimul iar ˆınlocuirea celorlalte cuvinte se face prin:

• utilizarea unui cˆamp semnatic opus

• p˘astrarea literei init¸iale, a ritmului ¸si rimei

Exemplu: ACM(Association for Computing Machinery) devine Association for Confusing Machinery [Stock and Strapparava, 2003]

2.1.4 WISCRAIC

WISCRAIC este un generator de glume utlizat pentru cei ce ˆınvat¸˘a limba englez˘a. Un exempu de glum˘a generat˘a de acesta este:

What bird is lowest in spirits? A bluebird

(ambiguitate deoarece blue poate fi culoarea sau poate ˆınsemna depresie) [Binsted-McKay, 2000]

(19)

2.1.5 MSG

MSG este un program care converte¸ste cuvintele alfanumerice din parole ˆın propozit¸ii amuzante. Programul ia ca argument 8 caractere si va trebui s˘a genereze propozit¸ii u¸sor de memorat. De exemplu, folosind ¸sablonul:

(cuv1=Nume Persoan˘a)+(cuv2=Verb

Pozitiv)+(cuv3=NumePersoan˘a+”’s”’)+(cuv4=Substantiv Comun)+,while+(cuv5=Nume Persoan’ua)+(cuv6=Verb Negativ)+(cuv7=Nume Persoan’ua+”’s”’)+(cuv8=Substantiv comun) cu ¸sirul alfabumeric AjQA3Jtv se obt¸ine Arafat joined Qauayle’s Ant, while Tarar Jeopardized thurmond’s vase. [McDonough, 2001]

2.1.6 Jester

Jester este un sistem online de recomandare de glume. ˆIn funct¸ie de alegerile efectuate se determin˘a statistic printr-un algoritm de tipul cel mai apropiat vecin, care sunt gusturile utilizatorului ˆın privint¸a glumelor. [Goldberg et al., 2000]

2.2 Recunoa¸ sterea umorului

2.2.1 Recunoa¸ sterea umorului f˘ ar˘ a ˆınt ¸elegera sensului

Aceast˘a sect¸iune se bazeaz˘a pe articolul publicat de [Sjobergh and Araki, 2007]. Pentru a recunoa¸ste umorul f˘ar˘a a face toate conexiunile dintre cu- vintele unei propozit¸ii se calculeaz˘a valori ale unor atribute ce pot caracteriza un text. ˆIn funct¸ie de valorile acestor caracteristici se ˆıncearc˘a o clasificare a textelor. Se folosesc combinat¸ii de atribute pentru a vedea dac˘a acestea sunt suficiente pentru recunoa¸sterea umorului sau nu.

Caracteristicile

• Cea mai apropiat˘a glum˘a: Din datele de antrenament se caut˘a gluma cea mai apropiat˘a de textul pe care ˆıl test˘am. Gradul de apropiere

(20)

dintre 2 texte se calculeaz˘a dup˘a num˘arul de cuvinte comune celor 2 texte.

• Cea mai apropiat˘a non-glum˘a: Pe acela¸si principiu se determin˘a cea mai apropiat˘a non-glum˘a.

• Cele mai apropiate 5 vecine: Se determin˘a cele mai apropiate 5 propozit¸ii ˆın datele de antrenament, fiecare cu o pondere egal˘a cu num˘arul de cuvinte care se suprapun. Glumele au semn pozitiv ¸si non-glumele au semn negativ.

• Cuvinte amuzante: S-a observat c˘a unele cuvinte sunt comune dar unele sunt specifice doar glumelor. Pentru a suprprinde acest aspect, cuvintele care apar m˘acar de 5 ori ˆın datele de antrenament ¸si dac˘a apar de 5 ori mai des ˆın glume decˆat ˆın non-glume sunt p˘astrate ˆıntr-o list˘a. Fiec˘arui cuvˆant ˆıi este asignat o pondere care este frecvent¸a relativ˘a cuvˆıntului printre glume (num˘arul de glume ˆın care apare cuvˆantul/num˘arul total de glume) ˆımp˘art¸it˘a la frecvent¸a relativ˘a a cuvˆantului printre non-glume.

• Ambiguitatea cuvintelor: se calculeaz˘a uitˆandu-ne ˆıntr-un dict¸ionar online ¸si num˘arˆand sensurile cuvintelor.

– Ambiguitatea medie: num˘arul mediu de ambiguitat¸i ˆıntr-o propozit¸ie (media num˘arului de sensuri pentru fiecare cuvˆant);

– Ambiguitatea maxim˘a: cea mai mare valoare a num˘arului de sensuri pentru un cuvˆant dintr-o propozit¸ie.

• Cuvinte murdare: num˘arul de cuvinte murdare prezente ˆın propozit¸ii.

O list˘a cu 2500 de cuvinte murdare downlodat˘a de pe Internet a fost folosit˘a pentru a se decide dac˘a un cuvˆant este murdar sau nu.[Sjobergh and Araki, 2007]

• Num˘arul de cuvinte prezente din lista: you, your, I, me, my, man, woman, he, she, his, her, guy, ¸si girl; ¸si negat¸iile, num˘arul de aparit¸ii ale lui not sau nt.

• Pronunt¸ia: folosind Dict¸ionarul CMU1 de Pronunt¸ie pentru a g˘asi pronunt¸ia cuvintelor au fost calculate:

(21)

– Rime: num˘arul de cuvinte perechi care au cel put¸in 4 litere, cel put¸in una din ele este vocal˘a, pronunt¸at˘a la fel la sfˆar¸situl cuvˆantului;

– Similarit˘at¸i la fel ca ¸si rimele dar folosind ˆınceputul cuvintelor ˆın locul sf˘ar¸sitului;

– Cuvintele noi: cuvintele care nu apar ˆın Dict¸ionarul de traduceri CMU2

• Cuvintele care se repet˘a: num˘arul de cuvinte care apar de mai mult decˆat odat˘a ˆın propozit¸ie ¸si care au mai mult de 5 litere;

• Sub¸siruri care se repet˘acel mai lung sub¸sir din propozit¸ie care este prezent mai mult decˆat odat˘a. Media cuvintelor care se repet˘a ¸si a sub¸sirurilor este acee¸si, dar divizat˘a dup˘a lungimea propozit¸iilor;

• Antonimia: caut˘a antonimia unui cuvˆant ˆın dictionary.com. Dac˘a oricare din aceste antonime listate este prezent ˆın propozit¸ie, un scor de 1 ˆımp˘art¸it la num˘arul de antonime posibile ˆıi este atribuit.

– Scorul maxim de antonimie: cea mai mare valoare (perechea de antonime cu cele mai put¸ine alte valori de antonime);

– Antonimia: suma tuturor valorilor antonimelor calculate;

Pentru fiecare caracteristic˘a este calculat˘a o funct¸ie de prag astfel ˆıncˆat media entropiei3 acestora s˘a fie cˆat mai mic˘a posibil. Pentru a clasifica o dat˘a de test, ¸si a vedea c˘arui grup apart¸ine, este verificat˘a pentru fiecare caracteristic˘a proport¸ia dintre exemplele pozitive ¸si cele negative. Proport¸ia exemplelor pozitive pentru fiecare grup la care apart¸ine este ˆınmult¸it˘a ¸si com- parat˘a apoi cu produsul proport¸iilor caracteristicilor negative. Dac˘a produsul exemplelor pozitive este mai mare atunci exemplul este pozitiv. Metoda are

2ftp://ftp.cs.cmu.edu/afs/cs.cmu.edu/data/anonftp/project/fgdata/dict/

3asur˘a statistic˘a care calculeaz˘a gradul de ˆımpr˘a¸stiere a datelor. Dac˘a S este un exemplu de date de antrenament peste proport¸ia datelor pozitive, iar p este cea a datelor negative atunci

Entropia(S) =−p log2p plog2p

(22)

Cu f˘ar˘a Toate atributele 85.4% 50.0%

Similaritate 75.7% 83.8%

Cuvinte prezente ˆın glume 84.1% 76.8%

Ambiguitate 62.5% 84.8%

Stil 59.1% 85.4%

Idiomuri 63.5% 85.0%

Tabela 2.1: Recunoa¸sterea umorului prin caracteristici avantajul de a fi foarte rapid˘a.

Deoarece sunt foarte multe caracteristici care reprezint˘a aproape aceea¸si informat¸ie, autorii ˆıncerc˘a s˘a elimine caracteristicile redundante sau nefolosi- toare pentru a m˘ari performant¸a.(Tabelul 2.1) Eliminarea unor caracterisitici este important˘a deoarece asa putem afla ce informat¸ie este util˘a ˆın detectarea umorului. Procesul se desf˘a¸soar˘a astfel: se elimin˘a caracterisiticile pe rˆand.

Atributul, care atunci cˆand nu este prezent d˘a cel mai bun rezultat, este eliminat. Cˆand toate caracteristicile sunt eliminate, cel ma bun rezultat (ˆımpreun˘a cu structura caracteristicilor prezente) este p˘astrat ¸si dup˘a acest rezult se poate vedea care caracteristici sunt mai importante.

Corpusul

Este format din 6800 de glume colectate de pe Internet si 6800 de propozit¸ii colectate din BNC (British National Corpus). Toate propozit¸iile au lungimea cuprins˘a ˆıntre ¸si 80 de cuvinte, cu o medie de 15 cuvinte.

2.2.2 Aplicarea clasificatorilor de texte ¸ si a unor atribute pentru recunoa¸ sterea umorului

Se poate ˆıncerca recunoa¸sterea umorului folosind ˆınv˘at¸area automat˘a, uti- lizˆand clasificatorul Bayes naiv si Ma¸sini cu vector suport.

Rada Mihalcea ¸si Carlo Strapparava au ales s˘a ˆı¸si restrict¸tioneze studiul la one-linere [Mihalcea, May 2006], aceast˘a sect¸iune bazˆandu-se pe studiile celor doi.

Unone-liner este o propozit¸ie cu efect comic ¸si cu o structur˘a lingvistic˘a interesant˘a: sintax˘a simpl˘a, folosirea deliberat˘a a unor intrumente retorice

(23)

(e.g.aliterat¸ii, rime) ¸si utlizarea frecvent˘a a unor structuri lingvistice menite s˘a atrag˘a atent¸ia cititorilor. ˆIn timp ce glumele mai lungi tind s˘a produc˘a umor printr-o structur˘a narativ˘a mai complex˘a, onelinerele produc efectul comic dintr-o lovitur˘a, cu foarte put¸ine cuvinte. Acest lucru face ca acest tip de text s˘a fie folosit pentru recunoa¸sterea automat˘a a umorului, deoarece efectul comic se produce ˆın prima ¸si singura propozit¸ie.

Exemplu: Everyone has a photographic memory. Not everyone has film.

Datele umoristice au fost alc˘atuite din onlinere colectate de pe Internet folosind procesul de bootstraping. Datele nonumoristice au fost selectate

¸si structurate astfel incˆat s˘a fie structural ¸si stilistic similare onelinerelor.

[Mihalcea and Pulman, 2007]

Corpusul

• Datele negative:

Au testat pe 3 tipuri diferite de exemple negative, o propozit¸ie avˆand ˆın medie 10-15 cuvinte. Colect¸ia cuprinde:

1. Titluri Reutersextrase din (8.20.1996-8.19.1997). Titlurile sunt formate din propozit¸ii scurte menite s˘a atrag˘a atent¸ia la fel ca cele din onelinere.

2. Proverbe extrase dintr-o colect¸ie de proverbe. Proverbele sunt texte care transmit de obicei ˆıntr-o propozit¸ie, fapte importante sau experient¸e care sunt considerate adev˘arate de oameni. Pro- prietatea lor de a fi condensate ¸si de transmite un mesaj ˆıntr-o singur˘a propopozit¸ie le face foarte asem˘an˘atoare cu onelinerele.

Defapt unele glume ˆıncearc˘a s˘a reproduc˘a proverbele, cu un efect comic, ca ˆın exemplul urm˘ator:

Beauty is in the eye of the beer holder, preluat˘a din Beauty is in the eye of the beholder.

3. British National Corpus (BNC) propozit¸ii extrase din BNC un corpus balansat care acoper˘a stiluri, genuri ¸si domenii diferite.

Propozit¸iile au fost colectate astfel ˆıncˆat s˘a fie similare ca ¸si cont¸inut cu onelinerele: s-a folosit un sistem de colectare a informat¸iilor im- plementˆand un model vectorial pentru a identifica propozit¸iile cele mai asem˘an˘atoare cu fiecare din cele 16000 de onelinere.

(24)

• Datele pozitive:

Pentru a colecta foarte multe date este destul de dificil deoarece ma- joritatea site-urilor Web sau liste de mail fac public nu mai mult de 50-100 de glume. Pentru a dep˘a¸si aceast˘a problem˘a, s-a implementat o tehnic˘a de colectare automat˘a a glumelor pornind cu cˆateva glume manual identificate. Algoritmul identific˘a apoi ˆın mod automat o list˘a de pagini web ˆın care se g˘ase¸ste gluma respectiv˘a. Paginilor astfel g˘asite li se aplic˘a 2 constrˆangeri.

1. constrˆangerea implementat˘a: este un set de cuvinte cheie care au leg˘atur˘a cu tema;

Setul de cuvinte cheie folosit ˆın implementare este alc˘atuit din 6 cuvinte cheie care au leg˘atur˘a cu tematica c˘autat˘a: oneliner, one- liner, one-liner, humor, humour, joke,funny.

De exemplu: http://www.berro.com/Jokes http://www.mutedfaith.com/funny/life.htm

2. constrˆangerea modelat˘a: exploateaz˘a structura HTML-urilor paginilor web;

Aceasta se bazeaz˘a pe ipoteza c˘a paginile web tind s˘a foloseasc˘a enumerat¸ii atunci cˆand au o colect¸ie de date de acela¸si tip. De exemplu dac˘a una din online.rele colectate manual este prezent˘a ˆıntr-o pagin˘a web precedat˘a de un tag HTML de tip ¡li¿, atunci printre alte linii care au acela¸si tag se consider˘a c˘a ar fi onelinere.

[Mihalcea and Strapparava, 2006]

Dup˘a dou˘a iterat¸ii ale algoritmului de c˘autare, pornind de fiecare dat˘a de la un set mic de cˆate 10 onlinere s-a ajuns la colectarea a 24000 posibile onelinere. Dup˘a ce s-au eliminat duplicatele prin algoritmul de cea mai lung˘a secvent¸˘a comun˘a, s-a ajuns la un set de 16000 de onelinere, care pot fi folosite ˆın experimente.

Prin procesul automatic s-au identificat prin select¸ia aleatorie 200 de glume, cu o probabilitate de 9% de eroare, ceea ce nu are un impact prea mare in procesul de inv˘at¸are [Mihalcea, May 2006].

(25)

Experimentele

Au avut ˆın vedere tehnici automate de clasificare folosind euristici bazate pe atribute stilistice specifice umorului (aliterat¸ii, antonimii, cuvinte cu sens conotativ), cu un framework de ˆınv˘at¸are formulat ca un clasificator tipic de text. S-a ˆıncercat identificarea unui set de atribute care s˘a fie atˆat semnifica- tive cˆat ¸si fezabil de implementat utilizˆand algoritmii existent¸i.

• Aliterat¸ia : propriet˘at¸ile structurale ¸si fonetice ale glumelor sunt cel put¸in la fel de importante ca ¸si cont¸inutul. Onelinerele se bazeaz˘a pe producerea de efecte umoristice prin atragerea atent¸iei cititorului prin aliterat¸ii, repetarea unor cuvinte, rime care au un efect comic.

Urm˘atoarele onelinere sunt un exemple de glume care includ una sau mai multe lant¸uri de aliterat¸ii.

Veni, Vidi, Visa: I came, I saw, I did a little shopping.

Infants dont enjoy infancy like adults do adultery.

Pentru a extrage aceste caracteristici se identific˘a ¸si se num˘ar˘a aliterat¸iile sau lant¸urile de rime din fiecare set de date. Lant¸urile sunt extrase au- tomat utilizˆand un index creat cu ajutorul dict¸ionarulului de pronunt¸ii CMU.

• Antonimia: umorul se bazez˘a de obicei pe nepotriviri, opuneri ¸si alte forme de contradit¸ii.

Spre exemplu, efectul comic produs de urm˘atoarele onlinere este da- torat prezent¸ei antonimelor. A clean desk is a sign of a cluttered desk drawer. Always try to be modest and be proud of it! Sursa lexical˘a folosit˘a pentru identificarea antonimelor este WordNet4.

• Construct¸ii cu contotat¸ii sexuale: de exemplu urm˘atoarele one- linere cuprind astfel de expresii. The sex was so good that even the neighbors had a cigarette. Artificial Insemination: procreation with- out recreation. Pentru a forma un lexicon pentru identificarea acestor atribute, s-au extras din Wordnet toate synset-urile marcate ca f˘acˆand parte din domeniul sexualit˘at¸ii. Lista este apoi procesat˘a pentru a elimina cele cu o polisemie mai mare de 4. Unele onelinere cont¸in toate cele 3 atribute:

4http://wordnet.princeton.edu/

(26)

Euristica One-linere Reuters One-linere BNC One-liners proverbe

Aliterat¸ii 74.31% 59.34% 53.30%

Antonimii 55.65% 51.40% 50.51%

Toate 76.73% 60.63% 53.71%

Tabela 2.2: Rezultatele obt¸inute folosind euristicile stilistice Clasificatorul Reuters BNC Proverbe

Bayes Naiv 96.67% 73.22% 84.81%

SVM 96.09% 77.51% 84.48%

Tabela 2.3: Rezultatele obt¸inute folosind algoritmi de inv˘at¸are automat˘a Behind every great man is a great woman, and behind every great woman is some guy staring at her Behinds.

Pe lˆang˘a aceste caracteristici stilistice experimentele au avut ˆın vedere ¸s caracteristici de cont¸inut, ˆın care recunoa¸sterea umorului este formulat˘a ca o problem˘a de clasificare.

Rezultatele

Primul set de experimente (Tabela 2.2) a evaluat acuratet¸ea de clasificare folosind atributele de mai sus: aliterat¸ii, antonimii, cuvinte cu conotat¸ie sexual˘a. Acestea sunt atribute numerice care se comport˘a ca euristici, ¸si singurul parametru este determinarea unui prag indicˆand valoarea minim˘a pentru a spune dac˘a un text poate fi clasificat ca fiind umoristic sau nu.

Acest prag poate fi obt¸inut utilizˆand arbori de decizie aplicat¸i pe un set de date mic de exemplu 1000, iar pe restul de 15000 s˘a fie testat. Luˆand ˆın considerare c˘a titlurile de articole reprezint˘a indicatori stilistici, indicatorii din titlurile Reuters sunt cele mai diferite de onelinere. Pentru toate seturile de date atributul de aliterat¸ie pare s˘a fie cel mai important.

Al doilea set de experimente (tabela 2.3) se ocup˘a cu evaluarea atributelor determinate de cont¸inutul lor. ˆıncurajat¸i de rezultatele obt¸inute ˆın cele dou˘a experimente s-a construit un al treilea experiment care ˆıncearc˘a s˘a exploateze atributele de stil ¸si de cont¸inut. Toate evalu˘arile folosesc ”10-fold cross- validation” (validare ˆıncruci¸sat˘a prin ˆımp˘art¸irea ˆın 10 p˘art¸i.

(27)

Capitolul 3

Experimente de identificare a umorului prin implementarea algoritmii clasici de clasificare de texte

3.1 Clasificarea de texte

Scopul clasific˘arii de texte este de a asigna itemi uneia sau mai multor cate- gorii predefinite pe baza cont¸inutului contextual.

Funct¸iile optimale de categorizare pot fi ˆınv˘at¸ate din datele de antrenament.

[Dumais, 1998]

Definit¸ie 1 Un programˆınvat¸˘a dintr-o experient¸˘a Edat˘a de o clas˘a de activit˘at¸i T ¸si o m˘asur˘a a performant¸ei P, dac˘a performant¸a activit˘at¸ii T, m˘asurat˘a cu P, se ˆımbun˘at˘at¸e¸ste odat˘a cu experient¸a E.

[Mitchell, 1997]

ˆIn cazul nostru un program spunem c˘a ˆınvat¸˘a s˘a recunoasc˘a umorul din texte dac˘a ˆı¸si ˆımbun˘at˘at¸e¸ste performant¸ele m˘asurate prin abilitatea lui de a recunoa¸ste umorul ceea ce implic˘a analiza textelor, obt¸inut˘a prin filtrarea diferitelor tipuri de texte.

O problem˘a de detectare a umorului se poate formula astfel:

• Obiectivul T: recunoa¸sterea ¸si clasificarea umorului ˆın texte;

(28)

• M˘asurarea performant¸ei P: procentajul de situat¸ii umoristice corect clasificate;

• Experient¸a E: o baz˘a de date cu texte corect clasificate;

Atributele care influent¸eaz˘a alegerea antren˘arii corecte:

1. Tipul de experient¸˘a din care va ˆınv˘at¸a sistemul

Tipul de experient¸˘a din care ˆınv˘at¸a programul are un impact foarte mare ˆın succesul sau e¸secul ma¸sinii de ˆınv˘at¸are. Un atribut cheie ar fi dac˘a antrenarea va oferi feedback:

• direct: Sistemul va ˆınvat¸˘a din exemple de antrenare directe con- stituite din cuvinte sau expresii ¸si probabilitatea lor de a produce situat¸ii amuzante.

• indirect: Alternativ, poate avea doar informat¸ie indirect˘a alc˘atuit˘a din propozit¸ii si clasificarea ˆın amuzante sau nu. Aici cel care ˆınvat¸˘a se confrunt˘a cu o problem˘a ˆın plus de credibilitate: de- terminarea gradului ˆın care fiecare cuvˆant are important¸˘a foarte mare ˆın stabilirea deciziei finale. Credibilitatea poate fi o prob- lem˘a extrem de dificil˘a deoarece un cuvˆant poate schimba sensul unei propozit¸ii.

2. Gradul ˆın care cel care ˆınvat¸˘a controleaz˘a secvent¸a de exemple de antrenare

De exemplu cel care ˆınvat¸˘a se poate baza pe un profesor care s˘a se- lecteze un grup de propozit¸ii pentru filtrare. Dac˘a avem de a face cu un text pe tema naturii ¸si vrem sa ¸stim dac˘a este amuzant sau nu o euristic˘a destul de intuitiv˘a ar fi s˘a caut˘am ˆın datele de antrenare acele propozit¸ii care sunt ¸si ele pe tema naturii. ˆIn mod alternativ, cel care ˆınvat¸˘a poate selecta ¸si propune un num˘ar de grupuri de cuvinte pe care

le consider˘a dificile ¸si poate solicita r˘aspunsul corect de la profesor.

3. Cˆat de bine reprezentat˘a este distribut¸ia exemplelor din care va ˆınv˘at¸˘a algoritmul nostru

ˆın general ˆınv˘at¸area este mult mai credibil˘a cˆand datele de antrena- ment urmeaz˘a o distribut¸ie similar˘a datelor de test. ˆIn exemplu nostru de clasificare de texte este foarte probabil s˘a nu ¸stim r˘aspunsul corect.

(29)

Teoriile curente din ˆınv˘at¸area automat˘a se bazeaz˘a pe presupunerea c˘a distribut¸ia datelor de antrenament este identic˘a cu distribut¸ia ex- emplelor de test. Chiar dac˘a trebuie s˘a facem aceast˘a presupunere, ˆın practic˘a aceast˘a regul˘a este ˆınc˘alcat˘a de cele mai multe ori.

Definit¸ie 2 Un clasificator de texte este o funct¸ie care prime¸ste la input un document ¸si ˆıl ˆıncadreaz˘a ˆıntr-o categorie y dintr-o mult¸ime predefinit˘a de clase y1...yk.

Sect¸iunile 3.3 ¸si 3.4 prezint˘a detaliat doi dintre cei mai folosit¸i algoritmi.

3.2 Metode de reprezentare a documentelor

Din documentele ˆın forma lor original˘a nu se poate ˆınv˘at¸a. Ele trebuie s˘a fie tranformate pentru a se potrivi cu formatul algoritmilor de ˆınv˘at¸are.

Deoarece cei mai mult¸i din algoritmii de ˆınv˘at¸are folosesc reprezentarea atribut-valoare, acest lucru ˆınseamn˘a transformarea textului ˆıntr-un vector.

ˆIn primul rˆand toate documentele trebuie s˘a fie pre-procesate. Acest lu- cru ˆınseamn˘a de obicei eliminarea cuvintelor care nu prezint˘a important¸˘a, aducerea cuvintelor la forma de baz˘a, transformarea ˆın litere mici.

Dup˘a acest proces are loctransformarea. Fiecare cuvˆant va corespunde unei dimensiuni (cuvintele identice apart¸in acelea¸si dimenisuni). Notat¸ie:

cuvˆantulwi corespunzˆand dimensiunii i a spat¸iului vectorului.

Cea mai comun˘a metod˘a este cea numit˘a TF-IDF(Term Frequency In- verse Document Frequency). TFIDF(i,j) este a i-a coordonat˘a a documentu- lui j:

T F IDF(i, j) = T F(i, j)IDF(i) (3.1) IDF(i) = log N

DF(i) (3.2)

TF(i,j) reprezint˘a de cˆate ori al i-lea cuvˆant se g˘ase¸ste ˆın documentul j.

N num˘arul de documente

DF(i) num˘arul de documente care cont¸in cuvˆantul i m˘acar odat˘a.

Documentele transformate formeaz˘a ˆımpreun˘a matricea termilor docu- mentului. Este de dorit ca documentele de lungime diferite s˘a aib˘a aceeasi lungime, care se realizez˘a prin a¸sa numita normalizare a documentelor.

Dimensiunea unui spat¸iu de vectori este foarte mare, ceea ce reprezint˘a un dezavantaj ˆın ˆınv˘at¸area automat˘a, de accea frecvent se apeleaz˘a la metode

(30)

de reducere a dimensionalit˘at¸ii. Sunt dou˘a posibilit˘at¸i: fie selectarea unui subset din atributele init¸iale, fie integrarea mai multor atribute ˆın unul.

Aceast˘a metod˘a de reprezentare are proprietatea c˘a pe m˘asur˘a ce un cuvˆant este mai frecvent ˆın toate documentele cu atˆat este mai put¸in valoros (nu ofer˘a informat¸ii utile pentru o clasificare). [Pilasyz, 2005]

3.2.1 N-gramele

Pentru a putea recunoa¸ste sau genera o glum˘a, programul trebuie s˘a fie capabil s˘a proceseze secvent¸e de cuvinte. O metod˘a pentru acest˘a activitate ar putea fi N-gramele.

Definit¸ie 3 Un N-gram este un model care folose¸ste probabilitatea condit¸ionat˘a de a prezice al N-lea cuvˆant pe baza celor N-1 cuvinte anterioare.

Se construiesc din statistici obt¸inute dintr-un corpus mare de text folosind co- ocurent¸a cuvintelor din corpus pentru a determina secvent¸a de probabilit˘at¸i.

Probabilitatea ˆıntr-un model statistic precum cel al N-gramelor este depen- dent˘a de corpusul din care se face antrenarea. Dac˘a acest corpus este prea specific domeniului sau activit˘at¸ii, programul nu va fi capabil s˘a generalizeze.

Un bigram este un N-gram ˆın care N =2, iar pentru un trigram n este 3.

Un bigram va folosi cuvˆantul anterior pentru a determina urm˘atorul cuvˆant, iar un trigram va folosi 2 cuvinte anterioare. Probabilitatea bigramelor este una condit¸ionat˘a, formula pentru probabilit˘at¸ile bigramelor fiind:

p(A|B) = p(A∧B)

p(B) (3.3)

Pentru a calcula p (B), urm˘atoarea formul˘a poate fi utilizat˘a:

p(B) = num˘arul de aparit¸ii ale lui B ˆın text

num˘arul de cuvinte ˆın text (3.4) ˆın mod similar,

p(A∧B) = num˘arul de aparit¸ii ale lui B ˆın text

num˘arul de cuvinte ˆın text) (3.5) Aceasta ˆınseamn˘a c˘a p (A — B) este:

p(A|B) = num˘arul de aparit¸ii ale lui A ¸si B ˆın text

(3.6)

(31)

De exemplu: ˆı¸si dore¸ste s˘a asiste la ¸sedint¸ele cenaclului. ˆI¸si dore¸ste s˘a asiste nu numai ca simplu spectator, ci s˘a se implice, s˘a se desf˘a¸soare, s˘a se simt˘a util. Pentru a afla care cuvˆant este cel mai probabil s˘a urmeze dup˘a s˘a putem folosi bigrame. Avem perechile s˘a asiste de 2 ori ¸si s˘a se de 3 ori. Deci P(se/s˘a) = 3/5 iar P(asiste/ s˘a)=2/5. Astfel folosind acest corpus spunem c˘a dup˘a s˘a va urma se. Dac˘a de exemplu ˆın corpus ar fi fost doar prima propozit¸ie ar fi fost alte rezultate.

Deci se poate observa necesitatea select˘arii unui corpus cˆat mai general, care s˘a acopere datele de test.

3.3 Ma¸ sinile cu vector suport (Suport Vector Machine SVM)

Intuitiv, ˆıntr-o problem˘a de clasificare ar fi ideal s˘a folosim cˆat mai multe caracteristici cu putint¸˘a ale datelor pentru a ˆımbun˘at˘at¸i rezultatul clasific˘arii.

ˆın acest caz, cele mai multe clasific˘ari sufer˘a de a¸sa numitul ”small sample size effect”. Adic˘a, exist˘a un anumit num˘ar optim de caracteristici de la care, dac˘a ne abatem, utilizˆand mai multe caracteristici ˆın clasificare, perfomant¸a ar avea foarte mult de suferit.

Metoda bazat˘a pe vectori de suport este o tehnic˘a conceput˘a pentru efi- cientizarea aproxim˘arii funct¸iilor multidimensionale. Ideea de baz˘a a SVM- urilor este de a determina un clasificator care minimizeaz˘a riscul empiric (eroarea setului de antrenare sau acuratet¸ea acestuia) ¸si intervalul de ˆıncredere (erorile setului de test).

ˆIn 1965, Vapnik a propus o metod˘a de a g˘asi ni¸ste hiperplane care s˘a

”despart˘a” optim dou˘a clase, ¸si care s˘a nu depind˘a de estimarea unei proba- bilit˘at¸i. Acesta a fost baza teoriei ma¸sinilor care ˆınv˘at¸a bazˆandu-se pe vectori de suport.

SVM-urile se bazeaz˘a pe conceptul de plane de decizie (plane-hiperplane de separare) care definesc anumite ”granit¸e”. Un plan de decizie este un plan care separ˘a un set de obiecte ce apart¸in unor clase diferite.

Figura 3.1 prezint˘a ideea care st˘a la baza SVM-urilor. ˆIn figur˘a ob- serv˘am obiectele originale (din partea stˆang˘a a desenului) mapate (rearan- jate), folosind un set de funct¸ii matematice numite nuclee (kernels). Se poate vedea c˘a obiectele mapate (din partea dreapt˘a a imaginii) sunt liniar sepa- rabile ¸si, astfel, ˆın loc s˘a construim o curb˘a ca ˆın figura 3.1, pentru a separa

(32)

obiectele, putem s˘a construim o linie ”optim˘a” care s˘a separe obiectele al- bastre de cele ro¸sii. 1

Figura 3.1: Maparea pe un alt spat¸iu

Problema clasific˘arii poate fi restrict¸ionat˘a, f˘ar˘a a restrˆange generalitatea, la problema clasific˘arii a doar dou˘a clase. ˆIn aceast˘a problem˘a, obiectivul este s˘a separ˘am cele dou˘a clase folosind o funct¸ie indus˘a de exemplele pe care le avem la dispozit¸ie. Scopul este de a obt¸ine o clasificare care funct¸ioneaz˘a bine ¸si pe exemplele necunoscute ˆınc˘a (adic˘a generalizeaz˘a bine).

Exist˘a mai mult¸i clasificatori liniari care pot separa datele, dar numai unul dintre ei maximizeaz˘a marginile (distant¸˘a ˆıntre linie ¸si cel mai apropiat punct din fiecare clas˘a). Acest clasificator liniar se nume¸ste hiperplanul optim de separare. Intuitiv, ne a¸stept˘am ca aceast˘a separare optim˘a s˘a ne ajute cel mai mult la problema generaliz˘arii. Punctele care se afl˘a ˆın contact cu zona de separare (marginea) se numesc vectori de suport.

Hiperplanul de separare

S˘a consider˘am problema separ˘arii unui set de vectori de antrenare, care fac parte din dou˘a clase (undexi sunt datele de intrare iar yi sunt clasele)

D ={(x1, y1), . . . ,(xl, yl)}, x∈R, y ∈ {−1,1} (3.7) separate cu un hiperplan.

hw, xi+b= 0 (3.8)

(33)

Se spune c˘a setul de vectori esteseparat optim de hiperplandac˘a este separat f˘ar˘a eroare ¸si distant¸a ˆıntre vectorul cel mai apropiat ¸si hiperplan este maxim˘a. Exist˘a o oarecare redundant˘a ˆın ecuat¸ia 3.8, ¸si f˘ar˘a a restrˆange din generalitate este mai indicat s˘a consider˘am un hiperplan canonic [Mukherjee and Vapnik, 1999],unde parametrii w,b satisfac relat¸ia:

mini|hw, xii+b|= 1 (3.9) Cu alte cuvinte norma vectorului ar trebui s˘a fie egal˘a cu inversa distant¸ei ˆıntre cel mai apropiat punct(obiect) din setul de date si hiperplan. Un hiper-

plan de separare ˆın forma canonic˘a tebuie s˘a satisfac˘a urm˘atoarele relat¸ii, yi[

w, xi

+b]≥1, i= 1. . . l. (3.10) Distant¸a d(w,b; x) unui punct x fat¸˘a de hiperplanul (w, b) este,

d(w, b;x) = |hw, xii+b|

kwk . (3.11)

Hiperplanul optim este obt¸inut prin maximizarea marginii care sufer˘a constrˆangerea dat˘a de ecuat¸ia 3.9. Hiperplanul care separ˘a datele ˆın mod optim este cel care minimizeaz˘a relat¸ia,

φ(w) = 1

2kwk (3.12)

Relat¸ia este independent˘a de b, pentru c˘a dac˘a ecuat¸ia este adev˘arat˘a (este un hiperplan de separare), modificarea lui b va produce ”mi¸scarea”

hiperplanului ˆın direct¸ia normal˘a spre el ˆınsu¸si. Marginea r˘amˆane neschim- bat˘a, dar hiperplanul nu va mai realiza o separare optim˘a, ˆın sensul c˘a va fi mai apropiat de una din clase. ˆIn continuare presupunem c˘a urm˘atoarea inegalitate este satisf˘acut˘a,

kwk< A. (3.13)

atunci, din 3.10 ¸si 3.11,

d(w,b;x)≥ 1

A (3.14)

¸si deci hiperplanele nu pot fi la o distant¸˘a mai mic˘a de 1/A fat˘a de oricare dintre puncte.

(34)

Figura 3.2: SVM-hiperplanul ¸si vectorii suport

Lagrangianul trebuie minimizat dup˘a w, b ¸si maximizat dup˘aα ≥0.( αi sunt multiplicatori Lagrange):

φ(w, b, α) = 1

2kwk2

l

X

i=1

αi(yi[ w, xi

+b]−1) (3.15) Se poate arata ca ecuatia 3.15 se poate scrie si astfel:

maxαW(α) = maxα− 1 2

l

X

i=1 l

X

j=1

αiαjyiyjhxi, xji+

l

X

k=1

αk (3.16)

Maparea liniar˘a ¸si funct¸iile Kernel

Dup˘a cum am mai spus, cˆand nu se poate g˘asi o separare liniar˘a satisf˘ac˘atoare SVM-urile pot mapa vectorul de intrare, x, pe un spat¸iu asociat, z, cu mai multe dimensiuni decˆat x. Astfel vom face maparea pe spat¸iul z ¸si ˆın acest spat¸iu asociat vom realiza separarea liniar˘a.

ˆIntr-adev˘ar, exist˘a ni¸ste restrict¸ii ˆın maparea neliniar˘a care se poate aplica, dar, surprinz˘ator, cele mai folosite funct¸ii sunt acceptabile. ˆIntre aces- tea amintim pe cele polinomiale, a¸sa numitele funct¸ii RBF ¸si cˆateva funct¸ii

(35)

sinusoidale. Problema optimiz˘arii devine:

maxαW(α) = maxα− 1 2

l

X

i=1 l

X

j=1

αiαjyiyjK(xi, xj) +

l

X

k=1

αk (3.17) unde K(x,y) este o funct¸ie kernel (nucleu) care realizeaz˘a maparea neliniar˘a ˆın spat¸iul asociat (feature space) ¸si constrˆangerile r˘amˆan neschimbate.

3.4 Clasificatorul Bayes Naiv

Ideea de baz˘a a algoritmului de ˆınv˘at¸are naiv˘a este de a estima probabilitatea ca un document dat s˘a apart¸in˘a unei anumite categorii. Clasificatorul Bayes naiv presupune independent¸a cuvintelor, dar ˆın ciuda acestei simplific˘ari el are performant¸e destul de bune.

ˆIn general instant¸ele care trebuie clasificate sunt caracterizate printr-un vector de atribute ~a = (a1, a2, . . . , an). Clasificatorul Bayes naiv asigneaz˘a unei instant¸e cea mai probabil˘a clasificare, sau o clasificare a posteoriori dintr-un set finit de clase C.

cM AP ≡ argmax P(c|~a), c∈C (3.18) care dup˘a ce este aplicat˘a teorema lui Bayes devine

cM AP ≡ argmax P(c)P(~a|c) , c∈C (3.19) Probabiliatea posteoriori P(~a|c) = P(a1, a2, . . . , an|c) poate fi estimat˘a direct din datele de antrenament dar nu sunt ˆın general fezabil de interpretat dac˘a datele nu sunt vaste. Totu¸si presupunerea Bayes naiv˘a c˘a atributele ar fi condit¸ional independente unele de altele - va da urm˘atorul rezultat:

P(a1, a2, . . . , an|c) =Y

i

P(ai|c) (3.20)

Astfel c˘a aceast˘a presupunere devine:

cN B ≡ argmax P(c)Y

i

P(ai|c), c∈C (3.21) [Mitchell, 1997]

(36)

ˆIn clasificarea de text se poate alege ca atribut pozit¸ia fiec˘arui cuvˆant ˆıntr-un document. Acest lucru ˆınsemn˘a determinarea probabilitat˘at¸ii ca un anumit cuvˆantwks˘a apar˘a la pozit¸ia j, dat˘a fiind clasificarea t¸int˘acj, anume P(aj = wk|cj). Deoarece datele de antrenament sunt r˘azlet¸e introducem o nou˘a presupunere, anume: probabilitatea ca un anumit cuvˆant wk aflat la pozit¸ia j este identic˘a cu probabilitatea ca acela¸si cuvˆant s˘a fie la o alt˘a pozit¸ie m.

P(ai =wk|cj) = P(am =wk|cj)pentru tot¸i i,j,k,m (3.22) Astfel estim˘am probabilitatea P(ai = wk|cj) cu P(wk|cj). Pentru a evita probabilitatea 0 se folose¸ste aproximarea lui Laplace a probabilit˘at¸ii.

P(wk|cj) = nk+ 1

n+|V ocabulary| (3.23) undenk reprezint˘a num˘arul de aparit¸ii al cuvˆantuluiwkˆın toate documentele de clasa cj;

nj reprezint˘a num˘arul total de pozit¸ii ˆın documentul de clas˘a cj;

|V ocabulary|reprezint˘a num˘arul de cuvinte distincte ˆın toate documentele;

Cuvintele care nu se reg˘asesc ˆın dict¸ionar sunt ignorate. Eliminarea cu- vintelor care apar frecvent sau a celor care sunt foarte rare pare un motiv destul de ˆıntemeiat. Cuvintele care apar foare rar ˆın documente este posibil s˘a aib˘a un efect semnificativ la lungimea atributelor ¸si predict¸iile nu ar trebui s˘a se bazeze pe ni¸ste observat¸ii rare. Eliminarea celor mai frecvente cuvinte este motivat˘a de faptul c˘a unele cuvinte, cum ar fi prepozit¸iile, s-ar putea s˘a nu ofere informat¸ii utile.(Hovold 2005)

(37)

Capitolul 4

Experimente ˆın detectarea automat˘ a a umorului ¸ si

rezultatele obt ¸inute

4.1 Corpusurile

Pentru a observa evolut¸ia algorimilor de ˆınv˘at¸are automat˘a am folosit mai multe corpusuri.

1. Texte scurte

• Datele pozitiveAm folosit corpusul de 6805 de glume culese manual de c˘atre Jonas Sjoberg [Sjobergh and Araki, 2007]. Lungimea textelor acestui corpus variaz˘a ˆıntre 1 ¸si 80, cu o medie de 13.

• Datele negative Au fost colectate urm˘arind s˘a aib˘a aceea¸si structur˘a ca cele umoristice (num˘arul de cuvinte ¸si media trebuie s˘a fie aproxi- mativ acelea¸si atˆat pentru datele pozitive cˆat ¸si pentru cele negative).

Pentru non-glume am folosit date din American National Corpus http://americannationalcorpus.org/OANC/

Textele sunt structurate pe 6 categorii: journal (jurnal), technical (tehnic), travel guides (ghiduri turistice),non fiction (nonfict¸iune), fic- tion (fict¸iune), letter (scrisoare).

(38)

Figura 4.1: Num˘arul de cuvinte din component¸a glumelor

Datele au fost ˆımp˘art¸ite ˆın propozit¸ii ¸si filtrate: au fost p˘astrate doar propozit¸iile ˆıntre 1 ¸si 80 de cuvinte.

Din figura se poate observa c˘a majoritatea datelor pozitive sunt ˆın intervalul 6-25. Astfel propozit¸iile din acest interval ar trebui s˘a aib˘a o probabilitate mai mare de a fi alese pentru datele negative.

Dupa cum se poate observa din figura (media dup˘a num˘arul de cuvinte este 21, iar la datele umoristice este 13). Este nevoie de o nou˘a filtrare a datelor pentru a selecta mai multe date din intervalul 6-25. Dac˘a impunem

Clasificare Media num˘arului de cuvinte Num˘arul de texte

Journal 21.17453311 2945

Technical 15.25832609 3453

Travel Guides 20.37071886 2657

Non fiction 27.6681191 2754

Fiction 20.09540636 1698

Letter 18.62918248 2899

Tabela 4.1: Structura Datelor dup˘a prima filltrare

(39)

(a) Journal (b) Fiction

(c) Letter (d) Technical

(e) Travel Guides (f) NonFiction

Figura 4.2: Num˘arul cuvintelor pe categorii din component¸a textelor non- umoristice Corpus 1

(40)

Tip Media Journal 16.95258 Technical 14.61752 Travel Guides 16.74491 Non fiction 21.30893 Fiction 16.2572

Letter 16.61021

Tabela 4.2: Media num˘arului de cuvinte pentru datele nonumoristice probabilitatea ca un text cu mai mult de 30 de cuvinte s˘a fie 0.2, atunci obt¸inem rezultatele din tabelul 4.2.

Pentru a nu avea texte doar din cele 6 categorii al corpusului ANC am mai introdus un corpus de 1000 de propozit¸ii scurte cu media num˘arului de cuvinte egal˘a cu 10. ˆIn concluzie avem pentru datele nonumoristice 8774 de texte cu o medie a num˘arului de cuvinte de 15.4.3

Datele pozitive ¸si negative pot fi folosite pentru a ˆınv˘at¸a ˆın mod au- tomat modele computat¸ionale de recunoa¸stere a umorului ¸si pentru a evalua performant¸ele acestor modele. Se ¸stie c˘a prezent¸a unui num˘ar mare de date de antrenament au potent¸ialul de ˆımbun˘at˘at¸i acuratet¸ea procesului de ˆınv˘at¸are ¸si, ˆın acela¸si timp, ofer˘a informat¸ii despre modul ˆın care datele de

diumenisiune mai mare pot afecta precizia clasific˘arii. [Witten, 2000]

2. Computers Humor/Computers NonHumor

Pentru datele pozitive am folosit date de pe site-ul 1 (un set de ˆıntˆampl˘ari amuzante ce implic˘a prezent¸a calculatorelor), iar datele negative de pe site- ul2 - ce cont¸ine articole despre calculatore. ˆIn total am colectat 1566 de exemple pozitive ¸si 1566 de exmple negative. Un exemplu de dat˘a pozitiv˘a

I was browsing the Internet when my friend came over and said he made a website. He told me to go a particular URL. When I went there, though, the browser said it was invalid. So I went to Google to search for it, and when I

got to Google, he said, ”Oh yeah, that’s my web site.”

iar unul de dat˘a negativ˘a

1http://linkenlim.vox.com/library/post/

(41)

Figura 4.3: Distribut¸ia num˘arului de cuvinte penrtu datele nonumoristice dup˘a a doua filtrare

(42)

Has anybody bought a Pentium motherboard? If so or you where I can¿buy it, please send me a E-mail. Thank you in advance. Pentium processors /

motherboards are not available to the general public as of yet. Intel has released them to companies such as Gateway and Dell to do testing, etc.

It’ll be a while...

3. Jewish humor

Pentru a vedea dac˘a umorul poate fi clasificat am creat o baz˘a de date cu glume evreie¸sti ˆımp˘art¸ite ˆın 14 categorii 3. Bar mitzvah (31 de documente), Bris and Mohel (18 documente),Divorce (19 documente),Donations (7 doc- umente), Drinks and alcohol (15 documente),Food (43 de documente), Golf (14 documente),Israel (65 de documente),Getting married (11 documente), Pesach (20 de documente), Rabbis (152 de documente), Seventieth birthday (15 documente),Shadchen(7 documente),Shmuck (12 documente),Wedding and anniversaries (14 documente). Exemplu: Rabbi Morris has just resigned and Issy, the shul president, goes to visit him. ”Rabbi,” Issy says, ”I’ve just heard the news. I’m really sorry that you’ve decided to leave us.” ”Don’t worry,” says Rabbi Morris, ”you’ll have nothing to worry about. I’m going to recommend a successor whom I believe will be better than me.” ”But that’s exactly what’s worrying me,” says Issy, ”your predecessor told me exactly the same thing.”

4. Dirty humor/Non dirty humor

Din baza de date a lui Jonas Sjoberg [Sjobergh and Araki, 2007] s-au selec- tat manual 1000 de glume pentru adult¸i pentru a vedea dac˘a se poate face clasificarea umorului.

4.2 Experimentele

1. Fiecare cuvˆant este un atribut sau r˘ad˘acina unui cuvˆant este un atribut

Textele au fost parsate, s-au p˘astrat doar cuvintele care au frecvent¸a de aparitie ˆıntre 3 ¸si 200. Pe toate cele 4 tipuri de corpusuri s-au ˆıncercat dou˘a tipuri de abord˘ari: ˆın prima abordare fiecare cuvˆant este un atribut iar ˆın

Referințe

DOCUMENTE SIMILARE

ˆIn cazul ˆın care spat¸iul bunurilor de consum este ’ n , avem de a face cu o problem˘ a de extrem necondit¸ionat.. Dac˘ a spat¸iul bunurilor de consum este K ’ n , vorbim de

Atunci ¸si polinomul produs f g este primitiv ˆın Z [X].. Lema lui Gauss (privitoare

In cazul ˆın care starea unui obiect este format˘ a doar din valori ale unor variabile de tip primitiv, atunci salvarea informat¸iilor ˆıncapsulate ˆın acel obiect se poate face

Algoritmul de c˘ autare secvent¸ial˘ a poate fi ˆımbun˘ at˘ at¸it ˆın sensul urm˘ ator: dac˘ a s-a ˆıntˆ alnit un element e k &gt; x atunci toate elementele care urmeaz˘

Pentru limba romˆ an˘ a cˆ at ¸si pentru englez˘ a au fost proiectate 29 cˆ ate dou˘ a inventare de etichete morfosintactice aflate ˆın corespondent¸˘ a (vezi ¸si tehnica

De¸si ˆın ambele cazuri de mai sus (S ¸si S ′ ) algoritmul Perceptron g˘ ase¸ste un separator liniar pentru datele de intrare, acest fapt nu este garantat ˆın gazul general,

¸si algoritmul lui Tseng. Ace¸sti algoritmi au fost studiate ˆın detaliu ˆın [4]... Capitolul trei este dedicat algoritmului primal-dual de divizare pentru rezolvarea problemei

CFB — Cipher Feedback: CFB ¸si urm˘ atorul mod, OFB, sunt utilizate ˆın special acolo unde mesajele sunt mult mai scurte decˆ at dimensiunea blocului, ˆıns˘ a emit¸˘