Limba română în era digitală
Dan Cristea
Institutul de Limbi Moderne “Appolonia”, Iași, 18 octombrie 2012
Europa mul8linguală
• Ne definește ca arie culturală
• UE cheltuiește aprox. un miliard de euro pe an pentru menţținerea poli8cii noastre asupra
mul8lingvismului (ex. traduceri, interpretări)
• Dar mul8tudinea de limbi este neprielnică afacerilor
Limbile sunt ameninţțate
• Limbile sunt ameninţțate:
– internetul și limba engleză atacă dureros limbile mici – dar nici limba engleză nu iese nea8nsă
• Posibile soluţții pentru a face faţță mul8tudinii limbilor:
– dă voie unei singure limbi să aibă o poziţție predominantă: inacceptabil!
– încurajează învăţțarea limbilor străine: DA, dar e imposibil să înveţți 23 limbi oficiale (60 de toate) – dezvoltă tehnologii lingvis8ce…
META-‐NET
• META-‐NET: Alianţța Tehnologică pentru o Europă Mul8lingvă (Mul8lingual Europe Technology Alliance)
– reţțea de excelenţță: 53 de membri din 33 de ţțări europene
– lansată la 1 februarie 2010
– ideea promovată: Europa mul8linguală trebuie susţținută tehnologic
– scopul: avansul cercetărilor în domeniul tehnologiilor limbajului
Ac8vităţțile META-‐NET
• META-‐VISION: promovează o comunitate influenţțială, unită în jurul unei agende
strategice comune de cercetare
• META-‐SHARE: o infrastructură publică
distribuită pentru schimbul şi partajarea de resurse
• META-‐RESEARCH: construieşte punţți de
legătură între domenii tehnologice învecinate.
Actorii TL
• În principal: întreprinderi private cu sediul în America de Nord
• De la sfârșitul anilor 1970, Uniunea Europeană a înţțeles importanţța tehnologiilor lingvis8ce ca motor al unităţții europene, şi a început
finanţțarea primelor proiecte de cercetare, cum a fost EUROTRA.
Ce sunt TL?
• Cele mai multe aplicaţții din TL: metode sta8s8ce (imprecise) care nu u8lizează cunoș8nţțe lingvis8ce de adâncime
– exemplu: traducerea automată
• Metode simbolice
• Metode mixte
Limbi străine și vorbitorii lor
• 57% dintre u8lizatorii de Internet din Europa
achiziţționează bunuri şi servicii în limbi diferite de cea maternă (engleza, franceza, germana şi
spaniola)
• 55% dintre u8lizatori citesc conţținut într-‐o limbă străină
• 35% u8lizează o altă limbă pentru a scrie e-‐mail-‐
uri sau a publica comentarii pe web
(sursa: Directoratul general pentru Societatea Infromaţțională și Media al Comisiei Europeane User Language Preferences
Online, 2011 hfp://ec.europa.eu/public_op fl_313_.en.pdf)
Limbile: bunuri culturale ale Europei
• Limbi intens vorbite (engleza, spaniola) vor rămâne prezente în societatea şi pe piaţța digitală
• Multe limbi europene ar putea fi deconectate de la comunicarea digitală şi ar putea deveni irelevante pentru societatea Internetului
– o asiel de evoluţție ar slăbi poziţția Europei pe piaţța globală
– ar fi în contradicţție cu obiec8vul strategic al
par8cipării egale a fiecărui cetăţțean european, indiferent de limba lui
Care dintre limbile europene va prospera în societatea virtuală a
informaţției şi cunoaşterii şi care
sunt sor8te dispariţției?
Momentul Gutenberg
• Limbile 8părite au câș8gat în popularitate
• Limbile rămase în afara 8parului au rămas în urmă
Momentul Tim Berners Lee
• Limbile promovate pe Internet sunt extrem de mult u8lizate
• Internetul influenţțează defavorabil limbile mici
Limba română în lume
• 29.000.000 de vorbitori:
– limbă maternă a 25.000.000 de vorbitori: aprox.
21.500.000 în România plus aprox. 3.500.000 – în Republica Moldova (oficial: moldovenească)
– ţțările vecine României (Albania, Bulgaria, Croaţția, Grecia, Ungaria, Fosta Republică Iugoslavă a Macedoniei, Serbia, Ucraina) şi comunităţți de imigranţți din Australia, Canada, Israel, America LaQnă, Turcia, S.U.A. şi alte ţțări Europene şi AsiaQce: aprox. 4.000.000 de vorbitori naQvi de română – Româna este limbă oficială în Provincia Autonomă
Voivodina din Serbia, în Muntele Athos autonom din Grecia, în Uniunea Europeană şi în Uniunea LaQnă – este recunoscută ca limbă minoritară în Ucraina
Dialecte
• Incluse în Cartea Roşie a Limbilor pe Cale de Dispariţție UNESCO:
• Daco-‐Româna / Româna
• Aromâna (aprox. 600.000 de vorbitori în Albania, Bulgaria, Grecia şi Macedonia)
• Istro-‐Româna (15.000 de vorbitori în 2 zone mici din Peninsula Istria, Croaţția)
• Megleno-‐Româna (aprox. 5.000 de vorbitori în Grecia şi Macedonia)
Studiul limbii române în străinătate
• Primele ex8nderi în sistem franciză ale şcolilor şi universităţților din România au apărut în Republica Moldova în 2000.
• Iniţția8ve în diaspora:
• școala de limba română din Kitchener, Canada;
• Centrul Euxodius Hurmuzachi: anual, sute de burse în România pentru minorităţțile române din ţțările vecine
• Ins8tutele Culturale Române: 70 centre în 19 oraşe din lume (inclusiv Bucureş8, New York, Paris, Londra, Roma, Istanbul, Venezia etc.)
LR în internet (2010)
• 44,2% dintre români aveau acces la un calculator acasă,
• 35,5% (i.e. 7.786.700 de români) erau u8lizatori de Internet (aprox. 60% dintre ei: u8lizatori
zilnici) România pe locul 8 într-‐un top 10 al u8liza-‐ torilor de Internet din Europa
• Peste 500.000 de site-‐uri web înregistrate cu domeniul .ro.
• Anul 2000: numai 3,6% din populaţție (adică 800.000 de români) foloseau Internetul creştere de aproape zece ori.
LR în internet (2010) – con8nuare
• Uniunea La8nă, 2007: similar cu tendinţța
celorlalte limbi neola8ne, prezenţța limbii române pe Internet a crescut din 1998 până în 2007.
• vigoarea fiecărei limbi (prezenţța limbilor studiate în spaţțiul virtual): procentul de pagini web în
limba română împărţțit la procentul de prezenţță rela8vă a vorbitorilor limbii din lumea reală: 0,6 (2007), 4,44 (engleză), 2,24 (franceză) şi 2,93
( italiană)
• româna este singura limbă care a cunoscut o creştere în vigoare în perioada 2005-‐2007
(înaintea integrării în Uniunea Europeană).
Un lanţț de prelucrare textuală
Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Exemple de prelucrări textuale
Curăţțarea
textului Eliminarea
formatărilor Recunoașteea
limbii Standardizarea
codurilor Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Exemple de prelucrări textuale
Segmentare
la fraze Segmentare
la cuvinte Etichetare
la PDV Recunoașterea
lemelor Recunoașterea
grupurilor Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Exemple de prelucrări textuale
Dezambiguizarea sensurilor
Recunoașterea rolurilor verbelor
Recunoașterea cadelor semantice Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Exemple de prelucrări textuale
Segmentare la clauze Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Adnotare sintactică
Exemple de prelucrări textuale
Rezoluţția
anaforei Parsarea
discursului Rezumare Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Exemple de prelucrări textuale
Rezoluţția anaforei
Recunoașterea evenimentelor
și a situaţțiilor Prelucrări
iniţțiale Prelucrări
subsintactice
document Prelucrări
semantice
Prelucrări
sintactice Prelucrări rezultat
de discurs
Analiză temporală
Un modul
Prelucrare independentă de
limbă
Resurse dependente
de limbă
Exemplu: un parser sintac8c
Parser: software independent de
limbă
set de reguli sintactice pentru limba
L
Cum se obţțin resursele?
Pasul 1: extragerea exper8zei umane
text text
adnotat
Exemplu de resursă: treebank
Exemplu de adnotare sintac8că
Cum se obţțin resursele?
Pasul 2: sinteza modelelor
Program de învățare text
set de reguli
<text adnotat>
Cum se obţțin resursele?
Pasul 2: evaluarea
text
set de reguli pt.
limba română
<text adnotat de expert>
Parser sintactic independent de
limbă
<text adnotat automat>
Situaţția LR pe domenii
• Foarte slab:
– generarea de limbaj,
– sisteme de ges8onare a dialogului – construirea de corpusuri mul8modale.
– un corpus de referinţță care să fie refolosit pentru evaluarea automată a parsărilor nu există încă – procesarea vorbirii
• Rela8v bine:
– analiza sintac8că de adâncime – procesarea avansată a discursului.
• Semnifica8ve:
– tokenizarea,
– seman8ca propoziţțiilor
– sisteme de întrebare-‐răspuns,
• Resursele sunt mai puţțin dezvoltate decât instrumentele
• Sistemele existente pentru limba română nu sunt disponibile, cu câteva excepţții: serviciile web pentru procesări de bază, analiză morfologică, instrumente de întrebare-‐răspuns şi sisteme de traducere automată
• Există Instrumente care acoperă seman8ca propoziţției şi regăsirea de informaţții,
Drepturile de proprietate intelectuală
• Legea restricţționează u8lizarea textelor
digitale, cum ar fi cele publicate on-‐line de ziare, pentru cercetări empirice lingvis8ce și pentru tehnologiile limbajului, de exemplu pentru construirea modelelor sta8s8ce de limbă.