• Nu S-Au Găsit Rezultate

META-­‐NET  

N/A
N/A
Protected

Academic year: 2022

Share "META-­‐NET  "

Copied!
42
0
0

Text complet

(1)

Limba  română  în  era  digitală  

Dan  Cristea  

Institutul de Limbi Moderne “Appolonia”, Iași, 18 octombrie 2012

(2)

Europa  mul8linguală  

•  Ne  definește  ca  arie  culturală  

•  UE  cheltuiește  aprox.  un  miliard  de  euro  pe  an   pentru  menţținerea  poli8cii  noastre  asupra  

mul8lingvismului  (ex.  traduceri,  interpretări)  

•  Dar  mul8tudinea  de  limbi  este  neprielnică   afacerilor  

(3)

Limbile  sunt  ameninţțate  

•  Limbile  sunt  ameninţțate:    

– internetul  și  limba  engleză  atacă  dureros  limbile  mici   – dar  nici  limba  engleză  nu  iese  nea8nsă  

•  Posibile  soluţții  pentru  a  face  faţță  mul8tudinii   limbilor:    

– dă  voie  unei  singure  limbi  să  aibă  o  poziţție   predominantă:  inacceptabil!  

– încurajează  învăţțarea  limbilor  străine:  DA,  dar  e   imposibil  să  înveţți  23  limbi  oficiale  (60  de  toate)   – dezvoltă  tehnologii  lingvis8ce…  

(4)

META-­‐NET  

•  META-­‐NET:  Alianţța  Tehnologică  pentru  o   Europă  Mul8lingvă  (Mul8lingual  Europe   Technology  Alliance)  

– reţțea  de  excelenţță:  53  de  membri  din  33  de  ţțări   europene  

– lansată  la  1  februarie  2010    

– ideea  promovată:  Europa  mul8linguală  trebuie   susţținută  tehnologic  

– scopul:  avansul  cercetărilor  în  domeniul   tehnologiilor  limbajului  

(5)

Ac8vităţțile  META-­‐NET  

•  META-­‐VISION:  promovează  o  comunitate   influenţțială,  unită  în  jurul  unei  agende  

strategice  comune  de  cercetare      

•  META-­‐SHARE:  o  infrastructură  publică  

distribuită  pentru  schimbul  şi  partajarea  de   resurse  

•  META-­‐RESEARCH:  construieşte  punţți  de  

legătură  între  domenii  tehnologice  învecinate.    

(6)

Actorii  TL  

•  În  principal:  întreprinderi  private  cu  sediul  în   America  de  Nord  

•  De  la  sfârșitul  anilor  1970,  Uniunea  Europeană   a  înţțeles  importanţța  tehnologiilor  lingvis8ce  ca   motor  al  unităţții  europene,  şi  a  început  

finanţțarea  primelor  proiecte  de  cercetare,   cum  a  fost  EUROTRA.  

(7)

Ce  sunt  TL?  

•  Cele  mai  multe  aplicaţții  din  TL:  metode   sta8s8ce  (imprecise)  care  nu  u8lizează   cunoș8nţțe  lingvis8ce  de  adâncime  

– exemplu:  traducerea  automată  

•  Metode  simbolice  

•  Metode  mixte  

(8)

Limbi  străine  și  vorbitorii  lor  

•  57%  dintre  u8lizatorii  de  Internet  din  Europa  

achiziţționează  bunuri  şi  servicii  în  limbi  diferite  de   cea  maternă  (engleza,  franceza,  germana  şi  

spaniola)  

•  55%  dintre  u8lizatori  citesc  conţținut  într-­‐o  limbă   străină  

•  35%  u8lizează  o  altă  limbă  pentru  a  scrie  e-­‐mail-­‐

uri  sau  a  publica  comentarii  pe  web  

(sursa:  Directoratul  general  pentru  Societatea  Infromaţțională  și   Media  al  Comisiei  Europeane  User  Language  Preferences  

Online,  2011  hfp://ec.europa.eu/public_op  fl_313_.en.pdf)  

(9)

Limbile:  bunuri  culturale  ale  Europei  

•  Limbi  intens  vorbite  (engleza,  spaniola)  vor   rămâne  prezente  în  societatea  şi  pe  piaţța   digitală  

•  Multe  limbi  europene  ar  putea  fi  deconectate   de  la  comunicarea  digitală  şi  ar  putea  deveni   irelevante  pentru  societatea  Internetului    

– o  asiel  de  evoluţție  ar  slăbi  poziţția  Europei  pe   piaţța  globală  

– ar  fi  în  contradicţție  cu  obiec8vul  strategic  al  

par8cipării  egale  a  fiecărui  cetăţțean  european,   indiferent  de  limba  lui  

(10)

Care  dintre  limbile  europene  va   prospera  în  societatea  virtuală  a  

informaţției  şi  cunoaşterii  şi  care  

sunt  sor8te  dispariţției?  

(11)

Momentul  Gutenberg  

•  Limbile  8părite  au  câș8gat  în  popularitate  

•  Limbile  rămase  în  afara  8parului  au  rămas  în   urmă  

(12)

Momentul  Tim  Berners  Lee  

•  Limbile  promovate  pe  Internet  sunt  extrem  de   mult  u8lizate  

•  Internetul  influenţțează  defavorabil  limbile  mici  

(13)

Limba  română  în  lume  

•  29.000.000  de  vorbitori:    

– limbă  maternă  a  25.000.000  de  vorbitori:  aprox.  

21.500.000  în  România  plus  aprox.  3.500.000  –  în   Republica  Moldova  (oficial:  moldovenească)    

– ţțările  vecine  României  (Albania,  Bulgaria,  Croaţția,  Grecia,   Ungaria,  Fosta  Republică  Iugoslavă  a  Macedoniei,  Serbia,   Ucraina)  şi  comunităţți  de  imigranţți  din  Australia,  Canada,   Israel,  America  LaQnă,  Turcia,  S.U.A.  şi  alte  ţțări  Europene   şi  AsiaQce:  aprox.  4.000.000  de  vorbitori  naQvi  de  română     – Româna  este  limbă  oficială  în  Provincia  Autonomă  

Voivodina  din  Serbia,  în  Muntele  Athos  autonom  din   Grecia,  în  Uniunea  Europeană  şi  în  Uniunea  LaQnă   – este  recunoscută  ca  limbă  minoritară  în  Ucraina  

(14)

Dialecte  

•  Incluse  în  Cartea  Roşie  a  Limbilor  pe  Cale  de   Dispariţție  UNESCO:  

•  Daco-­‐Româna  /  Româna    

•  Aromâna  (aprox.  600.000  de  vorbitori  în  Albania,  Bulgaria,   Grecia  şi  Macedonia)  

•  Istro-­‐Româna  (15.000  de  vorbitori  în  2  zone  mici  din   Peninsula  Istria,  Croaţția)    

•  Megleno-­‐Româna  (aprox.  5.000  de  vorbitori  în  Grecia  şi   Macedonia)    

(15)

Studiul    limbii  române  în  străinătate  

•  Primele  ex8nderi  în  sistem  franciză  ale  şcolilor  şi   universităţților  din  România  au  apărut  în  Republica   Moldova  în  2000.    

•  Iniţția8ve  în  diaspora:    

•  școala  de  limba  română  din  Kitchener,  Canada;    

•  Centrul  Euxodius  Hurmuzachi:  anual,  sute  de  burse  în   România  pentru  minorităţțile  române  din  ţțările  vecine  

•  Ins8tutele  Culturale  Române:  70  centre  în  19  oraşe  din   lume  (inclusiv  Bucureş8,  New  York,  Paris,  Londra,  Roma,   Istanbul,  Venezia  etc.)  

(16)

LR  în  internet  (2010)  

•  44,2%  dintre  români  aveau  acces  la  un  calculator   acasă,    

•  35,5%  (i.e.  7.786.700  de  români)  erau  u8lizatori   de  Internet  (aprox.  60%  dintre  ei:  u8lizatori  

zilnici)    România  pe  locul  8  într-­‐un  top  10  al   u8liza-­‐  torilor  de  Internet  din  Europa  

•  Peste  500.000  de  site-­‐uri  web  înregistrate  cu   domeniul  .ro.    

•  Anul  2000:  numai  3,6%  din  populaţție  (adică   800.000  de  români)  foloseau  Internetul     creştere  de  aproape  zece  ori.    

(17)

LR  în  internet  (2010)  –  con8nuare    

•  Uniunea  La8nă,  2007:  similar  cu  tendinţța  

celorlalte  limbi  neola8ne,  prezenţța  limbii  române   pe  Internet  a  crescut  din  1998  până  în  2007.    

•  vigoarea  fiecărei  limbi  (prezenţța  limbilor  studiate   în  spaţțiul  virtual):  procentul  de  pagini  web  în  

limba  română  împărţțit  la  procentul  de  prezenţță   rela8vă  a  vorbitorilor  limbii  din  lumea  reală:  0,6   (2007),  4,44  (engleză),  2,24  (franceză)  şi  2,93  

(  italiană)  

•  româna  este  singura  limbă  care  a  cunoscut  o   creştere  în  vigoare  în  perioada  2005-­‐2007  

(înaintea  integrării  în  Uniunea  Europeană).  

(18)

Un  lanţț  de  prelucrare  textuală  

Prelucrări  

iniţțiale Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

(19)

Exemple  de  prelucrări  textuale  

Curăţțarea  

textului Eliminarea  

formatărilor Recunoașteea  

limbii Standardizarea  

codurilor Prelucrări  

iniţțiale   Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

(20)

Exemple  de  prelucrări  textuale  

Segmentare    

la  fraze   Segmentare    

la  cuvinte   Etichetare    

la  PDV   Recunoașterea  

lemelor Recunoașterea  

grupurilor Prelucrări  

iniţțiale Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

(21)

Exemple  de  prelucrări  textuale  

Dezambiguizarea   sensurilor  

Recunoașterea   rolurilor   verbelor  

Recunoașterea   cadelor   semantice   Prelucrări  

iniţțiale   Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

(22)

Exemple  de  prelucrări  textuale  

Segmentare   la  clauze   Prelucrări  

iniţțiale   Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

Adnotare   sintactică  

(23)

Exemple  de  prelucrări  textuale  

Rezoluţția  

anaforei   Parsarea  

discursului   Rezumare     Prelucrări  

iniţțiale Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

(24)

Exemple  de  prelucrări  textuale  

Rezoluţția   anaforei  

Recunoașterea   evenimentelor    

și  a  situaţțiilor   Prelucrări  

iniţțiale Prelucrări  

subsintactice  

document   Prelucrări  

semantice  

Prelucrări  

sintactice   Prelucrări     rezultat

de  discurs  

Analiză   temporală  

(25)

Un  modul  

Prelucrare independentă de

limbă

Resurse dependente

de limbă

(26)

Exemplu:  un  parser  sintac8c  

Parser: software independent de

limbă

set  de  reguli   sintactice   pentru  limba    

L  

(27)

Cum  se  obţțin  resursele?  

Pasul  1:  extragerea  exper8zei  umane  

text   text  

adnotat  

(28)

Exemplu  de  resursă:  treebank  

(29)

Exemplu  de  adnotare  sintac8că  

(30)

Cum  se  obţțin  resursele?  

Pasul  2:  sinteza  modelelor  

Program de învățare text  

set  de   reguli  

<text   adnotat>  

(31)

Cum  se  obţțin  resursele?  

Pasul  2:  evaluarea  

text  

set  de  reguli  pt.  

limba  română  

<text  adnotat   de  expert>  

Parser sintactic independent de

limbă

<text  adnotat   automat>  

(32)
(33)

Situaţția  LR  pe  domenii  

•  Foarte  slab:    

–  generarea  de  limbaj,    

–  sisteme  de  ges8onare  a  dialogului     –  construirea  de  corpusuri  mul8modale.  

–  un  corpus  de  referinţță  care  să  fie  refolosit  pentru  evaluarea  automată  a  parsărilor  nu  există  încă   –  procesarea  vorbirii  

•  Rela8v  bine:  

–  analiza  sintac8că  de  adâncime     –  procesarea  avansată  a  discursului.  

Semnifica8ve:    

–  tokenizarea,    

–  seman8ca  propoziţțiilor  

–  sisteme  de  întrebare-­‐răspuns,    

•  Resursele  sunt  mai  puţțin  dezvoltate  decât  instrumentele  

Sistemele  existente  pentru  limba  română  nu  sunt  disponibile,  cu  câteva  excepţții:  serviciile  web   pentru  procesări  de  bază,  analiză  morfologică,  instrumente  de  întrebare-­‐răspuns  şi  sisteme  de   traducere  automată  

•  Există  Instrumente  care  acoperă  seman8ca  propoziţției  şi  regăsirea  de  informaţții,    

(34)

Drepturile  de  proprietate  intelectuală  

•  Legea  restricţționează  u8lizarea  textelor  

digitale,  cum  ar  fi  cele  publicate  on-­‐line  de   ziare,  pentru  cercetări  empirice  lingvis8ce  și   pentru  tehnologiile  limbajului,  de  exemplu   pentru  construirea  modelelor  sta8s8ce  de   limbă.    

(35)

Prelucrarea  vorbirii  

(36)

Traducere  automată  

(37)

Analiza  de  text  

(38)

Resurse  pentru  text  și  vorbire  

(39)

10  ş co li   EU RO LA N  în  1 8   an i:   1993-­‐2011  

(40)
(41)
(42)

Consorţțiul  de  Informa8zare  pentru   Limba  Română  –  ConsILR  

8  ediţții  începând  din  2001  

Referințe

DOCUMENTE SIMILARE

Rogers a îmbinat subiectivitatea și unicitatea întâlnirii din cabi- net cu obiectivitatea și rigoarea știinţifică, fiind primul terapeut ca- re a înregistrat ședinţele de

Using a UNET-based deep neural network, Dong et al., (2017) developed a completely automated brain tumor identification and segmentation approach.. They demonstrate that

MVC foloseste o conventie bazata pe numele structurii de directoare cand rezolva template pentru View si acest lucru ne permite sa omitem calea cand referim un anumit View din

Ioan Asiminoaei – Facultatea de Informatica – Universitatea “Al. Cuza” Iasi Page 14 params Object[] parameters.. )

Since the requirement was of a model that would classify images into categories of waste, we needed a Transfer Learningapproach. This was to be achieved by using

Este o formă net distinctă de limfom Hodgkin, caracterizată prin prezenţa de benzi dense de colagen care pornesc de la nivelul capsulei îngroşate şi fragmentează

Metoda ConfigureServices realizeaza configurarea serviciilor, iar metoda Configure este responsabila pentru definirea pipeline ce trateaza cererile, o serie de componente

In API am scris metode ale instantei ce lucreaza cu baza de date, in APIStatic am scris metode statice (fisier API.cs) ce lucreaza cu baza de date... Observati spatiul de

Don’t Fragment (DF) bit – datagrama nu poate fi fragmentata (daca routerul nu poate transmite pachetul nefragmentat, il va distruge). More Fragments (MF) bit –

• Se utilizeaza un sistem al numelor de domenii pentru a translata adresele IP .. in nume de domenii

Presupunand ca aplicatia server expune tipul CustomerService ca un obiect well-known , urmatorul cod din client poate fi folosit pentru a crea un proxy la obiectul

• Programarea orientatã obiect (programe cu noi tipuri ce integreazã atât datele, cât ºi metodele asociate creãrii, prelucrãrii ºi distrugerii acestor date); se obþin avan-

The title, &#34;The woman in the communist regime&#34; started in Romania about half a century ago, organizations, institutions, publications, propaganda programs, social or cul-

Adopting a straightforward intuitive approach and approximating a single scale factor, several application schemes of the deep networks are evaluated and meaningful conclusions

JDBC (Java Database Connectivity) este tehnologia Java de acces la baze de date relaționale.. Este independentă de tipul bazei

• Aplicatia client comunica prin retea cu procedura de pe calculatorul la distanta transmitind.. argumentele si

PubMed, Embase, Elsevier, CNKI (China National Knowledge Infrastructure) database and Cochrane Trial Register searches were performed to identify all the eli- gible papers.

If the internal XWindows server uses xhost hostname only authentication, the external user does not need to gain root level access on the external computer. However, if the

Disks fill up at an alarming rate. Users almost never throw away files unless they have to. If one is lucky enough to have only very experienced and extremely friendly users on

Cazul 1: Un singur octet cu tipul op ţ iunii. Aceast ă op ţ iune ocup ă doar un octet; nu are octet de lungime. Aceast ă op ţ iune ocup ă doar un octet; nu are octet de

ALIGN THE REST OF THE IMAGE AGAINST THE TEXT è GET MORE DATA ON LOWER RANKED LETTERS è.

• Understanding language puts to work a diversity of linguistic backgrounds (innate, acquired):?. – phonological, morphological, lexical

We intended to assess if the distal shoe appliance modifications may act as an effective and safe technique for space maintenance where lower second primary