• Nu S-Au Găsit Rezultate

date structurate în cadrul documentelor HTML scheme de microdate HTML5

N/A
N/A
Protected

Academic year: 2022

Share "date structurate în cadrul documentelor HTML scheme de microdate HTML5"

Copied!
94
0
0

Text complet

(1)

Dr. Sabin Buragaprofs.info.uaic.ro/~busa

</>

date structurate în cadrul documentelor HTML scheme de microdate HTML5

Dr. Sabin Corneliu Buraga – profs.info.uaic.ro/~busaco/

(2)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

“I chose HTML not to be a programming language because I wanted different programs to do different

things with it: present it differently,

extract tables of contents, index it, and so on.”

Tim Berners-Lee

www.w3.org/DesignIssues/Principles.html

(3)

Dr. Sabin Buragaprofs.info.uaic.ro

Constatare

clientul care consumă (accesează) reprezentări

de resurse Web nu trebuie obligatoriu să fie uman

(4)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Roboți

programe ce traversează automat Web-ul, cu scopul de a extrage date

spiders, crawlers, Web bots

robot Web  navigator Web

(5)

Dr. Sabin Buragaprofs.info.uaic.ro

pornind de la un URL, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse

– uzual, HTML – și, recursiv, din toate resursele (documentele) desemnate de legăturile existente

în cadrul reprezentării

(6)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Roboți

pornind de la un URL, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse

– uzual, HTML – și, recursiv, din toate resursele (documentele) desemnate de legăturile existente

în cadrul reprezentării

acțiuni: extrage de date, copiere, agregare de conținut, monitorizare, realizare a unui rezumat etc.

(7)

Dr. Sabin Buragaprofs.info.uaic.ro/~busa

Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent din antetul unei cereri HTTP

(8)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

roboți: identificare

Ai motoarelor de căutare majore

Baidu – Baiduspider: www.baidu.com/search/spider.html

Bing – Bingbot, BingPreview, AdIxBot

www.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0

DuckDuckGo – duckduckgo.com/duckduckbot

Google – APIs-Google, AdSense, AdsBot, Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video,…

support.google.com/webmasters/answer/1061943

Yahoo! – Slurp: help.yahoo.com/help/us/ysearch/slurp

Yandex – YandexBot, YandexImages etc.:

yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

(9)

Dr. Sabin Buragaprofs.info.uaic.ro/~busa

Specializați

e.g., validarea codului HTML, scurtarea lungimii URL-urilor, scanare de vulnerabilități, statistici,

arhivarea conținutului disponibil pe Web,…

exemplificări: ChangeDetection, citeseerxbot, Distill, Feedity, Heritrix (folosit de archive.org),

extensii Nagios, Scrapy, W3C Validator

(10)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

roboți: identificare

Personali

rulați de utilizatori

exemplificare: software de „oglindire” (copiere) a conținutului unui (fragment de) sit Web

aplicații notorii disponibile în regim deschis:

curl – curl.haxx.se/  wget – www.gnu.org/software/wget/

(11)

Dr. Sabin Buragaprofs.info.uaic.ro/~busa

Roboți (potențial) malefici

pot cauza breșe de securitate, exploatând diverse vulnerabilități ale siturilor/aplicațiilor Web

exemple tipice:

spam – inclusiv JS/PHP/SQL/link injection, illegal content scraping (e.g. credit card info), click fraud, refuz de servicii,

mistificarea datelor + manipularea utilizatorilor

(12)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

roboți: identificare

Roboți (potențial) malefici

fenomenul Bad Bots as-a-Service

trafic total cauzat de roboții Web malefici: 24.1%

din care în sectorul financiar: 48%, educație: 46%, IT: 45%

(raport Imperva, aprilie 2020 pentru anul 2019)

(13)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

66.249.65.70 - - [09/Nov/2019:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/

HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)"

180.76.5.101 - - [09/Nov/2019:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-"

"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [09/Nov/2019:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-"

"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

157.55.39.73 - - [09/Nov/2019:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403 220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

208.115.111.71 - - [09/Nov/2019:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-"

"Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"

63.249.66.212 - - [09/Nov/2019:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-"

"Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"

66.249.65.70 - - [09/Nov/2019:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1"

304 - "-" "Googlebot-Image/1.0"

157.55.39.177 - - [09/Nov/2019:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot- media/1.1 (+http://search.msn.com/msnbot.htm)"

136.243.9.23 - - [09/Nov/2019:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-"

"Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"

cereri HTTP efectuate de diverși roboți Web (menționate în fișierul de jurnalizare Apache)

(14)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

statistici + detalii:

www.botsvsbrowsers.org

(15)

Dr. Sabin Buragaprofs.info.uaic.ro

Cum putem „instrui” roboții Web

să nu viziteze anumite zone ale sitului?

(16)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Orice robot trebuie să respecte standardul de excludere

„inhibă” vizitarea anumitor zone (secțiuni) ale unui sit Web

în rădăcina unui domeniu Web se poate plasa fișierul robots.txt

www.robotstxt.org/robotstxt.html

(17)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

User-agent: * # toți roboții

Crawl-delay: 5 # 5 sec. între cereri Sitemap: https://developer.mozilla.org/sitemap.xml

Disallow: /admin/ # căi ce nu trebuie vizitate Disallow: /*/dashboards/*

Disallow: /*docs/feeds ...

fișierul robots.txt poate cuprinde extensii recunoscute doar de un anumit crawler Web

cazul Google:

developers.google.com/search/reference/robots_txt

(18)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

de studiat câteva exemple reale de fișiere robots.txt:

www.amazon.com/robots.txt www.facebook.com/robots.txt

github.com/robots.txt www.google.com/robots.txt

User-agent: * Disallow: /user/*

Disallow: /addtocart*

Disallow: /proces_comanda Disallow: /cart/*

Disallow: /checkout Disallow: /imagini/*

Disallow: /images/*

Disallow: /compare/*

Disallow: /thank-you$

Disallow: /cat-*/pid-*/ord-*/p-*

Disallow: /adauga-review Disallow: /adauga-intrebare

Disallow: /header-cart Disallow: /header-wl

Disallow: /product_get_recommandations/*

Disallow: /get_back_to_search_url Disallow: /search-tools/*

Disallow: /ajax_live_products Disallow: /box_user_history

Disallow: /gr_box_bottom_landing/*

Disallow: /site_ajax_ads Allow: /*/*/*all-products User-agent: 008

Disallow: /

(19)

Dr. Sabin Buragaprofs.info.uaic.ro

Orice robot trebuie să respecte standardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

(20)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

timp strategie

înainte de 2000

conținut – indexarea textului

(titlu, anteturi, URL, descriere via <meta>)

2000—2010 conținut

autoritate (via legături desemnate de URL-uri)

2010—

prezent

conținut autoritate

personalizare (social media + profil utilizator)

2012—

prezent

conținut autoritate

personalizare

concepte (date structurate + Web of data) context (localizare geo, limbă, timp, dispozitiv,…)

adaptare după (K. Bodnar & J. Hopkins, 2011)

(21)

Dr. Sabin Buragaprofs.info.uaic.ro

OpenSearchServer, Sphinx, Xapian,…

API-uri publice:

www.programmableweb.com/category/search

disponibilitatea datelor indexate în regim deschis în vederea analizării ulterioare:

commoncrawl.org

(22)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

În ce mod prezentăm conținutul

altor clienți – diferiți de cei umani?

(23)

Dr. Sabin Buragaprofs.info.uaic.ro

Cum trebuie scris codul HTML

pentru a obține o relevanță bună a conținutului

preluat de roboții Web?

(24)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

SEOSearch Engine Optimization

suită de strategii de redactare a codului HTML în vederea obținerii unei relevanțe ridicate a conținutului, astfel încât pagina/situl să fie regăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

(25)

Dr. Sabin Buragaprofs.info.uaic.ro

Structurarea codului-sursă al documentelor Web Structurarea conținutului (textual, grafic,…)

Structurarea legăturilor cu alte resurse

(26)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)

titluri plasate ierarhic via elementele <h1>, <h2>,…

conținut tabelar cu <table>

aranjament vizual (layout)

via stiluri CSS și nu tabele (<table> <tr>…)

(27)

Dr. Sabin Buragaprofs.info.uaic.ro

Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)

divizarea conținutului:

<section> <article> <header> <footer> <aside> etc.

marcajarea elementelor vizând navigabilitatea cu <nav>

liste specificate cu <ul> <ol> <li>

(28)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

h1

nav

aside section

h2

ul

h2

article p

header

(29)

Dr. Sabin Buragaprofs.info.uaic.ro

Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)

conținut textual alternativ pentru imagini (<img alt="..." />), legături (<a title="...">), tabele (<table summary="...">),

multimedia,…

atașarea de meta-date externe în antetul paginii Web via <head>, <meta /> și <link />

J. Buchea, A guide to <head> elements (2021) – htmlhead.dev

(30)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)

de evitat elementele învechite – e.g., cadre (frame-uri) – sau proprietare (<blink> ori <marquee>)

documentul trebuie să fie bine-formatat

verificarea corectitudinii codului HTML cu instrumentul oferit de Consorțiul Web – validator.w3.org

a se considera și html5boilerplate.com

(31)

Dr. Sabin Buragaprofs.info.uaic.ro/~

o importanță majoră o are titlul paginii

Untitled Document – 68.8 de milioane de rezultate redate de Google

situl trebuie actualizat periodic, frecvent numele fișierelor (imagini, stiluri,…) contează

tehnică utilă:

„rescrierea” URL-urilor – e.g., mod_rewrite la Apache

anumite date pot fi „ascunse” de roboți via robots.txt

(32)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Realizarea legăturilor între pagini (hipermedia)

obligatoriu, de inclus legături spre alte resurse (ale sitului propriu ori ale altor situri)

dorim legături spre/de la situri importante având conținut similar cu situl nostru

de verificat și menținut structura hipertextului

instrumentul LinkChecker validator.w3.org/checklink

(33)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

tehnici clasice așa-zis „demodate”:

interschimb de adrese (link-uri) banner-e, blogroll-uri

marketing bazat pe context – e.g., produse/servicii înrudite

(34)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Realizarea legăturilor între pagini (hipermedia)

recurgerea la aplicații Web sociale SMO – Social Media Optimization partajare în rețeaua de „prieteni”,

apreciere, comentarii, opinii,…

S. Buraga, Design Patterns for Social (Web/mobile) Interactions, prelegere la materia Human-Computer Interaction, FII, UAIC, 2022

profs.info.uaic.ro/~busaco/teach/courses/hci/hci-film.html#week7

(35)

Dr. Sabin Buragaprofs.info.uaic.ro/~bu

de evitat paginile de eroare – 404 Not Found orice pagină de eroare poate fi „convertită”

într-o resursă folositoare omului/robotului uzual, se oferă harta sitului (site map),

legături relevante, motor intern de căutare,…

alistapart.com/article/perfect404 alistapart.com/article/amoreuseful404

(36)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Realizarea legăturilor între pagini (hipermedia)

a nu se folosi navigarea bazată pe JavaScript ori pe

tehnologii proprietare și/sau învechite (Flash/Silverlight)

<p>participanții: <a href="javascript:sari(3);">aici</a></p>

<h5><a href="javascript:window.history.back();">la prima pagină</a></h5>

(37)

Dr. Sabin Buragaprofs.info.uaic.ro

Alte aspecte de interes despre SEO?

(38)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Specificarea structurii unui sit Web

crearea documentului sitemap.xml

pentru a fi ulterior procesat de motorul de căutare www.sitemaps.org/protocol.html

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web datele pot fi furnizate

și în formatele Atom, RSS și text obișnuit

(39)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url>

<loc>https://moz.com/agency-solutions</loc>

<lastmod>2022-10-14T12:05:27-07:00</lastmod>

<changefreq>weekly</changefreq>

<priority>0.5</priority>

</url>

<!-- alte elemente url -->

</urlset>

instrument Web de generare: www.xml-sitemaps.com

(40)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Evitarea spam-ului Web

e.g., legături încrucișate între pagini similare ale aceluiași sit Web ori ale unei colecții de situri

motoarele de căutare detectează + penalizează spam-ul!

searchenginewatch.com/?s=spam

(41)

Dr. Sabin Buragaprofs.info.uaic.ro

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit, în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

(42)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit, în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

black-hat page cloaking

tehnică penalizată: support.google.com/webmasters/answer/66355

(43)

Dr. Sabin Buragaprofs.info.uaic.ro/~busa

Oferirea de conținut via documente

adoptând formate de date nestandardizate Titluri identice pentru toate paginile unui sit

Pagini de eroare oferite de server via codul de stare HTTP 200 Ok Redirecționări incorecte/malițioase Abuzul de transferuri asincrone (Ajax)

(44)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg

accesibilitatea – utilizatorii cu nevoi speciale Web Accessibility Initiative

www.w3.org/WAI/

Web Accessibility in Mind webaim.org

(45)

Dr. Sabin Buragaprofs.info.uaic.ro/~bu

trebuie considerată într-un context mai larg

performanța aplicațiilor Web aspect important:

timpul de încărcare a unei pagini Web

S. Buraga, „Performanţa aplicaţiilor Web la nivel de client”, 2020 profs.info.uaic.ro/~busaco/teach/courses/staw/web-film.html#week13

(46)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Resurse de interes:

Google Webmaster Central

developers.google.com/webmasters/

Learn SEO and Search Marketing moz.com/learn/seo

Search Engine Land searchengineland.com Search Engine Watch searchenginewatch.com Search Engine Roundtable

www.seroundtable.com

Search Engines @ VideoLectures

videolectures.net/Top/Computer_Science/Search_Engines

(47)

Dr. Sabin Buragaprofs.info.uaic.ro

Invisible Web (Deep Web)

acea parte a spațiului WWW care nu este detectată de motoarele de căutare sau

de alte tipuri de aplicații de regăsire a resurselor disponibile pe Web

(48)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Dark Web

acea parte a spațiului informațional reprezentat de Deep Web care în mod intenționat e ascunsă

și inaccesibilă via navigatoare Web comune exemplu notoriu:

rețele anonime (VPN – Virtual Private Network) accesate cu TOR Browser

(49)

Dr. Sabin Buragaprofs.info.uaic.ro

Cum am putea descrie conținutul resurselor Web

astfel încât să poată fi procesat automat?

(50)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Idee:

specificarea unor meta-date direct în cadrul documentelor HTML pentru a „explica”

unui program (software – e.g., robot al unui

motor de căutare) conținutul unei resurse Web

(51)

Dr. Sabin Buragaprofs.info.uaic.ro

Soluții actuale aliniate problematicilor Web-ului semantic – Web of Data

microformate (abordare învechită) – microformats.org scheme de microdate HTML5schema.org

RDFa (standard al Consorțiului Web) – rdfa.info

(52)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Microdata HTML 5

specificație HTML Living Standard (14 octombrie 2022) html.spec.whatwg.org/multipage/microdata.html

(53)

Dr. Sabin Buragaprofs.info.uaic.ro

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăți nume—valoare „scufundate” în documente HTML

(54)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

(55)

Dr. Sabin Buragaprofs.info.uaic.ro

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

stabilește și domeniul de vizibilitate

(56)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

specificarea unei proprietăți prin atributul itemprop

(57)

Dr. Sabin Buragaprofs.info.uaic.ro

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

pentru identificarea unui item se folosește itemid

(58)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

referire cu ajutorul atributului itemref

(59)

Dr. Sabin Buragaprofs.info.uaic.ro

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

(60)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Există o serie de modele de date (exprimate via microdate)

ce pot fi indexate și folosite

de actualele motoare de căutare?

(61)

Dr. Sabin Buragaprofs.info.uaic.ro

schema.org

colecție de vocabulare (scheme de date)

e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare

istoric și viziune:

R. Wallis, “Schema.org: Structured Data What, Why, & How”, 2018

www.slideshare.net/rjw/schemaorg-structured-data-the-what-why-how-125885618

(62)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

schema.org

colecție de vocabulare (scheme de date)

e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare

versiunea curentă: 14 (17 martie 2022)

schema.org/docs/releases.html

modele conceptuale

(63)

Dr. Sabin Buragaprofs.info.uaic.ro

amănunte la

schema.org/docs/gs.html

(64)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

tipurile primare de date definite de schema.org

(65)

Dr. Sabin Buragaprofs.info.uaic.ro

diverse proprietăți ce relaționează Integer cu alte concepte

(66)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Thing – schema cea mai generală, incluzând conceptualizări (clasificări realizate riguros)

Action

BroadcastService CreativeWork

Event

Intangible

MedicalEntity Organization Person

Place Product Class Property

modelare de cunoștințe (via o ontologie)

(67)

Dr. Sabin Buragaprofs.info.uaic.ro

Person – modelează conceptul „persoană”

http://schema.org/Person

(68)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

MusicRecording – specifică o înregistrare muzicală (sub-clasă a conceptului CreativeWork)

(69)

Dr. Sabin Buragaprofs.info.uaic.ro

schema.org

relațiile dintre entități sunt precizate via proprietăți

(70)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<div itemscope="" itemtype="http://schema.org/RealEstateAgent">

<span itemprop="name">Tuxy Unlimited</span>

<div itemprop="address" itemscope=""

itemtype="http://schema.org/PostalAddress">

<span itemprop="streetAddress">Banchiza, 1</span>

<span itemprop="addressLocality">Iasi</span>,

<span itemprop="addressRegion">Iasi</span>

<span itemprop="postalCode">700550</span>

</div>

Phone: <span itemprop="telephone">+4032201090</span>

<a href=

"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378"

itemprop="maps">Details on OpenStreetMap</a>

</div>

fapte vizând domeniul imobiliar

…pe baza modelului conceptual schema.org

(71)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<span itemprop="honorificPrefix">Dr. habil.</span>

<a href="https://profs.info.uaic.ro/~busaco/"

title="Visit the Website of Sabin-Corneliu Buraga" itemprop="url">

<span itemprop="name">

<span itemprop="givenName">Sabin</span>-

<span itemprop="additionalName">Corneliu</span>

<span itemprop="familyName">Buraga</span>

</span>

</a>.

</span>

</p>

specificarea (adnotarea explicită a) faptului:

„entitatea având numele Sabin-Corneliu Buraga este

o persoană, posedă titlul Dr. habil. și are situl Web propriu disponibil la adresa https://profs.info.uaic.ro/~busaco/”

(72)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<section id="web-nodejs">

<h2>Web Supplement</h2>

<ul>

<li itemscope="" itemtype="http://schema.org/CreativeWork"

itemid="#nodejs" class="lecture">

<p>Tutorial: <a itemprop="url" title="…"

href="presentations/web-nodejs.pdf">

<span itemprop="name">Web Application Development with Node.js</span></a>

</p>

<div class="terms" itemprop="keywords"> Web, development, server,

Node.js, JavaScript, programming, npm, tools</div>

</li>

</ul>

</section>

specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform schema.org

(73)

Dr. Sabin Buragaprofs.info.uaic.ro

extragerea/verificarea de date structurate via validator.schema.org

(74)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

extragerea meta-datelor din HTML5

concepte: WebPage Person CreativeWork aici, despre prelegerile asociate unei materii

(75)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<h2>Tema</h2>

<p itemprop="description">Concursul este destinat studenților

<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">

<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII>

<span itemprop="name">FII</span></a>

(UAIC <span itemprop="address">Iași, România</span>)</span>

și constă în optimizarea conținutului și structurii unui sit Web.</p>

<p>Perioadă de desfășurare:

<span itemprop="startDate" content="2018-10-15T00:00">15 octombrie 2018

</span>—<strong><span itemprop="endDate" content="2019-01-07T17:00">

7 ianuarie 2019, ora 17:00</span></strong>.</p>

</section>

</articol>

pe baza schema.org, se pot modela în HTML date

vizând un eveniment (Event) și locul de desfășurare (Place)

(76)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi

(77)

Dr. Sabin Buragaprofs.info.uaic.ro

inspectarea datelor structurate cu OpenLink Structured Data Sniffer – extensie de browser: osds.openlinksw.com

o instanță ImageObject

specificarea meta-datelor privitoare la instanța din clasa MusicRelease

(78)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<div itemscope="" itemtype="http://schema.org/Product">

<img itemprop="image" src="tux-de-catifea-cu-paiete.jpg" />

<span itemprop="name" lang="ro">Tux de catifea cu paiete</span>

<div itemprop="aggregateRating"

itemscope="" itemtype="http://schema.org/AggregateRating">

<span itemprop="ratingValue">74</span>

din <span itemprop="bestRating">100</span> de puncte

pe baza a <span itemprop="ratingCount">33</span> de evaluări ale utilizatorilor

</div>

<div itemprop="offers" itemscope=""

itemtype="http://schema.org/AggregateOffer">disponibil de la

<span itemprop="lowPrice">30</span> la <span itemprop="highPrice">

130</span> de RON pe baza ofertei a

<span itemprop="offerCount">10</span> comercianți Oferta zilei:

<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">

<a itemprop="url" href="http://jucarii.biz/tucsi/tux-catifea-paiete">

Jucării de sărbători pentru toți, acum și cu paiete!</a>

</div>

</div>

</div> modelarea cunoștințelor privind

produse și oferte comerciale

(79)

Dr. Sabin Buragaprofs.info.uaic.ro

meta-date despre un film exprimate de conceptul Rating

proprietăți: ratingValue bestRating worstRating

utilizarea conceptului VideoObject

alte exemplificări: pinterest.com/kidehen/structured-metadata-related/

(80)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

TripAdvisor

utilizarea conceptelor Country și AggregateRating

proprietate: reviewCount

meta-date vizând un articol CreativeWork proprietăți: datePublished headline text

(81)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

modelarea interacțiunii cu utilizatorul:

SpeakableSpecification SearchAction

și precizarea conținutului:

ReviewNewsArticle WebSite

(82)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

acțiuni asociate vizualizării unui produs (instanță a clasei Product) – detalii la schema.org/docs/actions.html

vezi și Increase user engagement with actions in emails developers.google.com/gmail/markup/

eBay

acțiuni ce pot fi efectuate de utilizator (ViewAction e sub-concept al Action) context: dispozitive mobile, e-mail,…

(83)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

artefacte culturale

vezi prezentările lui A. Isaac despre proiectul Europeana

www.slideshare.net/antoineisaac/presentations

biblioteci digitale (digital libraries)

R. Wallis, prelegeri la Smart Data’15, BIBFRAME’18,…

www.slideshare.net/rjw/presentations

lucrări științifice

formatul Scholarly HTML

w3c.github.io/scholarly-html/

finanțe

extensia schema.org privitoare la FIBO (Financial Industry Business Ontology)

wiki.edmcouncil.org • schema.org/FinancialProduct

(84)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

medicină + sănătate

concepte: MedicalEntity MedicalCondition Drug MedicalGuideline Patient

schema.org/docs/meddocs.html

medicină

(85)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

LocalBusiness Place LodgingBusiness BedAndBreakfast Campground Hostel Hotel Motel Resort SkiResort Accomodation Demand TravelAgency

OfferCatalog TouristInformationCenter AdministrativeArea ContactPoint OwnershipInfo LocationFeatureSpecification HotelRoom FloorPlan Map

GeoCoordinates GeoShape OpeningHoursSpecification Event

<div itemscope itemtype="https://schema.org/Hotel">

<h1><span itemprop="name">Tuxy Hotel</span></h1>

<span itemprop="description">...</span>

Hotel Features:

<div itemprop="amenityFeature" itemscope

itemtype="https://schema.org/LocationFeatureSpecification">

<span itemprop="name">Sauna</span><meta itemprop="value" content="True">

</div>

<div itemprop="hoursAvailable" itemscope

itemtype="https://schema.org/OpeningHoursSpecification">

<link itemprop="dayOfWeek"

href="http://purl.org/goodrelations/v1#Thursday" />(Open Thursdays

<time itemprop="opens" content="11:00:00">11:00 AM</time> -

<time itemprop="closes" content="22:00:00">22:00 PM</time>)

</div>

</div> detalii: schema.org/docs/hotels.html

(86)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

industria auto

concepte: Car CarUsageType EngineSpecification SteeringPositionValue

schema.org/docs/automotive.html

(87)

Dr. Sabin Buragaprofs.info.uaic.ro/~

Rich Results Test

search.google.com/test/rich-results

(88)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

Studiu de caz:

adnotarea semantică via microdate HTML5 a datelor în contextul interacțiunii om-calculator

Persona și teste de utilizabilitate (Ștefan Negru & Sabin Buraga, 2012)

blankdots.com/open/schema/

(89)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

context:

Human Computer Interaction

profs.info.uaic.ro/~busaco/teach/courses/hci/

(90)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

<article itemscope itemtype="http://schema.org/Persona">

<section id="personal-info">

<h3>Type: <strong itemprop="personaType">Primary</strong></h3>

<figure><img itemprop="image" src="tux.jpg" alt="persona image" /></figure>

<h4>Identity: <span itemprop="givenName">Tuxy</span>

<span itemprop="familyName">Pinguinnesscool</span></h4>

<h4>Background</h4>

<ul>

<li>Date of Birth: <time itemprop="birthDate"

datetime="1980-10-30">30 October 1980</time></li>

<li>Gender: <span itemprop="gender">Male</span></li>

<li itemprop="location" itemscope itemtype="http://schema.org/Place">

Location: <span itemprop="name">Iasi, Romania</span></li>

<li>Tech Level:<span itemprop="technicalLevel">Advanced</span></li>

</ul>

</section>

<section id="goals">

<h4>Goals</h4>

<ul>

<li>Practical Goals: <span itemprop="endGoal">…</span></li>

<li>Personal Goals: <span itemprop="experienceGoal">…</span></li>

</ul>

</section>

</article>

moștenite de la Person

(91)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

DokuWiki

www.dokuwiki.org/plugin:semantic

Joomla

extensions.joomla.org/extension/google-structured-data/

extensions.joomla.org/extension/tf-structured-data/

MediaWiki

www.mediawiki.org/wiki/Extension:GoogleRichCards

TYPO3

extensions.typo3.org/extension/schema_org/

WordPress

wordpress.org/plugins/all-in-one-schemaorg-rich-snippets/

(92)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

exemplu autohton: preluare și export de microformate, microdate HTML5 și RDFa cu extensia POSHex

Tiberiu Pasat (absolvent FII, 2013)

(93)

Dr. Sabin Buragaprofs.info.uaic.ro

statistici (17 oct. 2022) vizând includerea de meta-date direct

în codul HTML

trends.builtwith.com/docinfo

(94)

Dr. Sabin Buragaprofs.info.uaic.ro/~busaco

rezumat

specificarea (meta-)datelor

în cadrul

documentelor

HTML

Referințe

DOCUMENTE SIMILARE

include un interpretor (parser) HTML conform tipului de document Web – DTD..

– Click de dreapta pe tab-ul corespunzător foii de calcul + VIEW CODE. – Selectare Worksheet +

specificație vizând realizarea de animații prin program la nivel de document sau element HTML. în stadiu de ciornă la Consorțiul Web (28 octombrie

unei boli care se răspândește la câțiva oameni, apoi de la aceștia la și mai multe persoane și așa mai departe, până când un mare număr de persoane sunt infectate, numai

JDBC (Java Database Connectivity) este tehnologia Java de acces la baze de date relaționale.. Este independentă de tipul bazei

V.9.3. Se vor lua în considerare doar certificatele internaționale de competență lingvistică, conform tabelului de mai sus, ale candidaților care aplică la un program

• Performanta fara indecsi este atat de buna ca uneori are sens sa renuntam la indecsi atunci cand incarcam cantitati mari de date (indecsii nu trebuie refacuti in timpul

- Metodologia privind desemnarea și alegerea Consiliului pentru Studii Universitare de Doctorat și a Consiliului Școlii Doctorale în cadrul Universității de