Dr. Sabin Buragaprofs.info.uaic.ro/~busa
</>
date structurate în cadrul documentelor HTML scheme de microdate HTML5
Dr. Sabin Corneliu Buraga – profs.info.uaic.ro/~busaco/
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
“I chose HTML not to be a programming language because I wanted different programs to do different
things with it: present it differently,
extract tables of contents, index it, and so on.”
Tim Berners-Lee
www.w3.org/DesignIssues/Principles.html
Dr. Sabin Buragaprofs.info.uaic.ro
Constatare
clientul care consumă (accesează) reprezentări
de resurse Web nu trebuie obligatoriu să fie uman
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Roboți
programe ce traversează automat Web-ul, cu scopul de a extrage date
spiders, crawlers, Web bots
robot Web navigator Web
Dr. Sabin Buragaprofs.info.uaic.ro
pornind de la un URL, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse
– uzual, HTML – și, recursiv, din toate resursele (documentele) desemnate de legăturile existente
în cadrul reprezentării
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Roboți
pornind de la un URL, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse
– uzual, HTML – și, recursiv, din toate resursele (documentele) desemnate de legăturile existente
în cadrul reprezentării
acțiuni: extrage de date, copiere, agregare de conținut, monitorizare, realizare a unui rezumat etc.
Dr. Sabin Buragaprofs.info.uaic.ro/~busa
Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...)
uzual, va fi folosit câmpul User-Agent din antetul unei cereri HTTP
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
roboți: identificare
Ai motoarelor de căutare majore
Baidu – Baiduspider: www.baidu.com/search/spider.html
Bing – Bingbot, BingPreview, AdIxBot
www.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0
DuckDuckGo – duckduckgo.com/duckduckbot
Google – APIs-Google, AdSense, AdsBot, Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video,…
support.google.com/webmasters/answer/1061943
Yahoo! – Slurp: help.yahoo.com/help/us/ysearch/slurp
Yandex – YandexBot, YandexImages etc.:
yandex.com/support/webmaster/robot-workings/check-yandex-robots.html
Dr. Sabin Buragaprofs.info.uaic.ro/~busa
Specializați
e.g., validarea codului HTML, scurtarea lungimii URL-urilor, scanare de vulnerabilități, statistici,
arhivarea conținutului disponibil pe Web,…
exemplificări: ChangeDetection, citeseerxbot, Distill, Feedity, Heritrix (folosit de archive.org),
extensii Nagios, Scrapy, W3C Validator
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
roboți: identificare
Personali
rulați de utilizatori
exemplificare: software de „oglindire” (copiere) a conținutului unui (fragment de) sit Web
aplicații notorii disponibile în regim deschis:
curl – curl.haxx.se/ wget – www.gnu.org/software/wget/
Dr. Sabin Buragaprofs.info.uaic.ro/~busa
Roboți (potențial) malefici
pot cauza breșe de securitate, exploatând diverse vulnerabilități ale siturilor/aplicațiilor Web
exemple tipice:
spam – inclusiv JS/PHP/SQL/link injection, illegal content scraping (e.g. credit card info), click fraud, refuz de servicii,
mistificarea datelor + manipularea utilizatorilor
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
roboți: identificare
Roboți (potențial) malefici
fenomenul Bad Bots as-a-Service
trafic total cauzat de roboții Web malefici: 24.1%
din care în sectorul financiar: 48%, educație: 46%, IT: 45%
(raport Imperva, aprilie 2020 pentru anul 2019)
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
66.249.65.70 - - [09/Nov/2019:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/
HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible;
Googlebot/2.1; +http://www.google.com/bot.html)"
180.76.5.101 - - [09/Nov/2019:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-"
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
98.137.206.250 - - [09/Nov/2019:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
157.55.39.73 - - [09/Nov/2019:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403 220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
208.115.111.71 - - [09/Nov/2019:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-"
"Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"
63.249.66.212 - - [09/Nov/2019:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-"
"Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"
66.249.65.70 - - [09/Nov/2019:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1"
304 - "-" "Googlebot-Image/1.0"
157.55.39.177 - - [09/Nov/2019:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot- media/1.1 (+http://search.msn.com/msnbot.htm)"
136.243.9.23 - - [09/Nov/2019:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-"
"Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"
cereri HTTP efectuate de diverși roboți Web (menționate în fișierul de jurnalizare Apache)
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
statistici + detalii:
www.botsvsbrowsers.org
Dr. Sabin Buragaprofs.info.uaic.ro
Cum putem „instrui” roboții Web
să nu viziteze anumite zone ale sitului?
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Orice robot trebuie să respecte standardul de excludere
„inhibă” vizitarea anumitor zone (secțiuni) ale unui sit Web
în rădăcina unui domeniu Web se poate plasa fișierul robots.txt
www.robotstxt.org/robotstxt.html
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
User-agent: * # toți roboții
Crawl-delay: 5 # 5 sec. între cereri Sitemap: https://developer.mozilla.org/sitemap.xml
Disallow: /admin/ # căi ce nu trebuie vizitate Disallow: /*/dashboards/*
Disallow: /*docs/feeds ...
fișierul robots.txt poate cuprinde extensii recunoscute doar de un anumit crawler Web
cazul Google:
developers.google.com/search/reference/robots_txt
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
de studiat câteva exemple reale de fișiere robots.txt:
www.amazon.com/robots.txt www.facebook.com/robots.txt
github.com/robots.txt www.google.com/robots.txt
User-agent: * Disallow: /user/*
Disallow: /addtocart*
Disallow: /proces_comanda Disallow: /cart/*
Disallow: /checkout Disallow: /imagini/*
Disallow: /images/*
Disallow: /compare/*
Disallow: /thank-you$
Disallow: /cat-*/pid-*/ord-*/p-*
Disallow: /adauga-review Disallow: /adauga-intrebare
Disallow: /header-cart Disallow: /header-wl
Disallow: /product_get_recommandations/*
Disallow: /get_back_to_search_url Disallow: /search-tools/*
Disallow: /ajax_live_products Disallow: /box_user_history
Disallow: /gr_box_bottom_landing/*
Disallow: /site_ajax_ads Allow: /*/*/*all-products User-agent: 008
Disallow: /
Dr. Sabin Buragaprofs.info.uaic.ro
Orice robot trebuie să respecte standardul de excludere
evitarea indexării conținutului:
<meta name="robots" content="noindex, nofollow" />
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
timp strategie
înainte de 2000
conținut – indexarea textului
(titlu, anteturi, URL, descriere via <meta>)
2000—2010 conținut
autoritate (via legături desemnate de URL-uri)
2010—
prezent
conținut autoritate
personalizare (social media + profil utilizator)
2012—
prezent
conținut autoritate
personalizare
concepte (date structurate + Web of data) context (localizare geo, limbă, timp, dispozitiv,…)
adaptare după (K. Bodnar & J. Hopkins, 2011)
Dr. Sabin Buragaprofs.info.uaic.ro
OpenSearchServer, Sphinx, Xapian,…
API-uri publice:
www.programmableweb.com/category/search
disponibilitatea datelor indexate în regim deschis în vederea analizării ulterioare:
commoncrawl.org
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
În ce mod prezentăm conținutul
altor clienți – diferiți de cei umani?
Dr. Sabin Buragaprofs.info.uaic.ro
Cum trebuie scris codul HTML
pentru a obține o relevanță bună a conținutului
preluat de roboții Web?
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
SEO – Search Engine Optimization
suită de strategii de redactare a codului HTML în vederea obținerii unei relevanțe ridicate a conținutului, astfel încât pagina/situl să fie regăsite în urma unei căutări specifice efectuate
cu un instrument de căutare
Dr. Sabin Buragaprofs.info.uaic.ro
Structurarea codului-sursă al documentelor Web Structurarea conținutului (textual, grafic,…)
Structurarea legăturilor cu alte resurse
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)
titluri plasate ierarhic via elementele <h1>, <h2>,…
conținut tabelar cu <table>
aranjament vizual (layout)
via stiluri CSS și nu tabele (<table> <tr>…)
Dr. Sabin Buragaprofs.info.uaic.ro
Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)
divizarea conținutului:
<section> <article> <header> <footer> <aside> etc.
marcajarea elementelor vizând navigabilitatea cu <nav>
liste specificate cu <ul> <ol> <li>
…
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
h1
nav
aside section
h2
ul
h2
article p
header
Dr. Sabin Buragaprofs.info.uaic.ro
Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)
conținut textual alternativ pentru imagini (<img alt="..." />), legături (<a title="...">), tabele (<table summary="...">),
multimedia,…
atașarea de meta-date externe în antetul paginii Web via <head>, <meta /> și <link />
J. Buchea, A guide to <head> elements (2021) – htmlhead.dev
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Se recurge la semnificația logică a marcatorilor HTML POSH (Plain Old Semantic HTML)
de evitat elementele învechite – e.g., cadre (frame-uri) – sau proprietare (<blink> ori <marquee>)
documentul trebuie să fie bine-formatat
verificarea corectitudinii codului HTML cu instrumentul oferit de Consorțiul Web – validator.w3.org
a se considera și html5boilerplate.com
Dr. Sabin Buragaprofs.info.uaic.ro/~
o importanță majoră o are titlul paginii
Untitled Document – 68.8 de milioane de rezultate redate de Google
situl trebuie actualizat periodic, frecvent numele fișierelor (imagini, stiluri,…) contează
tehnică utilă:
„rescrierea” URL-urilor – e.g., mod_rewrite la Apache
anumite date pot fi „ascunse” de roboți via robots.txt
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Realizarea legăturilor între pagini (hipermedia)
obligatoriu, de inclus legături spre alte resurse (ale sitului propriu ori ale altor situri)
dorim legături spre/de la situri importante având conținut similar cu situl nostru
de verificat și menținut structura hipertextului
instrumentul LinkChecker – validator.w3.org/checklink
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
tehnici clasice așa-zis „demodate”:
interschimb de adrese (link-uri) – banner-e, blogroll-uri
marketing bazat pe context – e.g., produse/servicii înrudite
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Realizarea legăturilor între pagini (hipermedia)
recurgerea la aplicații Web sociale SMO – Social Media Optimization partajare în rețeaua de „prieteni”,
apreciere, comentarii, opinii,…
S. Buraga, Design Patterns for Social (Web/mobile) Interactions, prelegere la materia Human-Computer Interaction, FII, UAIC, 2022
profs.info.uaic.ro/~busaco/teach/courses/hci/hci-film.html#week7
Dr. Sabin Buragaprofs.info.uaic.ro/~bu
de evitat paginile de eroare – 404 Not Found orice pagină de eroare poate fi „convertită”
într-o resursă folositoare omului/robotului uzual, se oferă harta sitului (site map),
legături relevante, motor intern de căutare,…
alistapart.com/article/perfect404 alistapart.com/article/amoreuseful404
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Realizarea legăturilor între pagini (hipermedia)
a nu se folosi navigarea bazată pe JavaScript ori pe
tehnologii proprietare și/sau învechite (Flash/Silverlight)
<p>participanții: <a href="javascript:sari(3);">aici</a></p>
<h5><a href="javascript:window.history.back();">la prima pagină</a></h5>
Dr. Sabin Buragaprofs.info.uaic.ro
Alte aspecte de interes despre SEO?
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Specificarea structurii unui sit Web
crearea documentului sitemap.xml
pentru a fi ulterior procesat de motorul de căutare www.sitemaps.org/protocol.html
complementar fișierului robots.txt
furnizează structura hipertext a unui sit Web datele pot fi furnizate
și în formatele Atom, RSS și text obișnuit
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://moz.com/agency-solutions</loc>
<lastmod>2022-10-14T12:05:27-07:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<!-- alte elemente url -->
</urlset>
instrument Web de generare: www.xml-sitemaps.com
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Evitarea spam-ului Web
e.g., legături încrucișate între pagini similare ale aceluiași sit Web ori ale unei colecții de situri
motoarele de căutare detectează + penalizează spam-ul!
searchenginewatch.com/?s=spam
Dr. Sabin Buragaprofs.info.uaic.ro
Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit, în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit, în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
black-hat page cloaking
tehnică penalizată: support.google.com/webmasters/answer/66355
Dr. Sabin Buragaprofs.info.uaic.ro/~busa
Oferirea de conținut via documente
adoptând formate de date nestandardizate Titluri identice pentru toate paginile unui sit
Pagini de eroare oferite de server via codul de stare HTTP 200 Ok Redirecționări incorecte/malițioase Abuzul de transferuri asincrone (Ajax)
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg
accesibilitatea – utilizatorii cu nevoi speciale Web Accessibility Initiative
www.w3.org/WAI/
Web Accessibility in Mind webaim.org
Dr. Sabin Buragaprofs.info.uaic.ro/~bu
trebuie considerată într-un context mai larg
performanța aplicațiilor Web aspect important:
timpul de încărcare a unei pagini Web
S. Buraga, „Performanţa aplicaţiilor Web la nivel de client”, 2020 profs.info.uaic.ro/~busaco/teach/courses/staw/web-film.html#week13
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Resurse de interes:
Google Webmaster Central
developers.google.com/webmasters/
Learn SEO and Search Marketing moz.com/learn/seo
Search Engine Land searchengineland.com Search Engine Watch searchenginewatch.com Search Engine Roundtable
www.seroundtable.com
Search Engines @ VideoLectures
videolectures.net/Top/Computer_Science/Search_Engines
Dr. Sabin Buragaprofs.info.uaic.ro
Invisible Web (Deep Web)
acea parte a spațiului WWW care nu este detectată de motoarele de căutare sau
de alte tipuri de aplicații de regăsire a resurselor disponibile pe Web
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Dark Web
acea parte a spațiului informațional reprezentat de Deep Web care în mod intenționat e ascunsă
și inaccesibilă via navigatoare Web comune exemplu notoriu:
rețele anonime (VPN – Virtual Private Network) accesate cu TOR Browser
Dr. Sabin Buragaprofs.info.uaic.ro
Cum am putea descrie conținutul resurselor Web
astfel încât să poată fi procesat automat?
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Idee:
specificarea unor meta-date direct în cadrul documentelor HTML pentru a „explica”
unui program (software – e.g., robot al unui
motor de căutare) conținutul unei resurse Web
Dr. Sabin Buragaprofs.info.uaic.ro
Soluții actuale aliniate problematicilor Web-ului semantic – Web of Data
microformate (abordare învechită) – microformats.org scheme de microdate HTML5 – schema.org
RDFa (standard al Consorțiului Web) – rdfa.info
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Microdata HTML 5
specificație HTML Living Standard (14 octombrie 2022) html.spec.whatwg.org/multipage/microdata.html
Dr. Sabin Buragaprofs.info.uaic.ro
Microdata HTML 5
posibilitatea de a specifica perechi de proprietăți nume—valoare „scufundate” în documente HTML
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
Dr. Sabin Buragaprofs.info.uaic.ro
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
creare via atributul itemscope
stabilește și domeniul de vizibilitate
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
specificarea unei proprietăți prin atributul itemprop
Dr. Sabin Buragaprofs.info.uaic.ro
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
pentru identificarea unui item se folosește itemid
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
referire cu ajutorul atributului itemref
Dr. Sabin Buragaprofs.info.uaic.ro
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
asocierea unui tip de date se face cu atributul itemtype
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Există o serie de modele de date (exprimate via microdate)
ce pot fi indexate și folosite
de actualele motoare de căutare?
Dr. Sabin Buragaprofs.info.uaic.ro
schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare
istoric și viziune:
R. Wallis, “Schema.org: Structured Data – What, Why, & How”, 2018
www.slideshare.net/rjw/schemaorg-structured-data-the-what-why-how-125885618
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare
versiunea curentă: 14 (17 martie 2022)
schema.org/docs/releases.html
modele conceptuale
Dr. Sabin Buragaprofs.info.uaic.ro
amănunte la
schema.org/docs/gs.html
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
tipurile primare de date definite de schema.org
Dr. Sabin Buragaprofs.info.uaic.ro
diverse proprietăți ce relaționează Integer cu alte concepte
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Thing – schema cea mai generală, incluzând conceptualizări (clasificări realizate riguros)
Action
BroadcastService CreativeWork
Event
Intangible
MedicalEntity Organization Person
Place Product Class Property
modelare de cunoștințe (via o ontologie)
Dr. Sabin Buragaprofs.info.uaic.ro
Person – modelează conceptul „persoană”
http://schema.org/Person
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
MusicRecording – specifică o înregistrare muzicală (sub-clasă a conceptului CreativeWork)
Dr. Sabin Buragaprofs.info.uaic.ro
schema.org
relațiile dintre entități sunt precizate via proprietăți
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<div itemscope="" itemtype="http://schema.org/RealEstateAgent">
<span itemprop="name">Tuxy Unlimited</span>
<div itemprop="address" itemscope=""
itemtype="http://schema.org/PostalAddress">
<span itemprop="streetAddress">Banchiza, 1</span>
<span itemprop="addressLocality">Iasi</span>,
<span itemprop="addressRegion">Iasi</span>
<span itemprop="postalCode">700550</span>
</div>
Phone: <span itemprop="telephone">+4032201090</span>
<a href=
"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378"
itemprop="maps">Details on OpenStreetMap</a>
</div>
fapte vizând domeniul imobiliar
…pe baza modelului conceptual schema.org
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<span itemprop="honorificPrefix">Dr. habil.</span>
<a href="https://profs.info.uaic.ro/~busaco/"
title="Visit the Website of Sabin-Corneliu Buraga" itemprop="url">
<span itemprop="name">
<span itemprop="givenName">Sabin</span>-
<span itemprop="additionalName">Corneliu</span>
<span itemprop="familyName">Buraga</span>
</span>
</a>.
</span>
</p>
specificarea (adnotarea explicită a) faptului:
„entitatea având numele Sabin-Corneliu Buraga este
o persoană, posedă titlul Dr. habil. și are situl Web propriu disponibil la adresa https://profs.info.uaic.ro/~busaco/”
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<section id="web-nodejs">
<h2>Web Supplement</h2>
<ul>
<li itemscope="" itemtype="http://schema.org/CreativeWork"
itemid="#nodejs" class="lecture">
<p>Tutorial: <a itemprop="url" title="…"
href="presentations/web-nodejs.pdf">
<span itemprop="name">Web Application Development with Node.js</span></a>
</p>
<div class="terms" itemprop="keywords"> Web, development, server,
Node.js, JavaScript, programming, npm, tools</div>
</li>
…
</ul>
</section>
specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform schema.org
Dr. Sabin Buragaprofs.info.uaic.ro
extragerea/verificarea de date structurate via validator.schema.org
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
extragerea meta-datelor din HTML5
concepte: WebPage Person CreativeWork aici, despre prelegerile asociate unei materii
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<h2>Tema</h2>
<p itemprop="description">Concursul este destinat studenților
<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">
<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII>
<span itemprop="name">FII</span></a>
(UAIC <span itemprop="address">Iași, România</span>)</span>
și constă în optimizarea conținutului și structurii unui sit Web.</p>
…
<p>Perioadă de desfășurare:
<span itemprop="startDate" content="2018-10-15T00:00">15 octombrie 2018
</span>—<strong><span itemprop="endDate" content="2019-01-07T17:00">
7 ianuarie 2019, ora 17:00</span></strong>.</p>
</section>
…
</articol>
pe baza schema.org, se pot modela în HTML date
vizând un eveniment (Event) și locul de desfășurare (Place)
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi
Dr. Sabin Buragaprofs.info.uaic.ro
inspectarea datelor structurate cu OpenLink Structured Data Sniffer – extensie de browser: osds.openlinksw.com
o instanță ImageObject
specificarea meta-datelor privitoare la instanța din clasa MusicRelease
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<div itemscope="" itemtype="http://schema.org/Product">
<img itemprop="image" src="tux-de-catifea-cu-paiete.jpg" />
<span itemprop="name" lang="ro">Tux de catifea cu paiete</span>
<div itemprop="aggregateRating"
itemscope="" itemtype="http://schema.org/AggregateRating">
<span itemprop="ratingValue">74</span>
din <span itemprop="bestRating">100</span> de puncte
pe baza a <span itemprop="ratingCount">33</span> de evaluări ale utilizatorilor
</div>
<div itemprop="offers" itemscope=""
itemtype="http://schema.org/AggregateOffer">disponibil de la
<span itemprop="lowPrice">30</span> la <span itemprop="highPrice">
130</span> de RON pe baza ofertei a
<span itemprop="offerCount">10</span> comercianți Oferta zilei:
<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">
<a itemprop="url" href="http://jucarii.biz/tucsi/tux-catifea-paiete">
Jucării de sărbători pentru toți, acum și cu paiete!</a>
</div>
</div>
</div> modelarea cunoștințelor privind
produse și oferte comerciale
Dr. Sabin Buragaprofs.info.uaic.ro
meta-date despre un film exprimate de conceptul Rating
proprietăți: ratingValue bestRating worstRating
utilizarea conceptului VideoObject
alte exemplificări: pinterest.com/kidehen/structured-metadata-related/
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
TripAdvisor
utilizarea conceptelor Country și AggregateRating
proprietate: reviewCount
meta-date vizând un articol CreativeWork proprietăți: datePublished headline text
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
modelarea interacțiunii cu utilizatorul:
SpeakableSpecification SearchAction
și precizarea conținutului:
ReviewNewsArticle WebSite
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
acțiuni asociate vizualizării unui produs (instanță a clasei Product) – detalii la schema.org/docs/actions.html
vezi și Increase user engagement with actions in emails developers.google.com/gmail/markup/
eBay
acțiuni ce pot fi efectuate de utilizator (ViewAction e sub-concept al Action) context: dispozitive mobile, e-mail,…
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
artefacte culturale
vezi prezentările lui A. Isaac despre proiectul Europeana
www.slideshare.net/antoineisaac/presentations
biblioteci digitale (digital libraries)
R. Wallis, prelegeri la Smart Data’15, BIBFRAME’18,…
www.slideshare.net/rjw/presentations
lucrări științifice
formatul Scholarly HTML
w3c.github.io/scholarly-html/
finanțe
extensia schema.org privitoare la FIBO (Financial Industry Business Ontology)
wiki.edmcouncil.org • schema.org/FinancialProduct
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
medicină + sănătate
concepte: MedicalEntity MedicalCondition Drug MedicalGuideline Patient
schema.org/docs/meddocs.html
medicină
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
LocalBusiness Place LodgingBusiness BedAndBreakfast Campground Hostel Hotel Motel Resort SkiResort Accomodation Demand TravelAgency
OfferCatalog TouristInformationCenter AdministrativeArea ContactPoint OwnershipInfo LocationFeatureSpecification HotelRoom FloorPlan Map
GeoCoordinates GeoShape OpeningHoursSpecification Event
<div itemscope itemtype="https://schema.org/Hotel">
<h1><span itemprop="name">Tuxy Hotel</span></h1>
<span itemprop="description">...</span>
Hotel Features:
<div itemprop="amenityFeature" itemscope
itemtype="https://schema.org/LocationFeatureSpecification">
<span itemprop="name">Sauna</span><meta itemprop="value" content="True">
</div>
<div itemprop="hoursAvailable" itemscope
itemtype="https://schema.org/OpeningHoursSpecification">
<link itemprop="dayOfWeek"
href="http://purl.org/goodrelations/v1#Thursday" />(Open Thursdays
<time itemprop="opens" content="11:00:00">11:00 AM</time> -
<time itemprop="closes" content="22:00:00">22:00 PM</time>)
</div>
</div> detalii: schema.org/docs/hotels.html
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
industria auto
concepte: Car CarUsageType EngineSpecification SteeringPositionValue
schema.org/docs/automotive.html
Dr. Sabin Buragaprofs.info.uaic.ro/~
Rich Results Test
search.google.com/test/rich-results
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
Studiu de caz:
adnotarea semantică via microdate HTML5 a datelor în contextul interacțiunii om-calculator
Persona și teste de utilizabilitate (Ștefan Negru & Sabin Buraga, 2012)
blankdots.com/open/schema/
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
context:
Human Computer Interaction
profs.info.uaic.ro/~busaco/teach/courses/hci/
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
<article itemscope itemtype="http://schema.org/Persona">
<section id="personal-info">
<h3>Type: <strong itemprop="personaType">Primary</strong></h3>
<figure><img itemprop="image" src="tux.jpg" alt="persona image" /></figure>
<h4>Identity: <span itemprop="givenName">Tuxy</span>
<span itemprop="familyName">Pinguinnesscool</span></h4>
<h4>Background</h4>
<ul>
<li>Date of Birth: <time itemprop="birthDate"
datetime="1980-10-30">30 October 1980</time></li>
<li>Gender: <span itemprop="gender">Male</span></li>
<li itemprop="location" itemscope itemtype="http://schema.org/Place">
Location: <span itemprop="name">Iasi, Romania</span></li>
<li>Tech Level:<span itemprop="technicalLevel">Advanced</span></li>
</ul>
</section>
<section id="goals">
<h4>Goals</h4>
<ul>
<li>Practical Goals: <span itemprop="endGoal">…</span></li>
<li>Personal Goals: <span itemprop="experienceGoal">…</span></li>
</ul>
</section>
</article>
moștenite de la Person
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
DokuWiki
www.dokuwiki.org/plugin:semantic
Joomla
extensions.joomla.org/extension/google-structured-data/
extensions.joomla.org/extension/tf-structured-data/
MediaWiki
www.mediawiki.org/wiki/Extension:GoogleRichCards
TYPO3
extensions.typo3.org/extension/schema_org/
WordPress
wordpress.org/plugins/all-in-one-schemaorg-rich-snippets/
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco
exemplu autohton: preluare și export de microformate, microdate HTML5 și RDFa cu extensia POSHex
Tiberiu Pasat (absolvent FII, 2013)
Dr. Sabin Buragaprofs.info.uaic.ro
statistici (17 oct. 2022) vizând includerea de meta-date direct
în codul HTML
trends.builtwith.com/docinfo
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco