Internet servisi

dr Dušan Ljubičić Beogradska akademija poslovnih i umetničkih strukovnih studija

Internet arhiv Internet arhiv

• Internet arhiv () je neprofitna digitalna biblioteka koja se bavi arhiviranjem veb-sajtova i drugih artefakata kulture u digitalnom formatu, sa ciljem da ih sačuva od nestanka i učini javno dostupnim • Prosečan vek veb stranice je oko 100 dana, dok većina članaka bude zaboravljena 5 minuta posle objavljivanja • Adresa sajta je https://archive.org

4/19/2020 Internet servisi – dr Dušan Ljubičić 2 Gde se koristi

4/19/2020 Internet servisi – dr Dušan Ljubičić 3 Podela sadržaja

• Sadržaji u Arhivu su podeljeni po vrsti medija na: 1) veb (web); 2) knjige i tekstovi (texts); 3) video (video); 4) zvuk (audio); 5) softver (software) i 6) slike (images)

• Klikom na neku od ikona prikazaće se istaknuti linkovi i top-kolekcije za svaku od arhiva, osim za veb, za koji se prikazuje polje za pretragu vejbek mašine

4/19/2020 Internet servisi – dr Dušan Ljubičić 4 Osnivač i sedište

• Internet arhiv je osnovao Bruster Kejl () u maju 1996. godine, sa ciljem da omogući univerzalni pristup kompletnom ljudskom znanju koji će svim ljudima biti dostupan u bilo koje vreme i besplatno • Podaci Internet arhiva su smešteni u data centrima u tri grada u Americi, a Bekap arhive se čuva u Amsterdamu i u biblioteci Alexandrina u Aleksandriji • Sedište Arhiva je u San Francisku

4/19/2020 Internet servisi – dr Dušan Ljubičić 5 Arhiviranje veba

• Arhiviranje veba je glavna aktivnost Internet arhiva • Za svaki arhivirani veb-sajt postoji od nekoliko do nekoliko stotina hiljada snimaka (snapshots) iz različitih vremenskih perioda • Vejbek mašina (Wayback Machine) je servis koji omogućava ljudima da pregledaju arhivirane verzije veb-sajtova • Ona dodaje vremensku dimenziju vebu

4/19/2020 Internet servisi – dr Dušan Ljubičić 6 Wayback Machine

• Vejbek mašina je direktno dostupna sa početne strane sajta https://archive.org i sa strane https://archive.org/web, koja se otvara klikom na ikonu veba ili klikom na waybackmachine • Adresa sajta čiju arhivu želimo da vidimo, kuca se u polju za pretragu (enter URL or keywords)

4/19/2020 Internet servisi – dr Dušan Ljubičić 7 Pretraga na nivou domena

• Umesto adrese sajta može se uneti i adresa domena, npr. ibm.com, arhive.com, blog.arhive.com, microsoft.com, google.com, bbs.edu.rs • Ako se pretraga vrši na nivou domena, vejbek mašina će prikazati arhivu i za sve poddomene • Iako izbacuje određene rezultate, Internet arhiv još uvek u potpunosti ne podržava za pretragu po ključnim rečima (maj, 2019)

4/19/2020 Internet servisi – dr Dušan Ljubičić 8 Rezultat pretrage

• Kao rezultat pretrage, vejbek mašina prikazuje kalendar sa kružno osenčenim datumima poslednje godine kada je sajt snimljen

4/19/2020 Internet servisi – dr Dušan Ljubičić 9 Rad sa kalendarom

• Godine su prikazane iznad kalendara • Klikom na broj godine dobija se kalendar sa snimcima za tu godinu • Iznad godina je naveden ukupan broj snimaka i vremenski interval u kojem su napravljeni • Pokazivanjem na osenčeni datum prikazaće se linkovi na snimke koji su urađeni taj dan • Klikom na link prikazaće se arhivirani sajt

4/19/2020 Internet servisi – dr Dušan Ljubičić 10 Rad sa kalendarom

• Krugovi koji označavaju datume kada su rađeni snimci mogu biti različite veličine i boje • Veličina kruga ukazuje na veći broj snimaka • Plava boja, koja se uglavnom pojavljuje, pokazuje da je snimak dobar • Zelena pokazuje da je u pitanju redirekcija, a narandžasta znači da URL nije pronađen, a crvena da je došlo do greške na serveru

4/19/2020 Internet servisi – dr Dušan Ljubičić 11 Primer

• Izgled sajta www.bbs.edu.rs 22. februara 2011. godine, odnosno ono što je crawl softver snimio tog dana u 22:04:42

4/19/2020 Internet servisi – dr Dušan Ljubičić 12 Šta se koristi

• Za pretraživanje veba i kopiranje veb stranica Internet arhiv koristi svoj crawl program , koji je razvio zajedno sa Nordic national libraries

• Najveći deo podataka kao donaciju Internet arhiv dobija od Alexa Internet i drugih kompanija koje se bave pretraživanjem i indeksiranjem veba

• Prikupljaju se samo podaci koji su javno dostupni

4/19/2020 Internet servisi – dr Dušan Ljubičić 13 Korisnici sami čuvaju stranice

• Korisnici takođe mogu i sami da arhiviraju željenu veb stranicu preko polja Save Page Now, koje je dostupno preko stranice https://archive.org/web ili preko pretplatničkog servisa Arhiv-it (https://archive-it.org), koji je Internet arhiv pokrenuo 2006. godine

4/19/2020 Internet servisi – dr Dušan Ljubičić 14 Kada je počelo

• Iako je još na samom početku počeo da arhivira veb stranice, Internet arhiv je tek u oktobru 1996. počeo sa masovnim arhiviranjem veba • Tokom prvih 6 godina arhivirano je preko 10 milijardi veb stranica • Međutim one su javnosti postale dostupne tek 2001. godine sa uvođenjem programa Wayback Machine, koji su napisali Bruster Kejl i Brus Džiliat (Bruce Gilliat)

4/19/2020 Internet servisi – dr Dušan Ljubičić 15 Interval arhiviranja

• Vejbek mašina veb stranice arhivira u varijabilnim vremenskim intervalima, koji se kreću od nekoliko sati od nekoliko dana, nedelja, meseci ili godina

• Za svaku stranicu vejbek mašina arhivira sadržaj koji se nalazi u samoj stranici i, kada je to moguće, sadržaj koji se nalazi na eksternim lokacijama (npr. slike)

4/19/2020 Internet servisi – dr Dušan Ljubičić 16 Ne arhivira se sve

• Vejbek mašina ne arhivira uvek sve stranice nekog domena • Stranice do kojih se dolazi sa većim brojem klikova od zadatog se ne arhiviraju • Stranice koje su izvan definisanog obima pretrage (DomainScope, HostScope, PathScope), takođe se ne arhiviraju • Takođe, postoje mnoge situacije u kojima vejbek mašina neće arhivirati kompletan sadržaj veb stranice, tako da će one biti prikazane nekompletne 4/19/2020 Internet servisi – dr Dušan Ljubičić 17 Ne arhivira se sve

• Nedostajaće neka slika, video, dinamički sadržaji koji se oslanjaju na serverski kôd neće raditi itd • Ne arhiviraju se stranice, ili delovi stranice koji su navedeni u datoteci robot.txt, npr. umesto slika koje su zabranjene preko datoteke robot.txt biće prikazani sivi okviri • Takođe treba imati u vidu da se veb stranice ne snimaju ponovo svaki put kada su ažurirane, tako da neće biti sačuvane sve njene promene • Na zahtev vlasnika sajta, određene strane mogu biti uklonjene iz arhive 4/19/2020 Internet servisi – dr Dušan Ljubičić 18 Archive-It

• Pretplatnički servis Internet arhiva, omogućava korisnicima da sami arhiviraju svoje veb stranice, pokrenut 2006. • Pretplatnici imaju punu kontrolu na svojim digitalnim sadržajem • Mogu da kreiraju svoje javne ili privatne kolekcije • Sadržaj se čuva u data centrima Internet arhiva i dostupan je sve vreme • Za razliku od vejbek mašine, Archive-it podržava punu tekstualnu pretragu

4/19/2020 Internet servisi – dr Dušan Ljubičić 19 Ko koristi Archive-It

• Koriste ga koledži, univerziteti, biblioteke, instituti, državne arhive, biblioteke, savezne institucije, muzeji, galerije umetnosti, javne biblioteke, lokalne uprave, nevladine organizacije itd.

4/19/2020 Internet servisi – dr Dušan Ljubičić 20 Alternativni sajtovi za arhiviranje veba

• Alternativni sajtovi za arhiviranje veba mogu da se podele na one koji omogućavaju : – samo pregledanje arhiviranih verzija (Archive.is, Screenshots, WebCite, Competitorscreenshots i Domain Tools) – kreiranje vlastite vejbek mašine (Pagefreezer i Actiance )

4/19/2020 Internet servisi – dr Dušan Ljubičić 21 Archive.is

• Archive.is (archive.is) je najbolja zamena za vejbek mašinu • Veb stranice čuva u HTML formatu i kao slike ekrana (screenshot) • Sa određenim ograničenjima HTML datoteka može da se preuzme • Baza podataka je oko 5% od veličine baze archive.org

4/19/2020 Internet servisi – dr Dušan Ljubičić 22 Archive.is

• Frekvencija snimanja je mala • Na primer, www.bbs.edu.rs snimljen je samo jednom, a na archive.org 171 put • Dubina snimanja je, takođe, mala • Obično se snima samo prva strana • Pored pregledanja, korisnici mogu da arhiviraju svoje veb stranice

4/19/2020 Internet servisi – dr Dušan Ljubičić 23 Archive.is

4/19/2020 Internet servisi – dr Dušan Ljubičić 24 WebCite

• (Webcitation.org) arhivira citirane veb stranice, i to onakve kakve su bile kada ih je neki autor citirao • Kako se na samom sajtu navodi, autori sve češće citiraju veb stranice i druge digitalne sadržaje • Po jednom istraživanju posle 27 meseci oko 13% tih sadržaja nestane • Drugi problem je što citirane stranice u međuvremenu mogu da se promene, tako da čitalac ne može da pronađe navedenu referencu 4/19/2020 Internet servisi – dr Dušan Ljubičić 25 Screenshots Domaintools

• (Screenshots.com) čuva slike ekrana samo prvih stranica veb-sajta. Omogućava uvid i u neke druge informacije o sajtu, kao što su vreme kad je sajt registrovan, broj vlasnika itd. Njegova baza je manja od 1% od baze archive.org • (Domaintools.com), isto kao i Screanshoots, koji koristi njegov API, veb stranicu snima kao sliku. Omogućava i dodatne informacije o sajtu kroz Whois servis

4/19/2020 Internet servisi – dr Dušan Ljubičić 26 Competitorscreenshots

• (Competitorscreenshots.com) se prvenstveno koristi za poređenje brendova

• Moguće je porediti slike veb stranica, imejl kampanju, aktivnosti na društvenim mrežama za prethodnih 60 dana sa besplatnim nalogom

• Za duže periode se plaća

• Koristi se kod izrade marketing strategije

4/19/2020 Internet servisi – dr Dušan Ljubičić 27 Druga grupa alternativnih rešenja

• Druga grupa alternativnih rešenja omogućava kreiranje privatne vejbek mašine • Ova rešenja pogodna su za kompanije koje moraju da prate promene na svojim veb-sajtovima, da prate aktivnosti na socijalnim mrežama i blogovima, objave i grupne diskusije zaposlenih itd. • Mnoge državne službe i finansijske institucije su po zakonu obavezne da ispune određene propise po ovim pitanjima

4/19/2020 Internet servisi – dr Dušan Ljubičić 28 Druga grupa alternativnih rešenja

• Ova rešenja su pogodna za praćenje promena kod konkurencije, ili nekih drugih sajtova od interesa • Treba imati u vidu da arhive koje postoje na Arhive.org na zahtev vlasnika sajta u svakom momentu mogu da budu uklonjene • Korisnici u ovom slučaju imaju punu kontrolu nad arhivom i mogu da podese intervale snimanja veb stranica. Snimaju se sve stranice domena i svi povezani digitalni sadržaji (video, audio, PDF itd.)

4/19/2020 Internet servisi – dr Dušan Ljubičić 29 Ostali servisi Internet arhiva

• Preostali sadržaj Internet arhiva podeljen je na 5 grupa: – knjige i tekstovi – Video – Audio – Softver – Slike

4/19/2020 Internet servisi – dr Dušan Ljubičić 30 Ostali servisi Internet arhiva

• Sadržaji mogu da se pretražuju po metapodacima • Pretraživanje po ključnim rečima još uvek u potpunosti nije omogućeno • Filtriranje sadržaja može da se radi po vrsti medija, po godini, po temama, kreatorima, jeziku i po kolekcijama • Kolekcije su tematske zbirke sadržaja koji pripadaju istoj grupi (knjige, video, audio, softver, slike)

4/19/2020 Internet servisi – dr Dušan Ljubičić 31 Ostali servisi Internet arhiva

• Kolekcije prave ovlašćena lica Internet arhiva na svoju ili inicijativu donatora sadržaja

• Prilikom poklanjanja sadržaja Internet arhivu, koji se uglavnom radi otpremanjem (upload) preko veb- sajta, donatori u okviru CC licence (CC - Creative Commons license) treba da navedu šta ljudi mogu da rade sa tim materijalom (npr. da ga slobodno koriste, dele, kreiraju nove sadržaje na osnovu njega itd.)

4/19/2020 Internet servisi – dr Dušan Ljubičić 32 Knjige i tekstovi

• Internet arhiv poseduje preko 20 miliona knjiga i tekstova koji se mogu besplatno preuzeti i preko 7 hiljada kolekcija • Mesečno se beleži preko 30 miliona preuzimanja • Takođe poseduje preko 1,3 miliona savremenih e-knjiga koje se uz besplatan nalog na archive.org mogu pozajmiti na period od dve nedelje • Knjige mogu da se čitaju preko veb pregledača ili preko e-book čitača Adobe Digital Edition. Preko 2,4 miliona knjiga je onlajn dostupno 4/19/2020 Internet servisi – dr Dušan Ljubičić 33 Biblioteke

• Arhiv takođe omogućava besplatan i anoniman pristup za preko 4 miliona sudskih mišljenja i pravnih izveštaja koji su preuzeti od saveznih sudova SAD • Svoju biblioteku Internet arhiv gradi kroz saradnju sa velikim brojem biblioteka i dobavljača sadržaja širom sveta, kroz svakodnevno skeniranje knjiga i dokumenata i kroz donacije • Microsoft je, pored finansijske podrške, Arhivi poklonio preko 300 hiljada skeniranih knjiga i opremu za skeniranje (2006 – 2008)

4/19/2020 Internet servisi – dr Dušan Ljubičić 34 Knjige, skeniranje

• Svoje knjige u digitalnoj formi autori (ili vlasnici prava) mogu da otpreme preko sajta Arhive • Knjige u fizičkom obliku mogu da predaju (pošalju) nekom od centara za skeniranje • Internet arhiv poseduje 33 centra za skeniranje na 5 kontinenata • Dnevno se skenira preko 1.000 knjiga • Internet arhiv je digitalizovao preko 2 miliona knjiga, arhivskog materijala, dnevnika, mapa, fotografija i drugih sadržaja 4/19/2020 Internet servisi – dr Dušan Ljubičić 35 Otvorena biblioteka

je projekat Internet arhiva iz 2007. godine koji ima za cilj da za svaku knjigu bilo kad objavljenu napravi po jednu veb stranicu • Open Library sadrži bibliografske podatke o knjigama i pruža pristup prema 1,7 miliona skeniranih knjiga • Bibliografski podaci sadrže i veze prema spoljnim mestima gde se knjige koje nisu dostupne preko Arhiva mogu kupiti (npr. Amazon ili najbliža knjižara) ili iznajmiti (npr. najbliža biblioteka)

4/19/2020 Internet servisi – dr Dušan Ljubičić 36 Otvorena biblioteka

• Informacije o knjigama se prikupljaju od drugih biblioteka, Amazona i drugih izvora • Već su urađene veb stranice za preko 20 miliona knjiga • Za osobe koje iz nekog razloga nisu u stanju da čitaju, ili žele da čuju knjigu, biblioteka je obezbedila veliki broj audio izdanja koja podržavaju i glasovnu navigaciju

4/19/2020 Internet servisi – dr Dušan Ljubičić 37 Zvuk

• Audio arhiva sadrži preko 8 miliona audio snimaka, uključujući muziku (koncerte, albume), audio knjige, radio emisije i vesti, čitanja poezije, podkast i druge snimke na engleskom i drugim jezicima • Sadrži preko 120 hiljada kolekcija • Većina ovih sadržaja je besplatno dostupna • Kod onih koji nisu, kao što su uglavnom muzički albumi, korisnici mogu da čuju po deo svake pesme

4/19/2020 Internet servisi – dr Dušan Ljubičić 38 LibriVox i Live Music Archive • LibriVox je zajednica volontera iz celog sveta koji snimaju javno dostupne tekstove, uključujući poeziju, knjige, kratke priče i drame • Sadržaji su besplatno dostupni sa stranica njihovog sajta • Internet arhive odvojeno hostuje snimke LibriVox-a u MP3 i Ogg Vorbis format • Live Music Archive sadrži veliki broj koncerata uživo koji može besplatno da se preuzme ili strimuje. Ovu arhivu održava Live Music Archive i volonteri 4/19/2020 Internet servisi – dr Dušan Ljubičić 39 Softver

• Internet arhiv ima najveću zbirku softvera i veliki broj povezanih materijala, uključujući računarske knjige i časopise, dokumentaciju, video vesti, CD-ROM omote, promocije i sl. • Pokriva preko 50 godina računarske istorije • Arhiv nije napravljen radi preuzimanja softvera, nego prvenstveno radi njegovog očuvanja • Stariji programi i igrice, koji više nisu aktualni, mogu da se pregledaju ili igraju preko odgovarajućeg emulatora koji se izvršava u veb pregledaču

4/19/2020 Internet servisi – dr Dušan Ljubičić 40 Slike

• Arhiv slika sadrži preko 3.4 miliona stavki, uključujući slike umetničkih dela iz muzeja umetnosti, fotografije koje je pravila NASA, različite umetničke fotografije, mape itd.

4/19/2020 Internet servisi – dr Dušan Ljubičić 41 Internet servisi

dr Dušan Ljubičić Beogradska akademija poslovnih i umetničkih strukovnih studija

Internet arhiv