Internet Servisi
Total Page:16
File Type:pdf, Size:1020Kb
Internet servisi dr Dušan Ljubičić Beogradska akademija poslovnih i umetničkih strukovnih studija Internet arhiv Internet arhiv • Internet arhiv (Internet Archive) je neprofitna digitalna biblioteka koja se bavi arhiviranjem veb-sajtova i drugih artefakata kulture u digitalnom formatu, sa ciljem da ih sačuva od nestanka i učini javno dostupnim • Prosečan vek veb stranice je oko 100 dana, dok većina članaka bude zaboravljena 5 minuta posle objavljivanja • Adresa sajta je https://archive.org 4/19/2020 Internet servisi – dr Dušan Ljubičić 2 Gde se koristi 4/19/2020 Internet servisi – dr Dušan Ljubičić 3 Podela sadržaja • Sadržaji u Arhivu su podeljeni po vrsti medija na: 1) veb (web); 2) knjige i tekstovi (texts); 3) video (video); 4) zvuk (audio); 5) softver (software) i 6) slike (images) • Klikom na neku od ikona prikazaće se istaknuti linkovi i top-kolekcije za svaku od arhiva, osim za veb, za koji se prikazuje polje za pretragu vejbek mašine 4/19/2020 Internet servisi – dr Dušan Ljubičić 4 Osnivač i sedište • Internet arhiv je osnovao Bruster Kejl (Brewster Kahle) u maju 1996. godine, sa ciljem da omogući univerzalni pristup kompletnom ljudskom znanju koji će svim ljudima biti dostupan u bilo koje vreme i besplatno • Podaci Internet arhiva su smešteni u data centrima u tri grada u Americi, a Bekap arhive se čuva u Amsterdamu i u biblioteci Alexandrina u Aleksandriji • Sedište Arhiva je u San Francisku 4/19/2020 Internet servisi – dr Dušan Ljubičić 5 Arhiviranje veba Wayback Machine • Arhiviranje veba je glavna aktivnost Internet arhiva • Za svaki arhivirani veb-sajt postoji od nekoliko do nekoliko stotina hiljada snimaka (snapshots) iz različitih vremenskih perioda • Vejbek mašina (Wayback Machine) je servis koji omogućava ljudima da pregledaju arhivirane verzije veb-sajtova • Ona dodaje vremensku dimenziju vebu 4/19/2020 Internet servisi – dr Dušan Ljubičić 6 Wayback Machine • Vejbek mašina je direktno dostupna sa početne strane sajta https://archive.org i sa strane https://archive.org/web, koja se otvara klikom na ikonu veba ili klikom na waybackmachine • Adresa sajta čiju arhivu želimo da vidimo, kuca se u polju za pretragu (enter URL or keywords) 4/19/2020 Internet servisi – dr Dušan Ljubičić 7 Pretraga na nivou domena • Umesto adrese sajta može se uneti i adresa domena, npr. ibm.com, arhive.com, blog.arhive.com, microsoft.com, google.com, bbs.edu.rs • Ako se pretraga vrši na nivou domena, vejbek mašina će prikazati arhivu i za sve poddomene • Iako izbacuje određene rezultate, Internet arhiv još uvek u potpunosti ne podržava za pretragu po ključnim rečima (maj, 2019) 4/19/2020 Internet servisi – dr Dušan Ljubičić 8 Rezultat pretrage • Kao rezultat pretrage, vejbek mašina prikazuje kalendar sa kružno osenčenim datumima poslednje godine kada je sajt snimljen 4/19/2020 Internet servisi – dr Dušan Ljubičić 9 Rad sa kalendarom • Godine su prikazane iznad kalendara • Klikom na broj godine dobija se kalendar sa snimcima za tu godinu • Iznad godina je naveden ukupan broj snimaka i vremenski interval u kojem su napravljeni • Pokazivanjem na osenčeni datum prikazaće se linkovi na snimke koji su urađeni taj dan • Klikom na link prikazaće se arhivirani sajt 4/19/2020 Internet servisi – dr Dušan Ljubičić 10 Rad sa kalendarom • Krugovi koji označavaju datume kada su rađeni snimci mogu biti različite veličine i boje • Veličina kruga ukazuje na veći broj snimaka • Plava boja, koja se uglavnom pojavljuje, pokazuje da je snimak dobar • Zelena pokazuje da je u pitanju redirekcija, a narandžasta znači da URL nije pronađen, a crvena da je došlo do greške na serveru 4/19/2020 Internet servisi – dr Dušan Ljubičić 11 Primer • Izgled sajta www.bbs.edu.rs 22. februara 2011. godine, odnosno ono što je crawl softver snimio tog dana u 22:04:42 4/19/2020 Internet servisi – dr Dušan Ljubičić 12 Šta se koristi • Za pretraživanje veba i kopiranje veb stranica Internet arhiv koristi svoj crawl program Heritrix, koji je razvio zajedno sa Nordic national libraries • Najveći deo podataka kao donaciju Internet arhiv dobija od Alexa Internet i drugih kompanija koje se bave pretraživanjem i indeksiranjem veba • Prikupljaju se samo podaci koji su javno dostupni 4/19/2020 Internet servisi – dr Dušan Ljubičić 13 Korisnici sami čuvaju stranice • Korisnici takođe mogu i sami da arhiviraju željenu veb stranicu preko polja Save Page Now, koje je dostupno preko stranice https://archive.org/web ili preko pretplatničkog servisa Arhiv-it (https://archive-it.org), koji je Internet arhiv pokrenuo 2006. godine 4/19/2020 Internet servisi – dr Dušan Ljubičić 14 Kada je počelo • Iako je još na samom početku počeo da arhivira veb stranice, Internet arhiv je tek u oktobru 1996. počeo sa masovnim arhiviranjem veba • Tokom prvih 6 godina arhivirano je preko 10 milijardi veb stranica • Međutim one su javnosti postale dostupne tek 2001. godine sa uvođenjem programa Wayback Machine, koji su napisali Bruster Kejl i Brus Džiliat (Bruce Gilliat) 4/19/2020 Internet servisi – dr Dušan Ljubičić 15 Interval arhiviranja • Vejbek mašina veb stranice arhivira u varijabilnim vremenskim intervalima, koji se kreću od nekoliko sati od nekoliko dana, nedelja, meseci ili godina • Za svaku stranicu vejbek mašina arhivira sadržaj koji se nalazi u samoj stranici i, kada je to moguće, sadržaj koji se nalazi na eksternim lokacijama (npr. slike) 4/19/2020 Internet servisi – dr Dušan Ljubičić 16 Ne arhivira se sve • Vejbek mašina ne arhivira uvek sve stranice nekog domena • Stranice do kojih se dolazi sa većim brojem klikova od zadatog se ne arhiviraju • Stranice koje su izvan definisanog obima pretrage (DomainScope, HostScope, PathScope), takođe se ne arhiviraju • Takođe, postoje mnoge situacije u kojima vejbek mašina neće arhivirati kompletan sadržaj veb stranice, tako da će one biti prikazane nekompletne 4/19/2020 Internet servisi – dr Dušan Ljubičić 17 Ne arhivira se sve • Nedostajaće neka slika, video, dinamički sadržaji koji se oslanjaju na serverski kôd neće raditi itd • Ne arhiviraju se stranice, ili delovi stranice koji su navedeni u datoteci robot.txt, npr. umesto slika koje su zabranjene preko datoteke robot.txt biće prikazani sivi okviri • Takođe treba imati u vidu da se veb stranice ne snimaju ponovo svaki put kada su ažurirane, tako da neće biti sačuvane sve njene promene • Na zahtev vlasnika sajta, određene strane mogu biti uklonjene iz arhive 4/19/2020 Internet servisi – dr Dušan Ljubičić 18 Archive-It • Pretplatnički servis Internet arhiva, omogućava korisnicima da sami arhiviraju svoje veb stranice, pokrenut 2006. • Pretplatnici imaju punu kontrolu na svojim digitalnim sadržajem • Mogu da kreiraju svoje javne ili privatne kolekcije • Sadržaj se čuva u data centrima Internet arhiva i dostupan je sve vreme • Za razliku od vejbek mašine, Archive-it podržava punu tekstualnu pretragu 4/19/2020 Internet servisi – dr Dušan Ljubičić 19 Ko koristi Archive-It • Koriste ga koledži, univerziteti, biblioteke, instituti, državne arhive, biblioteke, savezne institucije, muzeji, galerije umetnosti, javne biblioteke, lokalne uprave, nevladine organizacije itd. 4/19/2020 Internet servisi – dr Dušan Ljubičić 20 Alternativni sajtovi za arhiviranje veba • Alternativni sajtovi za arhiviranje veba mogu da se podele na one koji omogućavaju : – samo pregledanje arhiviranih verzija (Archive.is, Screenshots, WebCite, Competitorscreenshots i Domain Tools) – kreiranje vlastite vejbek mašine (Pagefreezer i Actiance ) 4/19/2020 Internet servisi – dr Dušan Ljubičić 21 Archive.is • Archive.is (archive.is) je najbolja zamena za vejbek mašinu • Veb stranice čuva u HTML formatu i kao slike ekrana (screenshot) • Sa određenim ograničenjima HTML datoteka može da se preuzme • Baza podataka je oko 5% od veličine baze archive.org 4/19/2020 Internet servisi – dr Dušan Ljubičić 22 Archive.is • Frekvencija snimanja je mala • Na primer, www.bbs.edu.rs snimljen je samo jednom, a na archive.org 171 put • Dubina snimanja je, takođe, mala • Obično se snima samo prva strana • Pored pregledanja, korisnici mogu da arhiviraju svoje veb stranice 4/19/2020 Internet servisi – dr Dušan Ljubičić 23 Archive.is 4/19/2020 Internet servisi – dr Dušan Ljubičić 24 WebCite • (Webcitation.org) arhivira citirane veb stranice, i to onakve kakve su bile kada ih je neki autor citirao • Kako se na samom sajtu navodi, autori sve češće citiraju veb stranice i druge digitalne sadržaje • Po jednom istraživanju posle 27 meseci oko 13% tih sadržaja nestane • Drugi problem je što citirane stranice u međuvremenu mogu da se promene, tako da čitalac ne može da pronađe navedenu referencu 4/19/2020 Internet servisi – dr Dušan Ljubičić 25 Screenshots Domaintools • (Screenshots.com) čuva slike ekrana samo prvih stranica veb-sajta. Omogućava uvid i u neke druge informacije o sajtu, kao što su vreme kad je sajt registrovan, broj vlasnika itd. Njegova baza je manja od 1% od baze archive.org • (Domaintools.com), isto kao i Screanshoots, koji koristi njegov API, veb stranicu snima kao sliku. Omogućava i dodatne informacije o sajtu kroz Whois servis 4/19/2020 Internet servisi – dr Dušan Ljubičić 26 Competitorscreenshots • (Competitorscreenshots.com) se prvenstveno koristi za poređenje brendova • Moguće je porediti slike veb stranica, imejl kampanju, aktivnosti na društvenim mrežama za prethodnih 60 dana sa besplatnim nalogom • Za duže periode se plaća • Koristi se kod izrade marketing strategije 4/19/2020 Internet servisi – dr Dušan Ljubičić 27 Druga grupa alternativnih rešenja • Druga grupa alternativnih rešenja omogućava kreiranje privatne vejbek mašine • Ova rešenja pogodna su za kompanije koje moraju da prate promene na svojim veb-sajtovima, da prate aktivnosti na socijalnim mrežama i blogovima, objave i grupne diskusije zaposlenih itd. • Mnoge državne službe i finansijske institucije su po zakonu obavezne da ispune određene propise po ovim pitanjima 4/19/2020 Internet servisi – dr Dušan Ljubičić 28 Druga grupa alternativnih rešenja • Ova rešenja su pogodna za praćenje promena kod konkurencije, ili nekih drugih sajtova od interesa • Treba imati u vidu da arhive koje postoje na Arhive.org na zahtev vlasnika sajta u svakom momentu mogu da budu uklonjene • Korisnici u ovom slučaju imaju punu kontrolu nad arhivom i mogu da podese intervale snimanja veb stranica.