Internet Servisi

Internet Servisi

Internet servisi dr Dušan Ljubičić Beogradska akademija poslovnih i umetničkih strukovnih studija Internet arhiv Internet arhiv • Internet arhiv (Internet Archive) je neprofitna digitalna biblioteka koja se bavi arhiviranjem veb-sajtova i drugih artefakata kulture u digitalnom formatu, sa ciljem da ih sačuva od nestanka i učini javno dostupnim • Prosečan vek veb stranice je oko 100 dana, dok većina članaka bude zaboravljena 5 minuta posle objavljivanja • Adresa sajta je https://archive.org 4/19/2020 Internet servisi – dr Dušan Ljubičić 2 Gde se koristi 4/19/2020 Internet servisi – dr Dušan Ljubičić 3 Podela sadržaja • Sadržaji u Arhivu su podeljeni po vrsti medija na: 1) veb (web); 2) knjige i tekstovi (texts); 3) video (video); 4) zvuk (audio); 5) softver (software) i 6) slike (images) • Klikom na neku od ikona prikazaće se istaknuti linkovi i top-kolekcije za svaku od arhiva, osim za veb, za koji se prikazuje polje za pretragu vejbek mašine 4/19/2020 Internet servisi – dr Dušan Ljubičić 4 Osnivač i sedište • Internet arhiv je osnovao Bruster Kejl (Brewster Kahle) u maju 1996. godine, sa ciljem da omogući univerzalni pristup kompletnom ljudskom znanju koji će svim ljudima biti dostupan u bilo koje vreme i besplatno • Podaci Internet arhiva su smešteni u data centrima u tri grada u Americi, a Bekap arhive se čuva u Amsterdamu i u biblioteci Alexandrina u Aleksandriji • Sedište Arhiva je u San Francisku 4/19/2020 Internet servisi – dr Dušan Ljubičić 5 Arhiviranje veba Wayback Machine • Arhiviranje veba je glavna aktivnost Internet arhiva • Za svaki arhivirani veb-sajt postoji od nekoliko do nekoliko stotina hiljada snimaka (snapshots) iz različitih vremenskih perioda • Vejbek mašina (Wayback Machine) je servis koji omogućava ljudima da pregledaju arhivirane verzije veb-sajtova • Ona dodaje vremensku dimenziju vebu 4/19/2020 Internet servisi – dr Dušan Ljubičić 6 Wayback Machine • Vejbek mašina je direktno dostupna sa početne strane sajta https://archive.org i sa strane https://archive.org/web, koja se otvara klikom na ikonu veba ili klikom na waybackmachine • Adresa sajta čiju arhivu želimo da vidimo, kuca se u polju za pretragu (enter URL or keywords) 4/19/2020 Internet servisi – dr Dušan Ljubičić 7 Pretraga na nivou domena • Umesto adrese sajta može se uneti i adresa domena, npr. ibm.com, arhive.com, blog.arhive.com, microsoft.com, google.com, bbs.edu.rs • Ako se pretraga vrši na nivou domena, vejbek mašina će prikazati arhivu i za sve poddomene • Iako izbacuje određene rezultate, Internet arhiv još uvek u potpunosti ne podržava za pretragu po ključnim rečima (maj, 2019) 4/19/2020 Internet servisi – dr Dušan Ljubičić 8 Rezultat pretrage • Kao rezultat pretrage, vejbek mašina prikazuje kalendar sa kružno osenčenim datumima poslednje godine kada je sajt snimljen 4/19/2020 Internet servisi – dr Dušan Ljubičić 9 Rad sa kalendarom • Godine su prikazane iznad kalendara • Klikom na broj godine dobija se kalendar sa snimcima za tu godinu • Iznad godina je naveden ukupan broj snimaka i vremenski interval u kojem su napravljeni • Pokazivanjem na osenčeni datum prikazaće se linkovi na snimke koji su urađeni taj dan • Klikom na link prikazaće se arhivirani sajt 4/19/2020 Internet servisi – dr Dušan Ljubičić 10 Rad sa kalendarom • Krugovi koji označavaju datume kada su rađeni snimci mogu biti različite veličine i boje • Veličina kruga ukazuje na veći broj snimaka • Plava boja, koja se uglavnom pojavljuje, pokazuje da je snimak dobar • Zelena pokazuje da je u pitanju redirekcija, a narandžasta znači da URL nije pronađen, a crvena da je došlo do greške na serveru 4/19/2020 Internet servisi – dr Dušan Ljubičić 11 Primer • Izgled sajta www.bbs.edu.rs 22. februara 2011. godine, odnosno ono što je crawl softver snimio tog dana u 22:04:42 4/19/2020 Internet servisi – dr Dušan Ljubičić 12 Šta se koristi • Za pretraživanje veba i kopiranje veb stranica Internet arhiv koristi svoj crawl program Heritrix, koji je razvio zajedno sa Nordic national libraries • Najveći deo podataka kao donaciju Internet arhiv dobija od Alexa Internet i drugih kompanija koje se bave pretraživanjem i indeksiranjem veba • Prikupljaju se samo podaci koji su javno dostupni 4/19/2020 Internet servisi – dr Dušan Ljubičić 13 Korisnici sami čuvaju stranice • Korisnici takođe mogu i sami da arhiviraju željenu veb stranicu preko polja Save Page Now, koje je dostupno preko stranice https://archive.org/web ili preko pretplatničkog servisa Arhiv-it (https://archive-it.org), koji je Internet arhiv pokrenuo 2006. godine 4/19/2020 Internet servisi – dr Dušan Ljubičić 14 Kada je počelo • Iako je još na samom početku počeo da arhivira veb stranice, Internet arhiv je tek u oktobru 1996. počeo sa masovnim arhiviranjem veba • Tokom prvih 6 godina arhivirano je preko 10 milijardi veb stranica • Međutim one su javnosti postale dostupne tek 2001. godine sa uvođenjem programa Wayback Machine, koji su napisali Bruster Kejl i Brus Džiliat (Bruce Gilliat) 4/19/2020 Internet servisi – dr Dušan Ljubičić 15 Interval arhiviranja • Vejbek mašina veb stranice arhivira u varijabilnim vremenskim intervalima, koji se kreću od nekoliko sati od nekoliko dana, nedelja, meseci ili godina • Za svaku stranicu vejbek mašina arhivira sadržaj koji se nalazi u samoj stranici i, kada je to moguće, sadržaj koji se nalazi na eksternim lokacijama (npr. slike) 4/19/2020 Internet servisi – dr Dušan Ljubičić 16 Ne arhivira se sve • Vejbek mašina ne arhivira uvek sve stranice nekog domena • Stranice do kojih se dolazi sa većim brojem klikova od zadatog se ne arhiviraju • Stranice koje su izvan definisanog obima pretrage (DomainScope, HostScope, PathScope), takođe se ne arhiviraju • Takođe, postoje mnoge situacije u kojima vejbek mašina neće arhivirati kompletan sadržaj veb stranice, tako da će one biti prikazane nekompletne 4/19/2020 Internet servisi – dr Dušan Ljubičić 17 Ne arhivira se sve • Nedostajaće neka slika, video, dinamički sadržaji koji se oslanjaju na serverski kôd neće raditi itd • Ne arhiviraju se stranice, ili delovi stranice koji su navedeni u datoteci robot.txt, npr. umesto slika koje su zabranjene preko datoteke robot.txt biće prikazani sivi okviri • Takođe treba imati u vidu da se veb stranice ne snimaju ponovo svaki put kada su ažurirane, tako da neće biti sačuvane sve njene promene • Na zahtev vlasnika sajta, određene strane mogu biti uklonjene iz arhive 4/19/2020 Internet servisi – dr Dušan Ljubičić 18 Archive-It • Pretplatnički servis Internet arhiva, omogućava korisnicima da sami arhiviraju svoje veb stranice, pokrenut 2006. • Pretplatnici imaju punu kontrolu na svojim digitalnim sadržajem • Mogu da kreiraju svoje javne ili privatne kolekcije • Sadržaj se čuva u data centrima Internet arhiva i dostupan je sve vreme • Za razliku od vejbek mašine, Archive-it podržava punu tekstualnu pretragu 4/19/2020 Internet servisi – dr Dušan Ljubičić 19 Ko koristi Archive-It • Koriste ga koledži, univerziteti, biblioteke, instituti, državne arhive, biblioteke, savezne institucije, muzeji, galerije umetnosti, javne biblioteke, lokalne uprave, nevladine organizacije itd. 4/19/2020 Internet servisi – dr Dušan Ljubičić 20 Alternativni sajtovi za arhiviranje veba • Alternativni sajtovi za arhiviranje veba mogu da se podele na one koji omogućavaju : – samo pregledanje arhiviranih verzija (Archive.is, Screenshots, WebCite, Competitorscreenshots i Domain Tools) – kreiranje vlastite vejbek mašine (Pagefreezer i Actiance ) 4/19/2020 Internet servisi – dr Dušan Ljubičić 21 Archive.is • Archive.is (archive.is) je najbolja zamena za vejbek mašinu • Veb stranice čuva u HTML formatu i kao slike ekrana (screenshot) • Sa određenim ograničenjima HTML datoteka može da se preuzme • Baza podataka je oko 5% od veličine baze archive.org 4/19/2020 Internet servisi – dr Dušan Ljubičić 22 Archive.is • Frekvencija snimanja je mala • Na primer, www.bbs.edu.rs snimljen je samo jednom, a na archive.org 171 put • Dubina snimanja je, takođe, mala • Obično se snima samo prva strana • Pored pregledanja, korisnici mogu da arhiviraju svoje veb stranice 4/19/2020 Internet servisi – dr Dušan Ljubičić 23 Archive.is 4/19/2020 Internet servisi – dr Dušan Ljubičić 24 WebCite • (Webcitation.org) arhivira citirane veb stranice, i to onakve kakve su bile kada ih je neki autor citirao • Kako se na samom sajtu navodi, autori sve češće citiraju veb stranice i druge digitalne sadržaje • Po jednom istraživanju posle 27 meseci oko 13% tih sadržaja nestane • Drugi problem je što citirane stranice u međuvremenu mogu da se promene, tako da čitalac ne može da pronađe navedenu referencu 4/19/2020 Internet servisi – dr Dušan Ljubičić 25 Screenshots Domaintools • (Screenshots.com) čuva slike ekrana samo prvih stranica veb-sajta. Omogućava uvid i u neke druge informacije o sajtu, kao što su vreme kad je sajt registrovan, broj vlasnika itd. Njegova baza je manja od 1% od baze archive.org • (Domaintools.com), isto kao i Screanshoots, koji koristi njegov API, veb stranicu snima kao sliku. Omogućava i dodatne informacije o sajtu kroz Whois servis 4/19/2020 Internet servisi – dr Dušan Ljubičić 26 Competitorscreenshots • (Competitorscreenshots.com) se prvenstveno koristi za poređenje brendova • Moguće je porediti slike veb stranica, imejl kampanju, aktivnosti na društvenim mrežama za prethodnih 60 dana sa besplatnim nalogom • Za duže periode se plaća • Koristi se kod izrade marketing strategije 4/19/2020 Internet servisi – dr Dušan Ljubičić 27 Druga grupa alternativnih rešenja • Druga grupa alternativnih rešenja omogućava kreiranje privatne vejbek mašine • Ova rešenja pogodna su za kompanije koje moraju da prate promene na svojim veb-sajtovima, da prate aktivnosti na socijalnim mrežama i blogovima, objave i grupne diskusije zaposlenih itd. • Mnoge državne službe i finansijske institucije su po zakonu obavezne da ispune određene propise po ovim pitanjima 4/19/2020 Internet servisi – dr Dušan Ljubičić 28 Druga grupa alternativnih rešenja • Ova rešenja su pogodna za praćenje promena kod konkurencije, ili nekih drugih sajtova od interesa • Treba imati u vidu da arhive koje postoje na Arhive.org na zahtev vlasnika sajta u svakom momentu mogu da budu uklonjene • Korisnici u ovom slučaju imaju punu kontrolu nad arhivom i mogu da podese intervale snimanja veb stranica.

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    42 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us