情報管理 O U R Nal of Information Pr Ocessing and Managemen T December
Total Page:16
File Type:pdf, Size:1020Kb
JOHO KANRI 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December 世界の知識の図書館を目指すInternet Archive 創設者Brewster Kahleへのインタビュー Internet Archive aims to build a library of world knowledge An interview with the founder, Brewster Kahle 時実 象一1 TOKIZANE Soichi1 1 愛知大学文学部(〒441-8522 愛知県豊橋市町畑町1-1)E-mail : [email protected] 1 Faculty of Letters, Aichi University (1-1 Machihata-cho Toyohashi-shi, Aichi 441-8522) 原稿受理(2009-09-25) (情報管理 52(9), 534-542) 著者抄録 Internet ArchiveはBrewster Kahleによって1996年に設立された非営利団体で,過去のインターネットWebサイトを保存し ているWayback Machineで知られているほか,動画,音楽,音声の電子アーカイブを公開し,またGoogleと同様書籍の電 子化を行っている。Wayback Machineは1996年からの5,000万サイトに対応する1,500億ページのデータを保存・公開し ている。書籍の電子化はScribeと呼ばれる独自開発の撮影機を用い,ボストン公共図書館などと協力して1日1,000冊の ペースで電子化している。電子化したデータを用いて子供たちに本を配るBookmobileという活動も行っている。Kahle氏 はGoogle Book Searchの和解に批判的な意見を述べているほか,孤児著作物の利用促進やOne Laptop Per Child(OLPC)運 動への協力も行っている。 キーワード Webアーカイブ,Wayback Machine,書籍電子化,Google Book Search,新アレキサンドリア図書館,Open Content Alliance,Open Book Alliance 1. はじめに Googleと同様書籍の電子化を行っている。インター ネットが一般に使えるようになったのが1995年で Internet Archive注1)はBrewster Kahle(ケールと発 あるから,Internet Archiveはインターネットとほぼ 音する)によって1996年に設立された非営利団体 同時に誕生したことになる。現在年間運営費は約 である。過去のインターネットW e bサイトを保存 1,000万ドルであり,政府や財団の補助や寄付で運 しているWayback Machine1)で知られているほか, 営している。この(2009年)5月にKahle氏(以下敬 534 JOHO KANRI 世界の知識の図書館を目指すInternet Archive 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December 称略)を訪ね,インタビューを行ったので報告する A O Lに売却した。その売却益によって翌年I n t e r n e t (写真1)。 Archiveを立ち上げたのである。 K a h l eは1982年 に マ サ チ ュ ー セ ッ ツ 工 科 大 学 (Massachusetts Institute of Technology: MIT)のコン 2. Internet Archiveの事業 ピュータ科学工学科を卒業した。 2000年前エジプトのアレキサンドリアには当時 2.1 Wayback Machine 世界最大の図書館があり,パピルスに書かれた書物 I n t e r n e t A r c h i v eのホームページのU R Lはw w w . 50万点を保有していたという。これは紀元前48年 archive.orgであるが,このURLはInternet Archiveがアー にジュリアス・シーザーによって焼かれたとされて カイブの先駆者であることを示している(図1)。 いる。アレキサンドリア図書館の目的は世界で書 その一番上の中央にあるのがInternet Archiveの最初 かれたすべての書物を集めることであった。K a h l e のプロジェクトであり中核であるWayback Machine はM I T在学中から,このアレキサンドリア図書館に (①)である。①の検索窓にU R L(例ではw w w . j s t . ならって,世界で発行されたすべての書物を集め go.jp)を入れると過去のWebサイトの一覧が表示さ たデジタル図書館,すなわち第二アレキサンドリ れる(図2)。1998年1月27日のJ S Tのサイトを表示 ア図書館を建設する夢を持っていたと語っている したのが図3である。 (現実の第二のアレキサンドリア図書館(Bibliotheca Alexandrina)注2)は2002年に開設されている)。なお 彼と同じ夢をもっと以前(1964年)に語った人た ちがおり,そのことを最近知って,非常に感銘を受 けたとのことである2)。 そのために彼はまず高速のコンピュータ・システ ムが必要だと考え,Thinking Machine社の開発チーム に入って検索エンジンWAIS(Wide Area Information S e r v e r s)システムを開発した。後にスピンアウト してW A I S I n c .を設立したが,この会社は1995年に 図1 Internet Archiveのホームページ 写真1 Internet ArchiveのBrewster Kahle氏と筆者 図2 Wayback MachineにおけるJSTの過去のサイト一覧 535 JOHO KANRI 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December Wayback Machineは1996年から世界のすべての Sun Modular Datacenterという3Petabyteの容量を持 Webページの収集を行っている。Netscapeなどによ ち,3フィート×3フィート×20フィートのコンテ り現在の形のインターネットの利用が立ち上がった ナ型のサーバー・センターに収納されている(写真 とされる1995年の直後に,すでにその保存を手が 3)3)。部分的なコピーはアムステルダムとエジプト けるという先見の明に驚かされる。当時はディスク の新アレキサンドリア図書館にある。なおWayback も高価であったので,最初は2か月ごとに収集し, Machineという名前は米国のテレビアニメPeabody's 磁気テープに保存しただけであった。2001年になっ Improbable History(日本でも「空飛ぶロッキー君」 て5年分たまったとき初めてネットで公開した。 の一部として放映された。P e a b o d yは博士犬の名 K a h l eの話では,2009年5月現在で約1,500億ペー 前)にあるタイムマシーンWABACから取っており, ジ(5,000万サイトに対応すると思われる)を収集 Internet Archiveのオフィスにもその写真が飾ってあ しており,これは圧縮後でも1.9 Petabyte(Petaは る(写真4)。 Gigaの100万倍)となる。このデータはRed Boxまた これは過去のページが探せる世界唯一のサイトで はPeta Boxと呼ばれる赤いサーバーに格納されてい あり,多くの企業が自分の,あるいは他社の過去の たが(写真2),2009年3月からSun Microsystemsの サイトを調べるのに使ったり,また研究にも使われ 図3 Wayback MachineにおけるJST 1998年1月27日の 写真3 現在Wayback Machineが収容されている サイトの一部 Sun Modular Datacenter3) 写真2 Wayback Machineが収容されていたRed Box 写真4 Internet ArchiveのオフィスにあるWABACの写真 536 JOHO KANRI 世界の知識の図書館を目指すInternet Archive 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December たりしている。ただし現在のところ全文検索はでき アーカイブである(図1,⑤)。書籍の電子化は ない。仮に全文検索を行うと,世代の違う同一サイ 2002年にMillion Book Project(Universal Library)5)とし トが多数ヒットすることになるので,どのような検 て開始した。今話題となっているGoogle Book Search 索方法が適切か研究しているところであるとの話で より2年も早いことになる。これはカーネギーメロ あった。 ン大学との共同プロジェクトで,インド,中国の政 Wayback Machineのためにクロールの作業を行っ 府の資金的協力で実施した。カンザス市公共図書館 ているのはW e bのアクセス・ランキングで有名な の蔵書10万冊を購入してインドに送り,これをイン Alexa Internet注3)(この名前もアレキサンドリア図書 ド政府がスキャン(ミノルタの撮影装置を使用)し 館から取っている)であるが,これもKahleがBruce た。この作業はエジプトでも行われた(写真5)4)。 G i l l i a tとともに1996年に設立した会社で1999年に 後処理はInternet Archiveが行い約3万冊を電子化した Amazonに売却している。 が,残念ながら品質はあまりよくなかった上,貴重 な図書館の蔵書を海外で電子化するのは実際的でな 2.2 動画,音楽,音声 かったので中止された。 ホームページの次の段の一番左にあるのが動画の そののち2006年にはMicrosoft社の支援によりコー アーカイブ(Moving Images)であるが(図1,②), ネル大学の蔵書を電子化することになり6),Kirtas社 ここには著作権の切れた映画や,さまざまなビデオ の撮影機を採用した(写真6)4),7)。一般にスキャン が保存されている。またロシア,中国,日本,イ のため本を180度開くと傷んだり壊れたりすること ラクの各局,アルジャジーラ,B B C,C N N,A B C, がある。この機械は本を120度程度しか開かないこ C B S,N B Cなどのテレビ局の番組を24時間すべて保 とと,真空装置でページを吸って自動めくりするこ 存している。これらの中には著作権の関係で今は公 とに特徴があった。使われているデジタルカメラは 開できないものもあるが,将来公開できることを期 1台であるが,鏡を使って見開き2ページを順に撮影 待して保存しているものである。現在のところ米国 することができる。 で同時多発テロのあった2001年9月11日の週の分だ Kirtasは一見便利であったが,高価であることと, けは公開している。日本のテレビのデジタル放送が 実際にはそれほどうまく自動でページをめくれない DRM(Digital Rights Management)によりコピー制限 ことから,Internet Archiveでは2005年にScribeという がつくとアーカイブができなくなり問題であると Kahleは語っている。動画の形式はMPEG2からDivX, QuickTime,MPEG4,Flash,H.264などどんどん変わっ ていくので,それにあわせて常に変換している4)。 その右が音楽のアーカイブ(Live Music Archive) である(図1,③)。ここには著作権が切れたものの ほか,公開を許されたアーチストなどの演奏を保存 している。またラジオなどの録音はその右のA u d i o に保存されている(図1,④)。 2.3 書籍の電子化 ホームページの中段右が書籍を中心としたTexts 写真5 エジプトでの図書電子化作業風景4) 537 JOHO KANRI 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December 機械を自ら設計・開発し8),これを現在も使ってい 1日1,000冊のペースで電子化しているという。 る(写真7)。書籍電子化の責任者Robert Miller氏によ 場 所 と 図 書 の 手 配 は 図 書 館 が 行 い,I n t e r n e t れば,この機械は手めくりであるが,操作が簡単で Archiveは機器と人員を派遣する。標準的には機器は 作業スピードが速く,ガラス板で開いたページを押 10台単位で設置し,2交代でカラー撮影(300-500dpi) さえて撮影するのできれいに撮影できる。しかも自 する。カメラはキヤノン製である。撮影した画像 動装置に比べて本の傷みが少ない。実際これまで50 はその場で隅の部分をトリミングし,傾きを直し, 万件撮影して,ページが破れたのは3ページだけだ 裏写りなどを補整し,撮影が失敗していたらやり という。Scribeを使ってこれまでにすでに50万冊を 直す。完成したデータはInternet Archiveの本部に 電子化している。G o o g l eの700万冊に比べるとまだ 送ってO C Rにかけ,またさまざまな形式のファイル 少ないが,ボストン公共図書館などの参加により, (RAW,JPEG2000,TIF,PDF,白黒PDF,DjVu,text など)に変換する。合計のファイルサイズは1ペー ジあたり1Megabyteである。米国議会図書館の所蔵 は2,600万冊であるが,これをすべて電子化しても 26Terabyteに過ぎない。わずか60,000ドル程度のコ ンピュータに十分ダウンロードできるとKahleはいう。 このやり方で1ページ10セントの低コストが実現 している(G o o g l eはコストを公表していないが,1 ページ5セント程度ではないかとKahleは想像してい る)。カナダでも10カナダセント,英国では0.1ポン ド,欧州では0.1ユーロと,世界中どこでも同じよ うな価格でできるという。本1冊300ページとする と,1冊電子化するのに30ドル,1,000万冊でも3億 ドル(約300億円)程度でできることになる。 写真6 Kirtas社の撮影機4) Internet Archiveの書籍電子化プロジェクトがGoogle Book Searchと大きく異なるのは,図書館が費用を出 す代わりに,すべてのデータが図書館のものになる ことである。これに反してGoogle Book Searchでは データの権利はGoogleに属し,図書館にはPDFしか 提供されない。なおInternet Archiveでもコピーを保 存して公開することになっている。 現在のパートナーは米国議会図書館,トロント 大学図書館,ボストン公共図書館など世界5か国の 18センターである。カリフォルニア大学図書館や スタンフォード大学図書館はGoogle Book Searchに参 加していると同時にInternet Archiveによる電子化も 写真7 ボストン公共図書館で稼働しているScribe撮影機, 行っている。最近中国の浙江大学が中心となってい カメラ2台でページは手でめくる (筆者が2008年に訪問した際撮影) る中国書籍の電子化(約200万冊)にも協力するこ 538 JOHO KANRI 世界の知識の図書館を目指すInternet Archive 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December ととなった。またInternet Archiveは電子化書籍デー タの交換も積極的に行っている。これにより,デー タの分散保存が実現し,安全性が高まる。中国との 最近の合意でも中国で電子化したデータをI n t e r n e t Archiveのデータと交換することになっている。なお Internet ArchiveのサイトではGoogleが電子化した著作 権の切れた書籍データ69万件も収録し9),あわせて 140万件弱を公開している。これらはG o o g l eから提 供を受けたのではなく,ボランティアがGoogleから 写真8 Bookmobileで本を作成しているところ11) ダウンロードしてInternet Archiveに載せたものであ る。 書 籍 電 子 化 に 協 力 す る 団 体 が 集 ま っ てO p e n にも意欲を見せている。これについては貸し出し C o n t e n t A l l i a n c e注4)という団体を結成している。 (loan)方式を考えている。例えばPDFに制限をかけ これは現在は図書館の緩い連合のようなもの て一定期間後は読めなくなるようにする考えもあ で,Internet Archiveが管理者となっている。Adobe る。そうすれば著作権に触れないかもしれない。現 Systems Incorporated,HP Labs,MSN,O'Reilly 在ボストン公共図書館と協力して方式を検討中との Media,William and Flora Hewlett Foundation,Xerox ことだった。 Corporation,Yahoo!なども協力者である。Yahoo!は またInternet ArchiveではOpen Library注5)という書 30万ドルの寄付をした。Microsoftは1,000万ドルの 籍カタログを公開している。これはO C L CのW e b版 寄付により,図書館による33万冊の書籍の電子化を のようなものである。現在2,300万冊の本が登録さ 支援したが,2008年5月に事業から撤退した10)。 れており,そのうち電子化されているものは約100 万冊である。これが電子版貸し出しのツールになる 2.4 Bookmobile とInternet Archiveは考えている。 Internet Archiveでは前記のようにして電子化した 本を簡単に印刷し製本する機械も開発している。こ 3. Google Book SearchとInternet Archive の機械を載せたワゴン車Bookmobileを開発途上国や 貧困地区に派遣し,著作権の切れた本を1冊数ドル Kahleは,2004年にGoogle Book Searchの計画を最 で作成して子供たちに配る運動を行っている(写 初に知ったときは,非常に興奮したと語っている。 真8)11)。最近(2009年10月),エジプトの新アレキ Internet Archiveが先鞭をつけた書籍電子化にGoogleも サンドリア図書館館長イスマイル・セラゲルディン 参加し,しかも著作権の生きている本も電子化して 氏の講演が国立国会図書館であった12)が,その講 しまう,という挑戦を高く評価したのである。しか 演の中では同図書館で活躍中のBookmobileが紹介さ し次第にGoogleと図書館との契約が一方的で,公共 れていた。同図書館は前述のようにInternet Archive 財産である書籍コンテンツをGoogleが独占する内容 の電子化図書のコピーを持っている。 となっていることを批判するようになった。2008 Google Book Searchと異なり,Internet Archiveでは 年10月にGoogleと米国作家協会などが和解に合意し これまで著作権が切れたものだけが書籍電子化対象 たが,これについても強く批判している13)。 だったが,最近は著作権が生きている書籍の電子化 彼によれば,Googleは当初Google Book Searchは本 539 JOHO KANRI 2009 vol.52 no.9 http://johokanri.jp/ J情報管理 o u r nal of Information Pr ocessing and Managemen t December を見つける手助けをするのだ,これは検索エンジ いるようである。また,Google Book Searchの和解に ンGoogleがWebサイトを見つけるのを手助けするの より孤児著作物の問題は解決した,との声があるこ と同じだ,といってきた。それはこれまでのイン とも障害となっている。 ターネットの世界での,検索エンジンとWebサイト KahleはまたOne Laptop Per Child(OLPC)注8)運動 の分業関係と整合している。ところが今度の和解で の協力者でもある。これはNicholas Negroponteが始 は「自分が」「電子書店」になるといいだした。も めた,インターネット接続に特化したパソコンを開 しこれが認められると,これまで図書館が蓄積し 発途上国や貧困層の子供に配るというプロジェク てきた知識をGoogleが独占することになる。すなわ ト16)で,すでに最初のバージョンは60万台以上を ち,Googleが図書館を私物化することになる。さら 配布している。100ドルを目指しているが,現在の にこの和解を認めれば著作権は生きているが著作者 価格は188ドルである。Internet Archiveに登載されて が確認できない書籍,つまり「孤児著作物」につい いる電子書籍のデータはこのパソコンで読むことが てGoogleが独占的に電子化して売ることを許すこと できる。 になる。Internet Archiveなど他の電子化事業に対し てはGoogleのような特典は与えられない。これまで