ウェブアーカイブ(Webアーカイブ)は過去に保存されたサイトやWebページを閲覧できるサービスです。
情報のデジタル化が進み、多くのコンテンツがデータで作成されるようになりました。電子データは紙媒体に比べて更新や削除が容易です。インターネット上のコンテンツは更新されたり、削除されたりすることがあります。
インターネット上の過去のコンテンツを閲覧したい場合に便利なのが、ウェブアーカイブです。この記事では、国内・海外の代表的なサービス例とウェブアーカイブの使い方をご紹介します。
目次
サイトやページを記録に残すウェブアーカイブとは?
ウェブアーカイブはどのようなサービスなのでしょうか。その有用性とともにウェブアーカイブサービスの基本をお伝えします。
Webサイトの記録を収集し、アーカイブ化したもの
ウェブアーカイブは、過去のWebサイトを収集して保存し、アーカイブ化して提供するサービスです。2002年から国立国会図書館がインターネット資料収集保存事業(通称「WARP」)として行っており、海外の国々でも国立図書館や公的機関などが中心となって提供しています。
国立国会図書館の発表している資料によると、ウェブアーカイブはWebサイトの選定に始まり、サイトの収集、メタデータの付与と組織化、電子書庫への保存、公開(非公開にする場合もある)といったサイクルで情報をアーカイブしています。Webサイトの情報は、クローラーによって収集されています。
Webサイトやページを記録する目的
日本の国立国会図書館をはじめ、世界各国の公的機関がウェブアーカイブを行っているのは、主に後世に記録を残すためと言われています。
インターネットなどのデジタル技術が発達するまで、情報の主な記録媒体は書籍や文書でした。そのため、過去の歴史や記録を振り返る際は、書籍や文書の記録をもとに情報を集める必要がありました。しかし、近年は記録媒体が紙から電子データに置き換わってきています。形として残る紙媒体とは異なり、Webサイトなどの電子データは更新されたり削除されたりすることがあります。定期的にWebサイトをアーカイブ化することによって、移り変わりが早いWeb上の情報も、これまでと同様に後世に記録を残すことができます。
日本国内・海外のウェブアーカイブ
ウェブアーカイブサービスにはどのようなものがあるのでしょうか。国内と海外に分けて代表的な例をご紹介します。
日本国内のウェブアーカイブ
国立国会図書館 インターネット資料収集保存事業(WARP)
主に国の機関、地方自治体など公的機関のWebサイトを保存しています。民間のWebサイトに関しては、発信者の許諾が得られたもののみが保存対象です。国の機関は月1回、その他のサイトは年4回、情報を収集し、漏れがないようにしています。
自らサイトのURLを貼ることも可能で、2019年度の時点で保存タイトル数は1万2556件、保存ファイル数は85億4341万3870件にも上ります。
※画像出典:国立国会図書館 インターネット資料収集保存事業
ウェブ魚拓
ウェブ魚拓は株式会社アフィリティーが提供しているウェブアーカイブサービスです。URLやフリーワードで検索し、魚拓がとられているサイトを確認することができます。取得済みの魚拓が見つからない場合は、「このまま魚拓をとる」で取得も可能です。ただし、robot.txtによってクローラーのアクセスが禁止されているサイトは取得できません。
また、有料の証明用・資料用非公開ウェブ魚拓サービスも提供されています。取得した魚拓を非公開にできるサービスで、他人に魚拓を見られたり、削除されたりしたくない方や、大量に魚拓を取得したい方などが利用します。非公開魚拓の用途は、例えば裁判資料としての利用などです。
海外のウェブアーカイブ
Wayback Machine
Wayback Machine(ウェイバックマシン)は非営利団体のInternet Archive(インターネットアーカイブ)が提供するウェブアーカイブです。保存データ量は年々増加しており、2021年1月現在で5250億ものWebページを保存しています。世界中のWebサイトだけでなく、無料でダウンロードできる電子書籍やテキスト、動画、TVコンテンツ(特にExecutive Branch Archiveなどが多い)といったデータの保存にも取り組んでいるのが特徴です。
閲覧したいURLを入力するとカレンダーが表示され、青い丸で印が付いている日付のWebページを閲覧できます。
▲青い丸で印が付いている日付をクリックすると、その時点でのサイトを閲覧できる。上の画像は2020年4月17日の「Marketing Native」のアーカイブ。画像出典:Wayback Machine
UK Government Web Archive
UK Government Web Archive はThe National Archives(英国国立公文書館)が提供しているサービスです。イギリス政府は情報を発信するのにTwitterやYouTubeなども多用しています。そのため、UK Government Web Archive にはWebサイトのみならず、TwitterやYouTubeなどのデータも、公的な記録として一部がアーカイブされています。
※画像出典:UK Government Web Archive
Library of Congress
2000年からスタートした、Library of Congress(米国議会図書館)が提供するウェブアーカイブサービスです。アメリカ国内外の政府機関をはじめ、政党や宗教団体、慰霊祭、記念式典などのWebサイトを閲覧することができます。Recommending OfficersがWebサイトを「人文社会学」「欧州学」「経済学および自然科学」の3分野に分けて選定し、収集しています。「Archived Web Sites」を選択し、キーワードを入力すると、関連するWebサイトが表示されます。
番外編:TweetSave
ウェブアーカイブとは少し異なりますが、Twitterのツイートを保存できるサービスです。残しておきたいツイートのURLを入力し、「SAVE」をクリックすると、元のツイートが消去されたとしてもアーカイブ上に保存されます。「My Saves」で保存したツイートを確認することができます。
ウェブアーカイブを利用するタイミング
どのようなときにウェブアーカイブを活用すると良いのでしょうか。主に2つのタイミングが考えられます。
過去のWebサイトを閲覧したいとき
Webサイトが更新されてしまい、「見たはずの情報が探し出せない」という経験はないでしょうか。ウェブアーカイブにサイトが保存されていれば、過去の状態のサイトを閲覧できるため、必要な情報を再び見つけ出すことが可能です。
例えば2011年12月1日当時の外務省のサイトを検索してみると、画像のように当時のままの状態を閲覧することが可能です。
※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより
ちなみに、トップページだけでなく、リンクページの閲覧もできます。
※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより
※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより
削除したWebページをユーザーが閲覧できるようにしておきたいとき
すでにウェブアーカイブに保存されているサイトであれば、リンクの設置によって削除してしまった古いページをユーザーが見られるようにすることができます。サイトを管理する際に、古いページを維持し続けるのが難しく、一方で残したいページがある場合などに有用です。
WARP(国立国会図書館のインターネット資料収集保存事業)の場合、以下2つの条件を満たしていれば、WARPが保存しているページのURLリンクを設置し、ユーザーが引き続き削除したページを閲覧できるようにすることが可能です。
・WARPにウェブサイトが保存されていること。
・保存されたウェブサイトがインターネット上に公開されていること。
※出典:国立国会図書館 インターネット資料収集保存事業「古いページはWARPへリンク」
ウェブアーカイブで過去の状態を記録し、有効活用
Webサイトを更新すると、以前の状態がわからなくなったり、情報が消えてしまったりすることがあります。自社サイトをWebアーカイブに登録すれば、必要に応じて過去の状態を確認することができます。それがユーザーにとって必要な情報であるなら、WebアーカイブのリンクURLを設置しておき、閲覧できる状態にしておくと良いでしょう。