2018.07.12

Webアーカイブの活用方法とは?国内・海外のサービス例6つ

Webアーカイブは過去に保存されたWebサイトやページを閲覧できるサービスです。情報のデジタル化が進み、多くのコンテンツがデータで作成されるようになりました。電子データは紙媒体に比べて更新や削除が容易です。更新または削除された過去のコンテンツを閲覧したい場合に有益なのが、Webアーカイブです。

この記事では、Webアーカイブの基本と国内・海外のサービス例をご紹介します。

目次

サイトやページを記録に残すWebアーカイブとは?

Webアーカイブはどのようなサービスなのでしょうか。その有用性とともにWebアーカイブサービスの基本をお伝えします。

Webサイトの記録を収集し、アーカイブ化したもの

Webアーカイブは、過去のWebサイトを収集して保存し、アーカイブ化して提供するサービスです。2002年から国立国会図書館がインターネット資料収集保存事業(通称「WARP」)として行っており、海外の国々でも国立図書館や公的機関などが中心となって提供しています。

国立国会図書館の発表している資料によると、WebアーカイブはWebサイトの選定に始まり、サイトの収集、メタデータの付与と組織化、電子書庫への保存、公開(非公開にする場合もある)といったサイクルで情報をアーカイブしています。Webサイトの情報は、クローラーによって収集されています。

ウェブアーカイブのしくみ 国立国会図書館

Webサイトやページを記録する意義

日本の国立国会図書館をはじめ、世界各国の公的機関がWebアーカイブを行っているのは、主に後世に記録を残すためといわれています。

インターネットなどのデジタル技術が発達するまで、情報の主な記録媒体は書籍や文書でした。そのため、過去の歴史や記録を振り返る際は、書籍や文書の記録をもとに情報を集める必要がありました。しかし、近年は記録媒体が紙から電子データに置き換わってきています。形として残る紙媒体とは異なり、Webサイトなどの電子データは更新されたり削除されたりすることがあります。定期的にWebサイトをアーカイブ化することによって、切り替わりが早いWeb上の情報も、これまでと同様に後世に記録を残すことができます。

Webアーカイブを利用するタイミング

どのようなときにWebアーカイブを活用すると良いのでしょうか。主に2つのタイミングが考えられます。

過去のWebサイトを閲覧したいとき

Webサイトが更新されてしまい、「見たはずの情報が探し出せない」という経験はないでしょうか。Webアーカイブにサイトが保存されていれば、過去の状態のサイトを閲覧できるため、必要な情報を再び見つけ出すことができます。

例えば2011年12月1日当時の外務省のサイトを検索してみると、画像のように当時のままの状態を閲覧することが可能です。

※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより

ちなみに、トップページだけでなく、リンクページの閲覧もできます。

※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより

※画像出典:国立国会図書館 インターネット資料収集保存事業のアーカイブより

削除したWebページをユーザーが閲覧できるようにしておきたいとき

すでにWebアーカイブに保存されているサイトであれば、リンクの設置によって削除してしまった古いページをユーザーが見られるようにすることができます。サイトを管理する際に、古いページを維持し続けるのが難しく、一方で残したいページがある場合などに有用です。

WARP(国立国会図書館のインターネット資料収集保存事業)の場合、以下2つの条件を満たしていれば、WARPが保存しているページのURLリンクを設置し、ユーザーが引き続き削除したページを閲覧できるようにすることが可能です。

・WARPにウェブサイトが保存されていること。
・保存されたウェブサイトがインターネット上に公開されていること。

※引用:古いページはWARPへリンク 国立国会図書館 インターネット資料収集保存事業

日本国内・海外のWebアーカイブ

では、実際のWebアーカイブサービスはどのようなものがあるのでしょうか。国内と海外に分けてご紹介します。

日本国内のWebアーカイブ

国立国会図書館 インターネット資料収集保存事業(WARP)

主に国の機関、地方自治体など公的機関のWebサイトを保存しています。民間のWebサイトに関しては、発信者の許諾が得られたもののみが保存対象です。国の機関は月1回、その他のサイトは年4回、情報を収集し、漏れがないようにしています。

自らサイトのURLを貼ることも可能で、2017年度の時点で保存タイトル数は1万1747件、保存ファイル数は62億2238万815件にも上ります。

※画像出典:国立国会図書館 インターネット資料収集保存事業

ウェブ魚拓

ウェブ魚拓は株式会社アフィリティーが提供しているWebアーカイブサービスです。URLやフリーワードで検索し、魚拓がとられているサイトを確認することができます。取得済みの魚拓が見つからない場合は、「このまま魚拓をとる」で取得も可能です。ただし、robot.txtによってクローラーのアクセスが禁止されているサイトは取得できません。

また、有料の証明用・資料用非公開ウェブ魚拓サービスも提供されています。取得した魚拓を非公開にできるサービスで、他人に魚拓を見られたり、削除されたりしたくない方や、大量に魚拓を取得したい方などが利用します。非公開魚拓の用途は、例えば裁判資料としての利用などです。

※画像出典:ウェブ魚拓

海外のWebアーカイブ

Wayback Machine

Wayback Machineは非営利法人のInternet Archiveが提供するWebアーカイブです。保存データ量は年々増加しており、2018年7月時点で3330億ページ のWebページを保存しています。Webサイトだけでなく、無料でダウンロードできる電子書籍やテキスト、動画、TVコンテンツ(特にExecutive Branch Archiveなどが多い)といったデータの保存にも取り組んでいるのが特徴です。

閲覧したいURLを入力するとカレンダーが表示され、青い丸で印が付いている日付のWebページを閲覧できます。

※画像出典:Wayback Machine

UK Government Web Archive

UK Government Web Archive はThe National Archives(英国国立公文書館)が提供しているサービスです。イギリス政府は情報を発信するのにTwitterやYouTubeなども多用しています。そのため、UK Government Web Archive にはWebサイトのみならず、TwitterやYouTubeなどのデータも、公的な記録として一部がアーカイブされています。

※画像出典:UK Government Web Archive

Library of Congress

2000年からスタートした、Library of Congress(米国議会図書館)が提供するWebアーカイブサービスです。アメリカ国内外の政府機関をはじめ、政党や宗教団体、慰霊祭、記念式典などのWebサイトを閲覧することができます。Recommending OfficersがWebサイトを「人文社会学」「欧州学」「経済学および自然科学」の3分野に分けて選定し、収集しています。「Archived Web Sites」を選択し、キーワードを入力すると、関連するWebサイトが表示されます。

※画像出典:Library of Congress

番外編:TweetSave

Webアーカイブとは少し異なりますが、Twitterのツイートを保存できるサービスです。残しておきたいツイートのURLを入力し、「SAVE」をクリックすると、元のツイートが消去されたとしてもアーカイブ上に保存されます。「My Saves」で保存したツイートを確認することができます。

※画像出典:TweetSave

Webサイトやページの過去の状態を記録して有効活用

Webサイトを更新すると、以前の状態がわからなくなったり、情報が消えてしまったりすることがあります。自社サイトをWebアーカイブに登録すれば、必要に応じて過去の状態を確認することができます。それがユーザーにとって必要な情報であるなら、WebアーカイブのリンクURLを設置しておき、閲覧できる状態にしておくと良いでしょう。

この記事が気に入ったら
いいね ! しよう