網際網路檔案館

1996年創立的數字圖書館

網際網路檔案館(The Internet Archive),自1996年成立起,The Internet Archive定期收錄並永久保存全球網站上可以抓取的信息。

簡介


Alexa 創始人布魯斯特·卡利(Brewster Kahle)創辦,是一個Wayback machine公益性質的計劃。Internet Archive 非正式中文名有“網站時光倒流機器”、“網際網路檔案館”等。對於不同的網站,其收錄的網頁數量和收集周期也不相同,一些大型網站可能每天都會被“備份”一次,每次可能收錄數十個以上的網頁,而一些小型網站可能每年收錄幾次,每次只有幾個網頁。對網站不同時期的歷史資料進行研究,是網際網路檔案館最大的價值所在。用戶可以通過 Internet Archive 的“Take Me Back”對網站的發展與歷史資料進行研究。

檔案計劃


“網際網路檔案計劃”分為六大部分:
一、電子書
這個部分,我以前已經介紹過了,它專門收集公共領域的書籍和文檔,任何人都可以免費下載。截至到今天,共有29萬多種材料,堪稱網際網路上最好的公共領域圖書搜索引擎。
它主要收集英語書籍,但也包括少部分其他語種的書籍,比如朱熹的《論語集注》。
二、網頁
這個部分有個專門的名字,叫做”時光倒流機器“(Wayback Machine),它像收集舊報紙那樣收集舊網頁。舉例來說,Yahoo!的首頁就有5000多份檔案,最早的可以回溯到1996年10月17日,最近的則是2007年8月30日。
要將全世界的網頁都保存下來,這需要多大的存儲容量啊?根據2006年的統計,當時Wayback Machine的存儲容量有2000T,然後還在以每月20T的速度增加。
三、視頻
這個部分收集視頻材料,你在其中可以找到動畫片和電影。
四、音頻
音頻材料主要是有聲書籍和音樂。
五、軟體
六、教育材料
這部分主要是美國大學課程,有視頻和文字材料下載,相當於不去北美就可以上那裡的課,比如麻省理工學院的《微分方程》和Naropa大學的《艾倫·金斯堡的詩歌》。