Das Gedächtnis des Internet

Feature | 22. November 2004 von admin 0

Dr. Noha Adly

Dr. Noha Adly

Wie viele Rechner und wie viel Speicherplatz nimmt das Internetarchiv momentan ein?

Adly: Unsere zehn Milliarden Webseiten mit einem Datenvolumen von 100 Terabyte sind auf 180 Computern gespeichert. Zusätzlich benötigen wir noch Platz für die Kühlung der Geräte. Derzeit beanspruchen die Rechner Internetarchiv eine Fläche von 40 Quadratmetern. Allerdings stellt die Speichertechnologie ständig höhere Speicherdichten zur Verfügung.

Können Sie abschätzen, wie viel Speicherplatz im Vergleich dazu das auf 700.000 Schriftrollen gebannte Wissen der Antike in digitalisierter Form benötigt hätte?

Adly: Das ist eine interessante Frage. Ein digitalisierter Papierbogen der Größe DIN A3, der nicht viel Grafik enthält, belegt als RGB-Bild von hoher Qualität ein Speichervolumen von etwa 35 Megabyte. Angenommen, jede der 700.000 Schriftrollen hätte sich auf zehn Bögen DIN A3 unterbringen lassen, würde das ein Speichervolumen von 0,245 Terabyte bedeuten.

Inhaber von Webseiten können diese manuell von der Archivierung ausschließen, indem sie eine robots.txt-Datei auf ihrem Webserver installieren. Viele Webseiten sind nicht verlinkt und werden daher von den archiveigenen Web-Crawlern nicht gefunden. Wie vollständig kann also die Linksammlung je sein?

Adly: Es ist schwierig zu sagen, wie viel von den Inhalten, die seit 1996 im Web veröffentlicht wurden, nicht in der Sammlung archiviert ist, da man dazu wissen müsste, wie hoch der Anteil nicht verlinkter Seiten im Internet ist. Wir können nur schätzen, ungefähr 80 Prozent aller Webseiten archiviert zu haben – aber das lässt sich kaum nachweisen.

Werden auch andere Netze wie die Vorläufer Gopher oder das WWW3 erfasst?

Adly: Nein, nur das World Wide Web seit 1996.

Wie viele Nutzer haben das Internetarchiv seit seiner Eröffnung durchsucht?

Adly: Es gibt keine Möglichkeit festzustellen, wie viele einzelne Anwender eine öffentliche Web-Datenbank wie das Internetarchiv benutzt haben. Wir können feststellen, dass fast 100.000 verschiedene IP-Adressen eine Verbindung mit unserer Website aufgebaut haben. Das ist ein guter Indikator dafür, wie beliebt diese Site ist, vor allem wenn man bedenkt, dass eine einzige IP-Adresse unter Umständen ein Netzwerk einiger hundert Anwender repräsentiert.

Wird im Internetarchiv auch bald eine Textsuche funktionieren?

Adly: Das ist ein wichtiger Punkt, denn ohne Textsuche finden Sie eine Seite nur, wenn Sie die exakte Internetadresse kennen. Das unabhängige Projekt “Recall” soll bald eine Textsuche in der Sammlung ermöglichen.

Wie genau werden Webseiten archiviert?

Adly: Archiveigene Web-Crawler durchsuchen das Internet alle zwei Monate, um alle gefundenen URLs laufend zu archivieren. Die Suchmaschine basiert auf einer speziellen Software, die eigens zu diesem Zweck entwickelt wurde.

Gibt es rechtliche Grauzonen bei der Archivierung privater oder kommerzieller Seiten?

Adly: Wenn es um geistiges Eigentum geht, scheint es in unserem digitalen Zeitalter immer eine rechtliche Grauzone zu geben. Das Internetarchiv bemüht sich grundsätzlich, niemandes Rechte zu verletzen. Die Wayback-Maschine beachtet Ausschlüsse für Web-Roboter ebenso wie Ausschlusswünsche von Seiten der rechtmäßigen Autoren von Websites.

Welchen Sinn macht es, weltweit mehrere Internetarchive zu haben? Eines besteht ja schon in San Francisco, weitere sollen eröffnet werden.

Adly: Mehrere Archive in verschiedenen Teilen der Welt (mit unterschiedlichen Lebensweisen) können einander als Backup dienen. Hinzu kommt, dass die Archive an verschiedenen Standpunkten unterschiedliche Kulturen wiederspiegeln. Das Archiv in Alexandria enthält beispielsweise 2.000 Stunden Videoaufnahmen aus dem ägyptischen Fernsehen. Jedes Archiv kann sich besser auf die Forschung in seiner Region ausrichten. Ein drittes Archiv wird zur Zeit in Amsterdam eingerichtet.

Ist das Internetarchiv ein möglicher erster Schritt gegen die Gedächtnislosigkeit des digitalen Zeitalters?

Adly: Es ist in Hauptziel des Internetarchivs, Informationen zu bewahren. Damit kommen wir gegen den Gedächtnisverlust im Internet einen guten Schritt voran. Um dem vorzubeugen, müsste nicht nur das Internet archiviert werden, sondern auch Bücher, Audio- und Videokassetten. Um auch dieses Material neben den Internetseiten in digitalisierter Form zugänglich zu machen, betreibt die Bibliotheca Alexandrina weitere Archivierungsprojekte.

Weitere Informationen finden Sie unter
http://archive.bibalex.org

Leave a Reply