Wiki­pe­dia: Com­mu­ni­ty-Pro­jekt repa­riert über neun Mil­lio­nen Links

Bibliotheca Alexandrina - Internet ArchiveFoto: Bibliotheca Alexandrina/Internet Archive (San Francisco), Urheber: Raimond Spekking (CC BY-SA 4.0)

Ein Com­mu­ni­ty-Pro­jekt zwi­schen der Wiki­pe­dia und Inter­net Archi­ve haben in den letz­ten Jah­ren über neun Mil­lio­nen Links repa­riert. Die „kaput­ten” Links ver­weis­ten zuvor Web­sei­ten, die nicht mehr vor­han­den waren.

Als Web­sei­ten-Betrei­ber kennt man viel­leicht das Pro­blem, dass es in all den Jah­ren hin und wie­der­mal vor­kommt, dass zuvor gesetz­te Links auf exter­nen Sei­ten „heut­zu­ta­ge” nicht mehr gül­tig sind. Das geschieht, wenn bei­spiels­wei­se der Inhalt auf die­ser Sei­te gelöscht wur­de oder die kom­plet­te Web­sei­te nicht mehr vor­han­den ist. Aber auch als Sei­ten­be­su­cher bekommt man sowas gele­gent­lich mal mit. Man klickt auf eine Ver­lin­kung auf einer Web­sei­te und der Inhalt dahin­ter ist nicht mehr ver­füg­bar (404-Feh­ler).

Genau die­ses Pro­blem hat auch Wiki­pe­dia. Wiki­pe­dia „lebt” zum Bei­spiel davon, Inhal­te von ande­ren Web­sei­ten zu über­neh­men und als Quel­le anzu­ge­ben. Bei­spiels­wei­se, weil man in einem Bei­trag über ein Ereig­nis schreibt und dar­auf ver­weist, woher man die Infor­ma­tio­nen her hat.

In all den Jah­ren kann es aber natür­lich auch mal vor­kom­men, dass der Inhalt der Quel­le nicht mehr auf­ruf­bar ist. In die­sem Fall spricht man von dem gesetz­ten Link zur Web­sei­te (Quel­le) von einem toten Link. Um die­ses Pro­blem zu behe­ben, hat ein Com­mu­ni­ty-Pro­jekt dazu erheb­lich bei­getra­gen, „tote” gegen „akti­ve” Links aus­zu­tau­schen. Mög­lich mach­te dies das Inter­net Archiv mit dem Pro­jekt „Way­back-Machi­ne”.

Way­back-Machi­ne ist ein Pro­jekt, womit mög­lichst alle frem­den Web­sei­ten auf der eige­ne Web­sei­te archi­viert wer­den. Man spei­chert qua­si den Inhalt auf der eige­nen Web­sei­te, um so Inter­es­sen­ten zei­gen zu kön­nen, wie der Inhalt an einem bestimm­ten Datum aus­ge­se­hen hat.

Dank des Com­mu­ni­ty-Pro­jekts wur­de ver­sucht, die toten Links, die bei Wiki­pe­dia gesetzt wur­den, gegen Links von der Way­back-Machi­ne aus­zu­tau­schen, sodass man den regu­lä­ren Inhalt wie­der sehen kann. Das hat natür­lich einen erheb­li­chen Vor­teil für so ziem­lich alle Parteien.

Dazu wur­de ein Bot namens „IABot” für Wiki­pe­dia pro­gram­miert, der die toten Links auf Wiki­pe­dia sam­mel­te und anschlie­ßend schau­te, ob der regu­lä­re Inhalt über die Way­back-Machi­ne vor­zu­fin­den ist. Ist das der Fall, wird der tote Link gegen den Link der Way­back-Machi­ne aus­ge­tauscht. So wur­den über neun Mil­lio­nen Links aus­ge­tauscht, die zuvor nicht mehr funk­tio­niert haben.

Eine ers­te Ana­ly­se von Wiki­pe­dia zeigt, dass sich das Com­mu­ni­ty-Pro­jekt durch­aus gelohnt hat. Denn ein erheb­li­cher Groß­teil der exter­nen Links, die von den Sei­ten­be­su­cher ange­klickt wur­den, führ­ten zur Wayback-Machine.

Anmer­kun­gen zum Bei­trag? Hin­weis an die Redak­ti­on sen­den.