Practical Applications of a SDMS (Scientific Data Management System)
Open Directory Project | |
Humans do it better | |
Webverzeichnis | |
Sprachen | multilingual |
---|---|
Online | 1998 – 17. März 2017 |
www.dmoz.org[1] |
Das Open Directory Project (ODP), auch bekannt als dmoz (für „Directory Mozilla“), war das größte von Menschen gepflegte Webverzeichnis des World Wide Web.[2] Die Inhalte des Projekts sind frei und wurden von ehrenamtlichen Redakteuren, den so genannten Editoren, bearbeitet und aktualisiert.
Am 28. Februar 2017 wurde bekannt, dass der Domaininhaber Verizon (AOL) die Domain dmoz.org zum 14. März 2017 abschalten werde und entzog dem Verzeichnis damit die technische Grundlage.[3] Dies geschah tatsächlich am 17. März 2017.[4] Über die Gründe wurde nichts verlautet.[5][6]
Das Nachfolgeprojekt wurde unter dem Namen Curlie entwickelt und ist seit Ende 2017 online.[7]
Geschichte
Von „Gnuhoo“ zum „Open Directory Project“
Das ODP wurde ursprünglich unter dem Namen Gnuhoo gegründet und ging am 5. Juni 1998 online. Der Name wurde später in Newhoo geändert, nachdem ein Slashdot-Artikel darauf hinwies, dass Gnuhoo nicht auf freier Software basiert und dass Gnuhoo das Markenzeichen des GNU-Projektes ohne Erlaubnis benutzte.[8]
Newhoo wurde zum Open Directory Project, nachdem es im Oktober 1998 von Netscape gekauft wurde und seinen Inhalt unter einer Open-Content-Lizenz veröffentlichte. Im November 1998 wurde Netscape inklusive des ODP von AOL gekauft, welches im Jahre 2000 mit Time Warner fusionierte. Abgeleitet von der ersten Hostingadresse directory.mozilla.org entstand die Kurzform „Dmoz“ bzw. „dmoz.org“.
Am 20. Oktober 2006 erfuhr das ODP schwerwiegende technische Probleme. Die Funktionen für das Vorschlagen von Links und Änderungen sowie die internen Bearbeitungsfunktionen zum Ändern von Katalogeinträgen waren gesperrt. Am 18. Dezember 2006 wurde der Zugang für Editoren wieder freigegeben; am 13. Januar 2007 das öffentliche Interface für das Vorschlagen von Sites und Änderungen und am 23. Februar 2007 die Möglichkeit, sich als neuer Editor zu bewerben.
Motivation
Die Motivation zur Gründung des ODP war die Frustration über die mangelhafte Aktualität, d. h. die lange Verzögerung bei der Aufnahme neuer Sites und der hohe Anteil toter Links in redaktionell betreuten Verzeichnissen. Aber auch Kritik daran, das Internet immer weiter zu kommerzialisieren und auf einen Werbeträger zu reduzieren, statt dem freien Zugang zu Informationen eine höhere Priorität einzuräumen.
Davon ausgehend, dass der Mensch automatisierten Katalog- und Suchsystemen überlegen ist, sollte dem Nutzer ein qualitativ besseres, verdichtetes Suchergebnis zur Verfügung gestellt werden. Ausdruck dafür war der Slogan Humans do it better zur Abgrenzung von automatisierten Suchmaschinenkonzepten.
Allerdings wurde auch beim ODP die mangelhafte Aktualität und lange Bearbeitungsdauer kritisiert. Die Verzögerung bei der Aufnahme ähnelte in vielen Kategorien jener, die früher bei Yahoo üblich war. Die Editorengemeinschaft konnte mit dem Wachstum des Internets nur mühsam Schritt halten und es fehlten in zahlreichen Kategoriezweigen Editoren, um die Vielzahl der Anmeldungen zu bearbeiten.
Nachahmer
Die Idee inspirierte mindestens zwei weitere Webverzeichnisse, welche ebenfalls von privaten Unternehmen finanziert und von freiwilligen Editoren bearbeitet wurden: Das Go-Verzeichnis (ehemals betrieben von Disney) und Zeal (gekauft von LookSmart). Beide sind mittlerweile eingestellt. Keines dieser Verzeichnisse veröffentlichte seine Daten jedoch als Open Content.
Struktur
Das Open Directory Project baute auf einer klassifizierten Baumstruktur im Hypertext-System auf. Vom Ursprung aus gesehen wurden Kategorien thematisch oder regional abgeleitet und bis in die Unterkategorien in 89 Sprachen und Dialekten (Stand Juni 2014) vererbt. Jeder Eintrag konnte so nach der höchsten Relevanz für ein Thema oder eine Region in einer passenden Kategorie zugeordnet werden. Auch Mehrfacheinträge waren möglich, wenn sie an mehreren Stellen relevant waren.
Datennutzung
Die ODP-Inhalte waren kostenlos und ungehindert öffentlich zugänglich. Zusätzlich wurde ein kostenfreies Nutzungsrecht zur Weiterverbreitung als komplette oder auszugsweise Veröffentlichung gewährt.[9] Die Daten standen dafür in einer frühen Form des RDF-Formats zum Download zur Verfügung. Es erschien in der Regel wöchentlich eine neue Version. Die Daten des in sich abgeschlossenen ODP Sets (Dump) enthielten sowohl die URL-Einträge als auch die Verzeichnisstruktur inklusive der Verlinkung zwischen Kategorien.
Die Weiterverbreitung der Daten erfolgte zu Open-Directory-Project-Lizenzbedingungen. Diese sahen eine sichtbare ODP-Quellenangabe mit Links für das Vorschlagen neuer Einträge und für die Bewerbung zur Mitarbeit beim ODP auf jeder einzelnen Seite vor, die Inhalte des ODP beinhaltet.[10] Aufgrund dieser Regelung wurden die Inhalte vielfach von anderen Seiten übernommen. Unter anderem nutzte auch Google bis 2011 die Daten des Dmoz für sein eigenes Webverzeichnis.[11]
Editoren
Das ODP bezeichnete sich als ein Projekt ehrenamtlicher Redakteure, die im Internet veröffentlichte Informationen systematisch katalogisieren und öffentlich zur Verfügung stellen. Editoren sind immer nur für bestimmte Kategorien und Zweige zuständig. Hierzu wurden möglichst viele verschiedene Editoren, mit jeweils besten Kenntnissen auf einem Spezial- und Interessengebiet, im Konsens betraut.
Trotz der Möglichkeit, Seiten vorzuschlagen, wuchs das Verzeichnis überwiegend durch eigene Recherchen von Editoren. Dazu gehörten auch Querschnittstätigkeiten, wie die Anlage neuer Unterkategorien, das Verschieben von Einträgen in passendere Kategorien und die Aktualisierung von Einträgen und Kommentaren.
Die Editorengemeinschaft baute auf
- den öffentlich zugänglichen Richtlinien
- Vertrauen auf Kompetenz, Verantwortung und Zuverlässigkeit des Einzelnen
- einem Mehraugenprinzip, mit gegenseitiger Abstimmung von Zweifelsfällen und bei der Einarbeitung neuer Editoren
- Hilfestellung von übergeordneten Editoren (Metaeditoren) und Administratoren
auf. Neben der Pflege des bestehenden Datenbestandes umfasste die Tätigkeit von Editoren vornehmlich die Veröffentlichung neuer Einträge in der von ihnen bearbeiteten Kategorie. Die Mitarbeit in der Freizeit war nicht verpflichtend und nicht an feste Zeiten gebunden.
Das Bewerbungsverfahren als neuer Editor oder um neue Kategorien und Erweiterung der Editierrechte umfasste drei Beispiellinks und Beschreibungen sowie Fragen zum Themenbezug.[12] Qualität und Verhinderung von Missbrauch spielen, auch wegen der Abgabe der Daten in offener Lizenz an weitere Datennutzer, eine übergeordnete Rolle. Eine Mindestvorbildung oder Referenzen o. ä. waren nicht erforderlich.
So wie Editoren auch von ihren Rechten zurücktreten und das ODP verlassen konnten, konnten aktive Editoren bei Verstößen gegen die Richtlinien wegen Missbrauch, Unzuverlässigkeit und unverantwortlichem Verhalten kurzfristig aus dem Projekt ausgeschlossen werden.
Datenaufnahme und Pflege
DMOZ-Einträge umfassten einen kurzen Titel (in der Regel Bezeichnung der Website oder Firma) und eine Kurzbeschreibung zu Inhalt, Angebot und Besonderheiten einer Website.
Die Aufnahmekriterien waren seit Beginn des Verzeichnisses unverändert. Zum Eintrag sollte ein informatives, zuordnungsfähiges, seriöses und relevantes Informationsangebot mit eigenen Inhalten einer Website kommen. Der Informationsgehalt einer Website bestimmte sich nach dem Grad eigener Inhalte im Verhältnis zu Werbung (Banner, Adwords, Adlinks), fremd eingebundenen Seiten und kopierten Informationen aus anderen Seiten. Gewaltverherrlichende, rassistische, pornografische und zu kriminellen Handlungen auffordernde Websites wurden nicht aufgenommen bzw. aus dem Datenbestand entfernt.[13]
Zusätzlich gab es eine Reihe von Mechanismen und Werkzeugen, die auf eine Verbesserung von Datenqualität und Relevanz von Kategorien sowie Ausschluss von Missbrauch einwirken sollen. Dafür stand in jeder Kategorie ein Formular für externe Aufnahmevorschläge, eines für Aktualisierungswünsche bestehender Einträge und eines zur Überprüfung eines Missbrauchsverdachts (durch Metaeditoren) zur Verfügung.
Ergänzend zur Arbeit der Editoren wurde der eigene Webcrawler namens Robozilla in Zeitabständen über alle im Verzeichnis gelisteten Einträge geschickt, um tote, beeinträchtigte oder verdächtige Links zu finden. Robozilla entfernte sie vorübergehend aus dem Verzeichnis und markierte sie zur Prüfung durch Editoren, die weitergehende Maßnahmen ergreifen können.
Einträge abgelaufener Domains wurden weitgehend automatisch aus dem Verzeichnis entfernt, um die Aktualität zu gewährleisten und falsche oder irreführende Inhalte durch Hijacking und „Parking“ von Internetadressen zu verhindern.
Im Laufe der Zeit nahm die Zahl der von Netscape bzw. AOL kontinuierlich für das Projekt abgestellten festen Mitarbeiter ab. Dies wurde kompensiert durch eine Reihe Tools, die von Editoren geschaffen und qualifiziert in Absprache mit der Administration eingeführt wurden. Um sich die Arbeit zu vereinfachen, wurden Linkprüfer, spezialisierte Webcrawler, Rechtschreibprüfer, verbesserte Suchmaschinen und eine Reihe von Bookmarklets für Bearbeiter erstellt.
Ausgliederungen
Im Laufe der Jahre haben Editoren eine Reihe verwandter Projekte autonom gestartet, die teilweise auf der auch vom ODP genutzten Software basieren. Keines davon war jedoch bislang so erfolgreich wie das ODP selbst.
Eines dieser Projekte war als Verzeichnis im Verzeichnis direkt ins ODP integriert: Der Zweig für Kinder und Jugendliche, kidmoz. Dort wurden ausgewählte Sites speziell für die Zielgruppe Kinder und Jugendliche mit passenden Beschreibungen sowie Altersangaben versehen und gelistet. Organisatorisch war dieser Teil des Verzeichnisses relativ unabhängig, auch wenn die Richtlinien für beide Verzeichnisse galten und eine Reihe von Editoren in beiden Verzeichnissen aktiv waren. Gegründet wurde es im November 2000.[14]
Ein weiteres, auf das Sammeln aller mit Musik und Musikern zusammenhängenden Daten spezialisiertes Projekt ist MusicMoz. Dieses existiert derzeit nur auf Englisch, ein deutschsprachiger Zweig ist jedoch in Vorbereitung.
Daten und Fakten
Am 31. Januar 2014 verzeichnete das ODP über 4,2 Millionen Einträge (knapp 500.000 davon im deutschsprachigen Teil des Katalogs) in über 1.000.000 Kategorien sortiert. Im Januar 2016 gab es noch knapp 4 Millionen Einträge, die Gesamtzahl der Editoren lag bei über 90.000. Im Juli 2016 gab es 3.938.044 Einträge von insgesamt 91.441 Editoren.
Grundlage für die Aufnahme und Pflege von Einträgen waren die öffentlich zugänglichen Richtlinien und Hinweise und ob eine Seiteninformation für das Thema sinnvoll und eine wertvolle Ergänzung ist.[13]
Curlie.org verzeichnete im September 2019 3.444.397 Seiten (426.509 davon im deutschsprachigen Teil des Katalogs) in 91 Sprachen und 1.033.965 Kategorien von insgesamt 92.019 Editoren.[15]
Weblinks
- Genesis of the Open Directory Project ( vom 14. Januar 2015 im Internet Archive), eine Zusammenfassung der Geschichte und Strategie des ODP in Folienform von Rich Skrenta (englisch)
Nachfolgeprojekte
- Curlie
- Open Directory Project.org: statische Kopie der letzten Version
Einzelnachweise
- ↑ www.dmoz.org ( vom 14. November 2017 im Internet Archive)
- ↑ dmoz.org ( vom 11. Oktober 2016 im Internet Archive)
- ↑ About Us. Abgerufen am 15. Februar 2024.
- ↑ dmoz.de. Abgerufen am 17. Oktober 2018.
- ↑ Dmoz wird geschlossen - WebABC.info. In: WebABC.info. 2. März 2017 (webabc.info [abgerufen am 23. März 2017]).
- ↑ RIP DMOZ: The Open Directory Project is closing. In: Search Engine Land. 28. Februar 2017 (searchengineland.com [abgerufen am 1. März 2017]).
- ↑ Das Nachfolgeprojekt Curlie ist online. Abgerufen am 9. Dezember 2017.
- ↑ Slashdot: The GnuHoo BooBoo ( vom 28. Februar 2014 im Internet Archive)
- ↑ Gesellschaftsvertrag ( vom 21. Oktober 2016 im Internet Archive) von Netscape mit Selbstverpflichtungen gegenüber der Web-Community
- ↑ Open Directory License ( vom 20. Oktober 2016 im Internet Archive)
- ↑ Herbert Braun: Google schließt seine Labs. In: Heise Developer. 21. Juli 2011, abgerufen am 30. Juli 2011: „Zugleich machte Google seinen Webkatalog Google Verzeichnis stillschweigend dicht. Dieser bereits vor elf Jahren als Konkurrenz zum Yahoo-Katalog gestartete Dienst wertete Daten aus Netscapes dmoz-Verzeichnis mit einem Ranking innerhalb der Rubriken auf.“
- ↑ Fragen und Antworten zur Bewerbung als Editor beim Open Directory Project ( vom 18. Oktober 2016 im Internet Archive)
- ↑ a b Open Directory: Editierrichtlinien ( vom 18. Oktober 2016 im Internet Archive)
- ↑ Newsletter März 2001 ( vom 1. März 2017 im Internet Archive) mit Vorstellung des neuen Projekts
- ↑ curlie.org