|
||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||
|
ProjektbeschreibungInhalt
1 Allgemeines/Organisatorisches1.1 Name des ProjektesSuchmaschinennetzwerk im Internationalen Naturwissenschaftlichen NetzArbeitskürzel: SINN 1.2 ProjektleitungDr. Eberhard R. Hilf, Prof. i. R.Institute for Science Networking an der Carl von Ossietzky Universtät Oldenburg D- 26111 Oldenburg, Germany 1.3 Projektlaufzeit24 Monate1.4 Teilnehmende Einrichtungen
PhysNet wird im Auftrage der internationalen Fachgesellschaft EPS (European Physical Society) durch die Universität Oldenburg (Fachbereich Physik, Institute for Science Networking) betrieben und inhaltlich kontrolliert durch ihr ACPuC Action Committee on Publication and scientific Communication. 2 Beschreibung des Projektes2.1 ProjektzielSINN will das seit 1994 entwickelte Informationssystem PhysNet www.eps.org/PhysNet/ - eine von der Universität Oldenburg im Auftrag der EPS (European Physical Society) betriebene Suchmaschine über weltweit zur Zeit etwa 1.500 Physik-Fachbereiche und Institute - zu einem in der Nutzung belastbaren, sicheren weil verteilten, und akzeptierten Dienst ausbauen.Dies soll durch den Aufbau eines globalen und kohärent gekoppelten Netzes von Brokern (Query-Beantwortern) und Gatherern (Informationssammlern) erfolgen. Die eingesetzte Software HARVEST ist eine offene Software der University of Colorado, deren Weiterentwicklung u. a. von der Universität Dortmund unterstützt wird. Sie bietet mit ihrer Replica-Technik (automatische Spiegelung und Aktualisierung der verteilt erstellten regionalen Indexfiles (ohne zentralen Server), sowie Routen der Queries zu auskunftsbereiten Brokern) zu dem geplanten Vorhaben die technische Möglichkeit. Die Replica-Technik wurde bisher noch nicht im praktischen Betrieb eingesetzt, aber von uns in enger Zusammenarbeit mit den Mathematik-Gruppen an der Universität Osnabrück und am Konrad-Zuse-Zentrum für Informationstechnik Berlin bereits getestet. Die gemeinsam mit dem Math-Net www.math-net.de entwickelten Programme und Standards sollen eingesetzt, im praktischen internationalen Betrieb erprobt und so angepaßt werden, daß eine Übertragung auf andere wissenschaftliche Fachrichtungen vorbereitet wird. Das Suchmaschinen-Netzwerk soll mehrere netzglobal verteilte Spiegel des vollen Datensatzes von Indexfiles enthalten und bei Ausfall eines (oder mehrerer) der beteiligten Suchinterfaces den Nutzer automatisch auf ein anderes, funktionierendes Interface weiterleiten. Zugleich kann der Einsatz regionaler Broker die Leitungsnetzbelastung weltweit verringern, das Antwortverhalten verbessern, und so die Skalierung zu größerer Nutzung vorbereiten. Es soll eine Sprache zum optimalen Anfragenaustausch zwischen den Spiegeln definiert und erprobt werden, um das Gesamtsystem gegen Ausfall von einzelnen Spiegeln zu sichern. Die Verteilung der weltweit eingehenden Queries auf ein Netz verteilter Broker, die jeder alle Indexfiles als Informationsquelle haben, soll das System sicher (gegen den Ausfall eines Brokers) und schnell machen. Der Dienst ist fachspezifisch, d. h. auf Informationen aus der Physik ausgerichtet. Durch die Beschränkung auf Informationen aus - von den nationalen Fachgesellschaften anerkannten - Physik-Institutionen wird eine gewisse Fachkompetenz der Antworten sichergestellt. Es soll die internationale Kooperation durch gemeinsame virtuelle Strukturen zum Austausch von und dem Arbeiten an den Programmen, dem Transfer von Kenntnissen und Erfahrungen, sowie durch gemeinsame Workshops der Teilnehmer organisiert werden. Als Kern dienen die im Vorhaben organisierten internationalen Tagungen. Es soll die Kenntnis über die Dienste bei den potentiellen Nutzern (allein in Deutschland 38.000 Physiker, weltweit ca. 500.000) verbreitet werden durch Präsentationen auf Fachtagungen, Treffen der beteiligten Interessengruppen, sowie Messen. Jeweils soll die Reaktion der Nutzung der Dienste auf die Aktionen gemessen und diese Kenntnisse zu einer Professionalisierung sowie der Vermehrung der Akzeptanz verwertet werden. Die Belastung der Internet-Leitungen durch die Nutzung soll detailliert gemessen und das Antwortverhalten durch Ausschöpfung der Möglichkeiten der Vernetzung von verteilt gekoppelten Brokern skalierbar optimiert werden. Am Ende des Projektes soll es ein weltweites, netzwerkbasiertes Physik-Informations-System geben, das die gebündelte Information möglichst vieler fachspezifischer Server vorhält, über verteilte Suchmaschinen zugänglich macht, redundant spiegelt und eine einheitliche Nutzeroberfläche zu möglichst vielen der fachspezifischen Datenquellen (z. B. Verlagsdatenbanken, Preprint-Servern etc.) bietet. Das Netzwerk soll international von den Nutzern akzeptiert sein. Ein Nutzerprofil soll erstellt und als Arbeitsgrundlage für weitere Projekte im Bereich des Fachinformationsmanagements zur Verfügung stehen. Es wird Software zur Verfügung stehen, die es erlauben wird, ,,Meta-Suchmaschinen`` aufzubauen.
Der Nutzer des Systems kann über seinen Web-Browser eine ihm vertraute,
nutzerkreisspezifische Suchoberfläche nutzen. Das Gesamtsystem ist durch seine
verteilte Architektur unempfindlich gegen den Ausfall einzelner Teilsysteme. Das
System überwacht sich selbst und leitet ggf. die Nutzung auf den jeweils
funktionierenden Anteil des Systems um.
Nach Projektablauf sollen die Nutzer den Dienst kennen und ihn weiterhin nutzen. Durch die Standardisierung aller verwendeten Protokolle (XML-basierend) wird erreicht, daß der Dienst auch nach Projektende ohne großen personellen - also finanziellen - Aufwand weitergeführt werden kann. Da es sich um einen Mehrwertdienst handelt, der auf Dienste (Suchmaschinen, Datenbanken) aufsetzt, die aus anderen Quellen betrieben und finanziert werden, wird die Übernahme eines funktionierenden und akzeptierten ,,SINN-Dienstes`` durch diese möglich sein. Das schon bisher bewährte Grundkonzept ist, daß die Betreiber von Teildiensten (z. B. nationale Gatherer und Spiegel) anderer Ländern sich dort finanzieren. Beispielsweise hat das ,,Action Committee on Publication and Scientific Communications`` der EPS im April 2000 beschlossen, den Routinebetrieb von PhysNet ohne zeitliche Beschränkung weiter zu fördern.
2.2 Inhaltlicher HintergrundDas Management wissenschaftlicher Fachinformation hat als eine seiner Aufgaben, für die aktuelle wissenschaftliche Forschung alle benötigten Informationen nutzbar bereitzustellen: Zum Beispiel Ergebnisse anderer Wissenschaftler, Daten und Fakten, Adressen von Kollegen, Hinweise auf Tagungen.Im Zeitalter der gedruckten Information war der Engpaß der Transport und die Verteilung der Information. Dies geschah durch ein ausgeklügeltes System des Einsendens von kompakten, im Umfang beschränkten Texten an Verlage, die diese referieren ließen und mit thematisch verwandten Artikeln zu einzelnen Heften von Zeitschriften bündelten, die dann aufwendig über Druck und Grossisten an die Bibliotheken vertrieben wurden -- auf Vorrat, falls am Standort die Information gebraucht werden könnte. Im digitalen Zeitalter lassen sich Informationen beliebigen Umfangs und von beliebigen weltweit verteilten Erzeugern aufs Netz stellen. Der Engpass ist nun die Organisation des Auffindens von Information und das Herausfiltern der relevanten Information aus der riesigen Menge der Gesamtinformation des Webs. Diese Aufgabe gilt es verschärft für wissenschaftliche Informationssysteme zu lösen, da die fachrelevante Information nur ein besonders kleiner Teil der insgesamt im Web verfügbaren Information ist. Diesem Zweck soll ein fachspezifisches Suchmaschinen-System dienen. Die generellen Anforderungen an ein optimales Informationssystem sind seit langem bekannt (www.physik.uni-oldenburg.de/Docs/THEO3/ information/publications/metafiles/9701.html) : Retrievalsysteme allgemein lassen sich mittels einiger Standardmaßzahlen wie Recall, Precision, Fallout-Ratio, Search-Destillation etc. charakterisieren (www.inf-wiss.uni-konstanz.de/People/CWH/vortrag.html) . Besondere Beachtung sollte in diesem Zusammenhang dem jährlichen TREC-Wettbewerb trec.nist.gov (Text REtrieval Conference) gewidmet werden. Die bisher von Physikern genutzten Systeme mit ihren Vor-und Nachteilen sind: AltaVista www.altavista.com ist eine zentrale
Suchmaschine mit einem riesigen, für das Fach Physik viel zu
großen Suchraum, der aber andererseits die meisten, in
größerer ,,Klicktiefe`` in Fachbereichsservern lagernden
Dokumente nicht enthält (an Fachbereichen
der Physik sind dies die Tiefen 4-10, siehe
www.physik.uni-oldenburg.de/~ eprint/netz/report.html).
ArXiv www.arxiv.org ist ein zentrales e-Print Archiv der Physik und angrenzender Gebiete, in Los Alamos, USA mit einer Nutzung von 3 Millionen Anfragen pro Monat. Dieses Archiv wächst im Monat um ca. 3.000 neue Dokumente und verfügt über eine leistungsfähige, gut differenzierende Suchmaschine. 15 weltweit verteilte passive Spiegeln (in jedem Industriestaat maximal einer) sichert die stete Erreichbarkeit. Der deutsche Spiegel wird an der Universität Augsburg betrieben. Die nachgewiesenen Dokumente werden von Physikern eingesandt und mit Zeitstempel registriert und archiviert. Die Email-Adresse der Einsender wird geprüft und mit der Adresse des Hauptautors verglichen. Es handelt sich ausschließlich um primäre wissenschaftliche Publikationen, die in aller Regel (über 90 %) parallel auch an Verlage wissenschaftlicher Zeitschriften gesandt werden, die eine wissenschaftliche Referierung bieten. Der Suchraum ist also vollkommen relevant, aber keineswegs vollständig (derzeit etwa 10 % der insgesamt in der Physik entstehenden Publikationen). Die Verletzbarkeit von ArXiv liegt in der einzigen zentralen Dokumentenannahme in Los Alamos.
ArXiv wird vom LANL, einer Großforschungseinrichtung, grundfinanziert und erhält eine Förderung durch die NSF.
TIPTOP physicsweb.org/TIPTOP ist eine zentrale Datenbank
mit einer unmoderierten Uploadstation für
Physik-Informationen fast beliebiger Art. Sie wird vor allem für nicht
primäre wissenschaftliche Informationen benutzt.
Ein Großteil der Informationen ist Physik-relevant, aber
die Datenbank ist zu klein. Die Eintragungen sind
notwendigerweise - da ungepflegt -
oft veraltet und die Datenbank enthält teilweise Einlagen von
Laien (oder Provokateuren), die definitiv nicht professionell
relevant sind.
So führt die Datenbank für Physik-Institute nur zu den Adressen, die von
irgendjemand, dessen Identität weder festgehalten noch geprüft wird,
einmal eingetragen wurden. Sie sind großteils veraltet,
Links funktionieren nicht, die Listen sind unvollständig und unsystematisch
(teilweise werden von einer Universität der Fachbereich, teilweise nur
ein Institut genannt).
Diese drei Systeme sind zentrale Archive.
Eine Zwitterstellung nimmt NDLDT ein.
In diesem im Aufbau befindlichen System des Virginia Polytechnic
Institute and State University (Virginia Tech)
sind die Informationen nicht nach Fächern geordnet.
Es ist zwar eine zentrale Datenbank, aber die Dokumente sind
Kopien der Dokumente von verschiedenen
großen Dokumentensammlungen mit Inhalten aus
verschiedenen Wissenschaftsgebieten.
Eine weitere Kategorie sind die wissenschaftlichen Verlage. Sie unterhalten zum Teil sehr große zentrale Dokumentenarchive. Der Zugang ist oft kostenpflichtig. Es handelt sich um zentrale Volltextarchive mit z. T. einigen passiven Spiegeln. Ein System mit weltweit verteilten Servern als Quellen eines Physik-Dienstes gibt es außer dem 1994 begonnenen PhysNet bisher nicht. Der zu den bisher genannten Systemen komplementäre Dienst PhysNet wird daher im folgenden Abschnitt vorgestellt.
3 Projektplanung3.1 Projekt-Vorleistungen, Vorarbeiten, bisherige Ergebnisse3.1.1 Stand der eigenen Dienste3.1.1.1 PhysNetPhysNet physnet.uni-oldenburg.de/PhysNet ist zu den in Kapitel 2.2 genannten Systemen komplementär. Es vermeidet durch einen prinzipiell anderen Ansatz die Nachteile der Notwendigkeit großer zentraler Rechenanlagen für Volltextarchive. Dafür werden die logischen und nicht nur die technischen Möglichkeiten des Internets genutzt: Die Dokumente bleiben auf dem Server des Erzeugers und können von diesem gepflegt werden. Dafür muß eine gewisse Organisation der Koordination von verteilten Gatherern und Brokern entwickelt werden.Dieses Konzept wurde zeitgleich aber unabhängig auf dem Workshop in Halle 1994 von M. Grötschel (,,MathNet``) und uns (,,PhysNet``) vorgestellt. www.physik.uni-oldenburg.de/~ hilf/vortraege/halle-ebs/halle-ebs.html Die Leitlinien von PhysNet sind: Der Antragsteller hat in den vergangenen Jahren seit 1994 mit dem PhysNet einen in der Physik-Community von monatlich etwa 30.000 Physikern genutzen Dienst geschaffen. Es handelt es sich um ein Bündel von Diensten, u. a. um Linklisten zu administrativen Informationen (Homepages der Institutionen), grauer Literatur, Lehr- und Lernmaterialien, ,,Free-Access`` Journals, Konferenzen, Stellenanzeigen usw. Jede der thematischen Listen ist durch eine HARVEST-basierte Volltext-Suchmaschine vervollständigt. Insbesondere jene Suchmaschinen, die die graue Literatur (Publikationen, die online auf dem Server des Autors verfügbar sind) und die die Homepages der Fachbereiche und Institutionen erschließen, lassen sich nicht oder nur eingeschränkt (Einschränkung des Dokumentenraumes) als zentrale Dienste betreiben, ohne die Netzbelastung unvertretbar zu erhöhen.
Deshalb wurden nationale und internationale Partner gefunden, die für die Suchmaschinen ebenfalls Roboter (HARVEST-Gatherer = Dokumentensammler) betreiben. Momentan sind dies (an den Universitäten die jeweiligen Physik-Fachbereiche): Im Mai 2000 wurden durch die internationalen Fachorganisationen IMU (International Mathematical Union) (Mathematik) und die EPS (European Physical Society) / IUPAP (International Union for Pure and Applied Physics) (Physik) die formalen Randbedingungen für die offizielle weltweite Einführung gelegt. Hierdurch sind nun die Bedingungen für die Teilnahme von Instituten und nationalen Fachgesellschaften festgelegt. Im April 2000 haben sich EPS und IMU auf ein Kooperationsabkommen verständigt. Dies wurde im Juni 2000 vom Executive Board der EPS beschlossen. PhysNet nutzt die Inhalte der weltweit verteilten Webserver der von Fachgesellschaften anerkannten Physik-Institute und Fachbereiche an Hochschulen als verteilte Datenbank. Als Metadaten-Standard wird Dublin-Core purl.org/dc (ab 16. August 2000 voraussichtlich ANSI/NISO Z39.85-2000) verwendet (siehe auch IETF RFC 2413 und 2731). Hierzu wurde zusammen mit der Mathematik in Osnabrück eine Webform entwickelt physnet.uni-oldenburg.de/services/mmm/, die die Metadaten erzeugt und dem Nutzer zurückgibt. Die Pflege der Daten geschieht durch die Autoren selbst.
3.1.1.2 Harvest-Replicator - Aufbau logischer Broker-NetzeStand der Technik für die Replica-Technik ist, daß es hierfür eine HARVEST-Software gibt, die jedoch der Anpassung und Überarbeitung bedarf. Im Rahmen des MathNet-Projektes wurde die Software erprobt, wobei festgestellt wurde, daß in der momentanen Implementation die Anzahl der spiegelbaren Dokumente auf etwa 100 begrenzt und die Anzahl der Spiegel maximal drei (!) sein darf. Die Software läuft momentan auch nicht stabil. Das Hauptproblem liegt dabei im verwendeten Algorithmus zur Berechnung der Topologie und der unnötig extensiven Nutzung von Systemressourcen. International arbeiten an der Weiterentwicklung der HARVEST-Software u. a. das Tardis-Projekt www.tardis.ed.ac.uk/~ harvest, Teile des DESIRE-Projektes www.lub.lu.se/desire/, der Lehrstuhl VI des Fachbereiches Informatik an der Universität Dortmund ls6-www.cs.uni-dortmund.de/projects.html. Der Antragsteller hat zusammen mit der Arbeitsgruppe ,,Algebraische Topologie, Differentialtopologie`` des Fachbereiches Mathematik/Informatik an der Universität Osnabrück mehrere Patches geschrieben, die inzwischen fester Bestandteil des HARVEST-Paketes sind: Verarbeitung von Sonderzeichen, Sequenzielles Gatherern. Weiterhin hat der Antragsteller zusammen mit ,,Telemática de la Universidad Pública de Navarra`` ein Programm zur Auswertung des HARVEST-Broker-Log-Files zwecks Erstellung einer Nutzungsstatistik geschrieben. Mit den Arbeitsgruppen in Dortmund und Osnabrück bestehen enge technische Kooperationen. So ist der Antragsteller beispielsweise Pilotnutzer im AP7, SFM CARMEN im Projekt Global-Info, in dem eine XML-Retrieval-Maschine entwickelt wird.Allgemein beruht die Kommunikation von Suchmaschinen untereinander auf zwei unterschiedlichen Verfahren:
3.1.1.3 Query-basierte VernetzungMomentan kommunizieren Suchmaschinen Query-basiert untereinander in proprietären Sprachen, die oftmals sogar auf dem Layout der Query- und Resultseiten der gekoppelten Suchmaschinen aufsetzen (z. B. MetaPhys www.physik.uni-oldenburg.de/MetaPhys und MetaChem www.chemie.de/metachem). Eine standardisierte Sprache, in der die Suchmaschinen Queries an andere Suchmaschinen weiterreichen und die Results zurückliefern, wird benötigt. Vor diesem Hintergrund hat sich 1998 beim W3C die Working Group ,,XML-Query`` gebildet. Diese hat im Januar 2000 ihren ersten öffentlichen Working-Draft herausgegeben www.w3.org/TR/xmlquery-req. XML-Query soll darüber hinausgehend auch Informationen über den Kontext der Suchmaschinen und ihre administrativen Daten (Menge der Daten, Alter der Daten etc.) verwalten und deren Export standardisieren. Als eine weitere Initiative hat sich 1999 die ,,Open Archives Initiative`` www.openarchives.org gegründet, in der sich einige (insbesondere US-Amerikanische) Betreiber offener Archive zusammengeschlossen haben, die die Vernetzung ihrer Archive planen und hierzu das DIENST-Protokoll mit einem gegenüber Dublin-Core und vCard www.imc.org/pdi (RFC 2426) sehr vereinfachten MetaDaten-Satz nutzen wollen.
3.1.1.4 EPRINT-ProjektIn einem ersten Schritt konnte von Januar 1997 bis Juni 1999 im Rahmen des DFN-Projektes EPRINT www.eprint.de ein Informationsbroker aufgebaut werden, der die Informationen der beiden unabhängigen, existierenden Einzeldienste PhysDoc (Verteilte Dokumente auf Fachbereichsservern weltweit) und des ,,arXiv.org e-Print archive`` (Deutscher Spiegel an der Univ. Augsburg) de.arxiv.org des zentralen Preprint-Servers in Los Alamos, USA, prototypisch gemeinsam absuchen ließ.Hierzu wurde ein auf dem HARVEST-Broker aufsetzendes Skript entwickelt www.physik.uni-halle.de/metabrok.html, das die Nutzeranfragen an mehrere Informationsbroker verteilt und deren Anworten zusammenführt. Hierzu wurden auch alle Dokumente im ArXiv mit Dublin-Core Metadaten versehen. Das Vorhaben hat wesentlich beigetragen
Das EPRINT-Vorhaben hat als Erkenntnisse für zukünftige Arbeiten geliefert:
31.1.5 MetaPhysMetaPhys www.physik.uni-oldenburg.de/MetaPhys, ein weiterer vom Antragsteller angebotener Dienst zur verteilten Suche auf u. a. Verlagsservern, verbindet die Teilkomponenten via HTTP miteinander. Das Java(R)-Servlet simuliert dabei die Aktivitäten eines Nutzers mit WWW-Browser. Der Nachteil dieses Verfahrens ist dabei offensichtlich: Es setzt sehr eng auf die Variablennamen der verknüpften Query-Schnittstellen und dem Layout der Result-Seiten auf. Dieser Dienst funktioniert zwar prinzipiell und mit großer Nutzerakzeptanz (6.500 Zugriffe pro Monat), bedarf aber einer kontinuierlichen Pflege.
3.1.1.6 CARMENIm BMBF-Projekt "Global-Info", Sonderfördermaßnahme CARMEN, Arbeitspaket 9 www.physik.uni-oldenburg.de/carmen/ap9 wird an einer fachübergreifenden Verknüpfung des MathNet-Dienstes www.math-net.de mit dem PhysNet-Dienst gearbeitet. Dabei stehen insbesondere die semantischen Probleme der verwendeten Klassifikationsschemata zur Dokumentenbeschreibung im Mittelpunkt.
3.1.1.7 Nutzungsanalyse und -statistikSuchmaschinen können nur nützlich sein, wenn sie den Nutzern bekannt sind und von diesen akzeptiert sind. Bei Diensttypen, die den Nutzern vertraut sind, genügen Werbung und eine Marktanalyse (z. B. Umfrage), um das optimale Anpassungskonzept zu finden. Bei neuartigen Diensten ist die Akzeptanz und Nutzung eine eigenständige Herausforderung, die durch Experimente, das Monitoren des Erfolges und eine Analyse und Anpassung erfolgen.Das Monitoring des Nutzerverhaltens erfolgt mittels des selbstentwickelten Tools Dieses Skript wertet die allgemeine Statistik des Webservers aus (nicht dessen Log-Files). Damit ist es nicht notwendig, die Log-Files zu archivieren, sondern nur deren Zusammenfassungen in der Web-Statistik. Hierzu wird regelmäßig (z. Zt. wöchentlich) eine Nutzungszeitreihe (pro Datei) gebildet. Die so entstehende Matrix dient dann zur weiteren Analyse und Beantwortung von Fragen der Art:
3.1.1.8 Internationale und Interdisziplinäre EinbindungZur Query-basierten Vernetzung bietet sich die erwähnte XML-,,Meta-Sprache`` für Queries und Results von Suchmaschinen an. Diese sollte semantisch, eng gekoppelt zu Dublin-Core purl.org/dc entwickelt werden und syntaktisch in XML codiert sein. Der Antragsteller arbeitet seit Jahren aktiv am Dublin-Core mit (DC:Research - Cochairman der Spezial-Interest-Group, Teilnahme an DC Tagungen, IuK-AK-Metadaten und IuK-AK-Vernetzung).
Weiterhin arbeitet der Antragsteller momentan im Rahmen der Projekte ,,Dissertationen Online`` (DFG) www.dissonline.org und Global-Info SFM CARMEN (BMBF) www.mathematik.uni-osnabrueck.de/projects/carmen/ an der Entwicklung, Verbreitung, Umsetzung und Verwendung Dokumenten-basierter Metadaten-Konzepte, sowie deren syntax- und semantikübergreifender Verknüpfung. Mit dem PhysNet- und dem Dissertationen Online-Projekt ist der Antragsteller aktiv am Aufbau des globalen, interdisziplinären, wissenschaftlichen ,,Open-Archive`` im Rahmen der Open Archives Initiative beteiligt.
3.2 Informations- und kommunikationstechnische BeschreibungDie zur Durchführung des Projektes verwendeten Server sind mit 100 Mbit an das Universitätsnetz angeschlossen. Der Backbone des Universitätsnetzes besteht aus zwei 155 Mbit Leitungen. Der Anschluß an das WiN ist zur Zeit 34 Mbit breit. Laut Aussage des Hochschulrechenzentrums wird sich die WiN-Anbindung im August/September 2000 auf 155 Mbit verbreitern.Das beantragte Projekt stellt den Zugang zu Informationen auf lokalen WWW-Servern her. Während der Dienst selbst lediglich Indexdateien im Netz transportiert, werden von den Nutzern dann die eigentlichen Daten direkt von Erzeuger abgerufen. Insofern stellt das beantragte Projekt eine katalytische Komponente dar, die die Netznutzung durch die Physik triggert. Wesentlich für das Projekt ist außerdem die Vernetzung als Grundlage des verteilten Arbeitens am Projektinhalt. Die Anforderungen an den zukünftigen Netzdurchsatz von PhysNet sind schwer abschätzbar. Zur Zeit gibt es ca. 30.000 Zugriffe pro Monat. Die Queries sind meist Einwort-Fragen. Die Mehrzahl der abgerufenen Dokumente sind Textdokumente. Dies liegt aber an den bisherigen Gewohnheiten der Autoren und Nutzer zu kommunizieren. Die neueren Online Dissertationen beispielsweise sind bereits oft sehr umfangreich (Wegfall der Platzbeschränkung). Durch Metadaten werden sie auch auffindbar. Wir rechnen daher mit einer steil steigenden Anzahl von Nutzern, sobald durch die Einrichtung der Spiegel im Ausland keine nationale Monopolstellung mehr befürchtet wird. Parallel erwarten wir auch einen rasch größer werdenden Datenumfang je Dokument im Mittel. Nehmen wir das ArXiv, das denselben Nutzerkreis wie PhysNet anspricht, aber sich auf einen, wenn auch besonders wichtigen Dokumententyp beschränkt und Dokumentenumfangsbeschränkungen hat, als Anhaltspunkt, so erscheint ein Zuwachs der Nutzung um den Faktor 100 im Antragszeitraum denkbar. (Der einzelne Forscher sucht eher öfter nach begleitenden Informationen als speziell nach Preprints.) Der Umfang der Dokumente, die über PhysNet nachgefragt werden, streut sehr weit. Mit PhysDoc als Teil von PhysNet sind aber auch diejenigen Dokumente auffindbar, die deshalb lokal an den Instituten lagern, weil sie durch den Autor aktuell gehalten werden müssen oder weil sie einen besonders großen Umfang haben. Die Messung der besseren Verbreitung von Kopien solcher Dokumente erfordert das quantitative Monitoring von Fachbereichsservern bei den Anfragen aus PhysNet. Dies wird an unserem eigenen Fachbereich www.physik.uni-oldenburg.de geschehen. So ist die Zahl der angeforderten Seiten wie folgt gestiegen (jeweils für den Monat Oktober):
und hat im März 2000 121.492 Zugriffe erreicht; also voraussichtlich ca. 156.000 im kommenden Oktober und mindestens 320.000 am Ende der Projektlaufzeit. Damit folgt die Entwicklung der Dokumentzugriffe auf diesem Server relativ gut der Gleichung
die besagt, daß sich die Anzahl der Zugriffe etwa alle 2 Jahre verdoppelt. Mit dem Aufkommen von graphischen Materialien und Multimediadokumenten wird sich diese Entwicklung nochmals enorm beschleunigen. Analog erwarten wir eine entsprechend steile Entwicklung der Nutzung von PhysNet. Hierzu muß rechtzeitig das hier beantragte Projekt die Voraussetzungen liefern.
3.3 KommunikationssoftwareIm Rahmen dieses Projektes sollen insbesondere ,,Open-source`` Produkte (hauptsächlich unter Linux) verwendet werden. Als Informationsbroker wird HARVEST download.sourceforge.net/webharvest verwendet werden. XML-Schnittstellen werden auf frei verfügbaren Tools (wie bspw. SAX) unter Java(R) und Perl (Schwerpunkt auf Perl) aufbauend implementiert. Die Userschnittstellen (Web-Schnittstellen) sollen mittels PHP4 implementiert werden und auf Perl5-Skripte zugreifen. Die Kommunikation zwischen den Suchmaschinen wird - auf MetaPhys aufbauend - mittels Java(R)-Servlets erfolgen.Die HARVEST-Software ist bei Beachtung der Zitierpflicht für den nicht-kommerziellen Gebrauch kostenlos verfügbar. Sollten während der Projektlaufzeit neue, bessere Versionen bzw. Produkte erscheinen, wird natürlich auf diese gewechselt. International arbeiten an der Weiterentwicklung der HARVEST-Software u.a. das Tardis-Projekt in Edinburgh, Teile des DESIRE-Projektes in Lund, der Lehrstuhl VI des Fachbereiches Informatik an der Universität Dortmund, zu denen eine enge technische Kooperation besteht.
3.4 Beschreibung des Arbeitsverlaufes: Arbeitspakete und Arbeitsschritte3.4.1 AP1: Technische Realisierung und DienstleistungAP1.a: Aufbau eines verteilten, weltweiten Spiegelsystems von InformationsbrokernAufgebaut werden soll ein sich spiegelndes Netzwerk von Physik-fachspezifischen Informationsbrokern. Ausgehend von dem vom Antragsteller organisierten und betriebenen PhysNet, soll ein Netz von Informationsbrokern aufgebaut werden. Derzeit besteht das PhysNet aus mehreren Gatherern, die ihre Indexinformationen an einen zentralen Informationsbroker liefern, der die gesammelte Information dem Nutzer zugänglich macht. Dieser Index-basierte Datenaustausch erlaubt ein relativ gezieltes und schnelles Einsammeln der fachrelevanten Informationen. In AP1.a soll der zentrale Informationsbroker durch ein Netzwerk von Brokern ersetzt werden. Die Broker tauschen untereinander die Änderungen ihrer Datenbasen aus. Dabei wird auf dem im HARVEST-Programm bereits implementierten Replica-Konzept aufgebaut (siehe 3.1.1.2). Zum Betrieb eines solchen Brokernetzwerkes ist es notwendig, daß jeder Broker über alle anderen gewisse Informationen vorhält: Ob er funktioniert, wie schnell seine Antwortzeit ist usw. Diese technisch-administrative Information soll mittels eines XML-basierten Protokolls ausgetauscht werden. Vorgesehen ist, daß diese Information nicht direkt vom Broker-Rechner versendet wird, sondern von einem anderen Rechner, so daß auch die Meldung ,,Broker-Rechner läuft nicht`` versandt werden kann. Wenn ein Broker nicht funktioniert, oder aber sehr lange Antwortzeiten aufweist (starke Auslastung), so kann das Protokoll genutzt werden, um dem Nutzer einen der Spiegel vorzuschlagen, der voraussichtlich schneller die gesuchte Antwort liefert. Das Arbeitspaket soll u. a.
AP1.b: Entwicklung einer Sprache zum Anfragenaustausch
3.4.2 AP2: Internationale EinbettungAP2.a: Koordination mit den existierenden Partnern und Einbindung neuer PartnerDie neuen und existierenden (siehe Titelseite) internationalen Partner als Betreiber der Spiegelbroker sollen formal in das Gesamtprojekt eingebettet werden. Es soll mit den Partnern eine schriftliche Vereinbarung über die zu verwendenden Standards getroffen werden. Die Aufteilung der Dienstleistungen und deren Einbindung in das Gesamtprojekt soll in einem möglichst frühen Projektstadium festgeschrieben werden. Neue Partner sollen für das Projekt interessiert und eingebunden werden. Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 3 PM beanspruchen.
AP2.b: Schulung und Einweisung der Partner in das Konzept,
Installation der Software
AP2.d: Gremienarbeit
3.4.3 AP3: NutzeranalyseEinzelne Aktionen (Tagungen, Zeitschriftenartikel, Änderung der Nutzeroberfläche etc.) bewirken eine Änderung der Akzeptanz und Nutzung eines Dienstes. Dies läßt sich anhand einer Zeitreihenanalyse der Webserver-Statistik nachweisen und entsprechend können die Aktionen optimiert werden.Das Nutzerverhalten soll mittels des in 3.1.1.7 beschriebenen Verfahrens und unter Verwendung der vorhandenen Software ausgewertet werden. Hierauf aufbauend ist es dann möglich, weitere Aktivitäten optimiert zu plazieren. Die Belastung der Internetleitungen soll anhand der Nutzung der einzelnen Broker ermittelt und detailiert gemessen werden. Durch Ausschöpfung der Möglichkeiten der Vernetzung soll das Antwortverhalten des Netzes von Brokern optimiert werden. Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 7 PM beanspruchen.
3.5 MeilensteineDie in den Meilensteinen beschriebenen Aufgaben sollen jeweils bis zum entsprechenden Projektmonat abgearbeitet und dokumentiert sein.
1. Meilenstein: 4. Projektmonat
2. Meilenstein: 10. Projektmonat
3. Meilenstein: 16. Projektmonat
4. Meilenstein: 24. Projektmonat
4 Publikationen, Vorträge, AktivitätenEigene Arbeiten zum Gebiet des Projektes finden sich unter www.isn-oldenburg.de/pub_ger.html. Eine Auswahl der Publikationen sei hier gegeben:
|
|||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||
|
mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) und der Niedersächsischen Landesregierung.
Letzte Änderung: 18. Feb. 2008 © 2001-2002, ISN Oldenburg GmbH |
|||||||||||||||||||||||||||