Developing Blogpost: Autorenidentifikation am Beispiel ORCID (#orcid12de)

© Heinz Pampel

Gemeinsam mit der Open Researcher & Contributor Identification Initiative (ORCID) veranstaltet die Arbeitsgruppe Elektronisches Publizieren (E-Pub) der Deutschen Initiative für Netzwerkinformation (DINI) und das Open Access Koordinationsbüro der Helmholtz-Gemeinschaft heute einen Workshop, der sich dem Status quo und den zukünftigen Entwicklungen im Bereich der Autorenidentifkation widmet. Am Beispiel von ORCID sollen Strategien für die Integration und Vernetzung von Repositorien und deren Anschlussfähigkeit dargelegt und diskutiert werden.

Ich werde versuchen ein paar interessante Aspekte, Statements und Beispiele während der Veranstaltung hier zu verbloggen (die Updates laufen von oben nach unten).

#Beginn

11:00 – Begrüßung durch Dr. Andreas Degkwitz, Humboldt-Universität zu Berlin

  • Autorenidentifikation hat mit dem Pflichtexemplar schon in der Printwelt eine große Rolle gespielt, was ursprünglich auf die Zensurbestrebungen zurückging.
  • In der virtuellen Welt sind die Bemühungen um eindeutige Autorenidentifikation nicht minder wichtig, im Gegenteil.

11:10 – Keynote „Autorenidentifikation an wissenschaftlichen Institutionen: Praxis und Vision“ durch Dr. Hans Pfeiffenberger, Alfred-Wegener-Institut für Polar- und Meeresforschung, Bremerhaven

  • Das AWI sammelt die Publikationen ihrer Wissenschaftler in einem eigenen institutionelle Repository ePIC, und nutzt dafür einen eigenen Identifier.
  • Dr. Pfeiffenberger zeigt den Mangel von vollständigen Identifiern öffentlichen Publikationssystem wie ESSDD und PANGAEA – hier fehlen beispielsweise die institutionelle Verknüpfung der Autoren mit den Institutionen
  • Auch Dr. Pfeiffenberger betont die Aspekte der Reputation (der Person oder der Institution), des Vertrauens (Authentizität der Publikation,) und der Verlässlichkeit des Identifikationssystems.
  • Vertrauen zeigt sich maßgeblich in zwei Kategorien – das Vertrauen in die Daten und das Vertrauen in die Datenverarbeitung („…what has been done to the data“).
  • Unter eXpedition hat das AWI ein Portal geschaffen, in dem man einige Forschungsdaten mit Geodatenverknüpfung finden kann (also mit Kartenbezug) – dieses Projekt soll in Zukunft auf weitere Organisationen erweitert werden.
  • Das AWI nutzt eine Verknüpfung von Elsevier zu PANGAEA (Data Publisher for Earth & Environmental Sciences), d.h. es wird über eine Referenz (DOI) geprüft ob es zu einem bei Elsevier erschienen Artikel einen Datensatz bei PANGAEA gibt.
  • Nachvollziehbarkeit und Vertrauen wird durch Identifizierbare Objekte gewährleistet: Personen, Institutionen, Artikel (DOI), Datensätze, Software (-versionen), Proben, Gerätedokumentationen, Berichte. Einiges ist davon schon gewährleistet, an vielem fehlt es aber noch oder ist unvollständig vorhanden.
11:35 – Keynote „Autorenidentifikation an wissenschaftlichen Institutionen: Praxis und Vision“ durch Najko Jahn, Universität Bielefeld
  • Die Universität bietet ein institutionelles Repositorium mit ca. 33.000 registrierten Publikationen und 6.000 selbstarchivierten Dokumenten im Sinn von OA.
  • BASE (Bielefeld Academic Search Engine) ist eine der größten wissenschaftlichen Suchmaschinen und basiert auf OAI-PMH
  • Die Uni Bielefeld nutzt automatisierte Importroutinen aus PUB, PubMed oder ArXiv für die Darstellung der Publikationslisten der Mitarbeiter, Arbeitsgruppen, Fachbereiche, teils auch mit dem Verweis auf Forschungsdaten (beispielsweise im Bereich der Genomforschung).
  • Najko Jahn betont den bereits jetzt anfallenden Aufwand für Forscher und Verwaltung, um diese Daten zu identifizieren, sammeln, aggregieren und auswertbar, auffindbar und durchsuchbar darzustellen.

11:55 – „ORCID Einführung und Demo“ durch Martin Fenner, ORCID

  • Ab dem morgigen Dienstag (16.10.2012) startet ORCID in die Livephase und ist für Wissenschaftler nutzbar.
  • Warum gibt es mit ORCID noch einen weiteren und zudem recht spät in Erscheinung getretenen Ansatz zur Autorenidentifikation? Laut Martin Fenner braucht es eine transparente, nicht-kommerzielle Organisation, dass global einsetzbar ist und offen für alle Disziplinen und Institutionen ist. ORCID nutzt selbst den Ansatz offener Daten, Lizenzen und Codes.
  • Ziel ist es bestehende Identifier (institutionelle, nationale, fachspezifische, kommerzielle, etc.) mit ORCID zu verknüpfen.
  • ORCID basiert auf der Software von ResearcherID, lizensiert von Thompson-Reuter.
  • ORCID bietet zwei API’s für Suchanfragen, etc. – eine öffentliche API sowie eine Membership API. Damit bietet ORCID eine zentrale Stelle für die Pflege von Publikationen, die dann automatisiert an anderer Stelle eingeblendet werden können und somit immer aktuell bleiben.
  • ORCID bietet Support für einen einfachen Einstieg und den Abgleich der vorhandenen Publikationen eines Autoren, z.B. über die Scopus Author ID oder CrossRef.
  • Geplant ist eine Verknüpfung mit DataCite zur Verknüpfung von Wissenschaftlern und Daten.
  • Derzeit können nur die Wissenschaftler oder Universität eine ORCID ID erstellen.
  • ORCID wird sich über Memberships finanzieren. Für Mitglieder werden bestimmte Funktionen sowie der Zugriff auf die komplexere Membership API vorbehalten sein.
  • Der Wissenschaftler behält die Hoheit über seine Daten und kann wählen welche Informationen öffentlich, eingeschränkt (z.B. nur für bestimmte Organisationen) oder privat sind.
Es gibt übrigens eine kurze Präsentation zu „Understanding the ORCID Registry“.

12:20 – Diskussion, Moderation: Thomas Severiens, Institute for Science Networking

  • Wie geht das System mit Daten in der Vergangenheit um?
    Martin Fenner: mit der Zukunft beginnen wir (also mit neu eingereichten Publikationen), zurückliegende Dinge werden sicher durch Wissenschaftler und Bibliotheken sukzessive eingepflegt.
  • Wie geht das System mit Dupletten und Versionen um?
    Martin Fenner: hier muss in ORCID ein Prozess gefunden werden, CrossRef kann dies bereits.
  • Wie geht das System mit einer Namenshistorie um?
    Martin Fenner: damit kann ORCID umgehen und es verzeichnen.
  • Wie unterscheidet sich das System zu ISNI?
    Martin Fenner: ISNI und ORCID sind recht zeitgleich gestartet, haben jedoch eine unterschiedliche Perspektive. ISNI beschränkt sich nicht nur auf Wissenschaft, sondern ist offen z.B. für kreative Bereiche. ISNI bietet auch fiktiven Figuren (Sherlock Holmes) eine Referenz.
  • Ist Corporate Authorship ein Szenario das in ORCID mitgedacht ist?
    Martin Fenner: Diese Möglichkeit wurde antizipiert, dafür wird in der Release Version allerdings noch keine Lösung geben.
  • Warum die Unterscheidung zwischen Researcher und Contributor in ORCID?
    Martin Fenner: Hier sind nicht nur die Wissenschaftler einbezogen die Publikationen als Autoren erstellen, sondern auch jene die
  • Welche Lizenz verbirgt sich hinter den Offenen Daten die über die APIs zugänglich sind?
    Martin Fenner: Hier verwendet ORCID die Lizenz CC0 (Public Domain).

#Mittagspause

13:30 – Autorenidentifikation – Sicht der Wissenschaft (Kurzreferate)

  •  Dr. Sönke Bartling, Deutsches Krebsforschungszentrum (DKFZ)
    • Mit Science 2.0 und kürzeren, anderen Publikationszyklen (z.B. in niederschwelligen Blogposts) gewinnt eine eindeutig identifizierbare Autorenschaft (Unique Researcher ID, z.B. in Form von ORCID) an Wichtigkeit.
    • ORCID verknüpft bereits etablierte Publikationsformen mit neuen Publikationsformen (Twitter, Wikipedia, Blogs).
    • ORCID können zu neuen Altmetrics (wissenschaftlicher Impact-Messung) beitragen.
  • Dr. Jens Klump, Deutsches GeoForschungsZentrum GFZ
    • Persistente Identifikatoren werden bereits in den Geowissenschaften bereits eingesetzt (für Literatur und Daten die DOI, für Proben das Handle)
    • In den USA bietet die Kombination von NSF (und der NSF Nummer) und dem Data Compliance Reporting Tool eine aussagefähige Verknüpfung von Forschungsanträgen und den in den Projekten erhobenen Daten und entstandenen Publikationen. Hier würde ein Autoren Identifier eine sinnvolle Ergänzung geben.
    • Autorenidentifikationen können in professionellen sozialen Netzwerken ein interessantes Einsatzgebiet finden.
  • Dr. Daniel Mietchen, EvoMRI Consulting, Jena
    • Sammlung der Punkte von Daniel in der WIkipedia
    • ORCID unterstützt vor allem einen durchgängigen Darstellungs- und Publikationsprozess in der Wissenschaft (der von Open Science gefordert wird).
    • ORCID bietet einen erheblichen Vorteil für Nachwuchswissenschaftler („Researchers of Tomorrow“)
    • Daniel fordert eine komplette Offenheit in allen Dimensionen in denen ORCID Anwendung finden könnte (offene Lizenzen, offene Daten, offen Architekturen die es erlauben auch in einzelnen Punkte Contributions wie z.B. Plugins zu leisten)
    • In den Raum gestellt: schafft ORCID eine Chance zur Vermeidung (oder zumindest Nachvollziehbarkeit) von Plagiaten?

14:05 – Diskussion, Moderation: Heinz Pampel, Helmholtz-Gemeinschaft

  • Wo steckt bei ORCID der Transparenzgedanke?
    Daniel Mietchen: Der Kern von Transparenz ist eigentlich eine öffentliche Versionshistorie wissenschaftlicher Veröffentlichungen.
  • Diverse Wortmeldungen zur Rolle, Selbstverständnis, Reputation und Kommunikationswilligkeit der Wissenschaftler aus denen klar wird, dass hier die Einsatzintention vom sozialen Verständnis des Wissenschaftlers erwächst.
  • Im Sinne eines sich stets weiter öffnende Wissenschaftsprozesses: wo ziehen wir die Grenze von Contributors (im Sinne von ORCID), welche Contributions werden bei ORCID vorgesehen und wie verfährt das System im Umgang mit Researchers und Contributors?
    Daniel Mietchen: denkbar wäre vielleicht ein Karma-System für Contributions, das von den entsprechenden Wissenschaftlern vergeben oder bewertet wird.

14:30 – Dimensionen der Autorenindentifkation (Kurzreferate)

  • Portale, Thomas Severiens (Institute for Science Networking)
    • Portale: eine Applikation die einen zentralen Zugriff auf personalisierte Inhalte sowie bedarfsgerecht auf Prozesse bereitstellt. Charakterisierend für Portale ist die Verknüpfung und der Datenaustausch zwischen heterogenen Anwendungen über eine Portalplattform
    • OpenID ist ein gängiges Authentifizierungsformat in Portalen, die Anbindung an ORCID (oder vice versa) bietet ein durchaus attraktives Szenario. OpenID sieht eine userspezifische Schnittstelle auch vor.
  • Forschungsdaten, Dr. Michael Diepenbroek (Universität Bremen)
    • PANGAEA ist ein digitales Bibliothekssystem für Daten aus der Erdsystemforschung und den Umweltwissenschaften. Es umfasst mittlerweile 24.000 Autoren und bietet fast 500.000 Datensätze.
    • PANGAEA bietet in einem föderierten System vielfältige Schnittstellen für Nutzer.
    • Im Fokus steht seit ca. 10 Jahren das Thema Datenpublikation (den OECD Principles für Forschungsdaten folgend), dabei wird mit diversen Publishern und einzelnen Journalen kooperiert.
    • In PANGAEA wird ORCID für die Registrierung und die Pflege von Profilen verwendet, für die Publikation von Daten (Autorenzuweisung), und zur Crossreferenzierung.
    • Mit ORCID könnte PANGAEA unnötig im System vorhandene Metadaten (Autorenprofile, Artikel, Methoden, Ontologien) kuratieren und automatisiert (ausgelagert) pflegen lassen.
    • Der weitaus größte Teil von Datenpublikationen hängt an Artikeln (90% bei PANGAEA), in Zukunft soll dies getrennt und parallel zueinander publiziert werden (mit entsprechenden Schnittstellen für Abstimmungs-/Freigabeprozesse).
    • Mit ORCID könnte der Schritt über Daten-Verlinkungen in der Art „Supplementary Data“ oder „Related Data“ hinausgehen und „Similar Data“ etabliert werden.
  • Verlag, Dr. Xenia van Edig (Copernicus Publications)
    • Für Copernicus soll ORCID vor allem auch das Problem der Namensmehrdeutigkeit lösen. Beispiel: Ulrich Pöschl = Ulrich Poeschl = Ulrich Poschl
  • Forschungsinformation, Sven Bittner (Institut für Forschungsinformation und Qualitätssicherung iFQ)
    • Das Forschungsinformationssystem erfasst alle für den Forscher und die Forschung relevanten Daten und fasst sie (formell, eindeutig und zweckgesteuert) zentral zusammen. Es basiert auf CERIF (Common European Research Information Format).
    • Das Forschungsinformationssystem enthält eine Vielzahl von Daten über ORCID hinaus, kann aber dafür genutzt werden, um z.B. die in ORCID hinterlegten Daten zu verifizieren.
15:40 – Diskussion, Moderation: Martin Fenner
  • Wenn sich Daten in ORCID als fehlerhaft herausstellen, wer hat die Hoheit darüber zu entscheiden?
    Das Podium ist sich hier nicht einig, scheinbar ist dies ein Fall der sich im Laufe der Zeit herausstellen wird.

16:10 – Dimensionen der Autorenindentifkation (Kurzreferate)

  • Autoren, Publikationen, Institutionen: Relationsprobleme aus bibliometrischer Sicht, Dr. Matthias Winterhager (Universität Bielefeld)
    • Das Projekt „Institutionenkodierung“ am Kompetenzzentrum Bibliometrie versucht eine möglichst vollständige Zuordnung des deutschen Wissenschaftsoutputs (Publikationen) zu den Institutionen. Basis dafür ist Web of Science (ca. 12.000 Periodica) und Scopus (ca. 18.000 Publikationen).
    • Im Projekt Institutionenkodierung gibt es bereits eine interne Datenbank mit Adressbereinigung, Zuordnung zu Publikationen und Konkordanzprüfung mit anderen Datenbanken.
    • Eine Institutionenkodierung ist u.a. eine Basis für eine institutionenbezogene Auswertung (z.B. im DFG Förderatlas) und wäre auch in/mit ORCID wünschenswert.
  • Open Access Repositorien, Dr. Alexander Wagner (Forschungszentrum Jülich)
    • Die Veröffentlichungsdatenbank in Jülich hat ca. 62.000 Einträge (mit Meldepflicht).
    • Mit JuSER gibt es ein Open Access Volltextrepositorium in Jülich in der Kombination der Veröffentlichungsdatenbank und dem Volltextserver JUWEL.
    • JuSER ist hochformalisiert und baut beständige, offene Daten und beständige APIs
  • Open Access Repositorien, Juliane Schönfeldt (Max Planck Digital Library MPDL)
    • Die MPG nutzt mit PubMan ein eigenes Publikationsrepositorium.
    • Mit CoNE gibt es in der MPDL einen Service für Control of Named Entitites. Über CoNE werden Journals, Schlagworte (DDC), CC Lizenzen, Personen, Sprachen und IANA Mimetypes verwaltet.
    • Auch CoNE ist offen für die Hinterlegung von ORCID als Identifier.
    • CoNE bietet eine individuelle Arbeitsplatzhistorie, auch über den Wechsel der Organisation hinaus.
    • Innerhalb der MPG pflegen vor allem die Bibliothekare die Datensätze, es wird versucht einen möglichst hohen Grad an Automatisierung über die Nutzung von Identifiern zu ermöglichen.
    • PubMan bietet die Ausgabe von Suchen in RDF/XML, HTML (Einbindung in Websites) und JSON (was dann zum Beispiel Autosuggest-Funktionen in JavaScript ermöglicht).
17:00 – Abschlußdiskussion, Moderation: Najko Jahn
  • Betonung, dass mit ORCID ein Non-Profit-System ins Leben gerufen wird, das momentan (und hoffentlich auch in Zukunft) vor allem durch Organisationen unterstützt wird und noch freier von verlagswirtschaftlicher Einflussnahme sein dürfte.
  • ORCID bietet vollständig offene Daten, deren Weitergabe und Nutzung nicht erst verhandelt werden muss. Das daraus entstehende kreative Potential eines Datensatzes für diverse Weiterverarbeitungsmöglichkeiten bietet eine hohes Innovationspotential.
  • Funktionierende Identifikationssysteme (sei es auf Autoren- oder auch auf Institutionenbasis) dürften ein durchaus valides Evaluationssystem für Wissenschaftliche Reputation darstellen, vielleicht sogar eines das tauglicher als eine bibliometrische Evaluation ist. Wie auch immer, müsste sich dafür die Festlegung auf die althergebrachte Erfolgsmetrik in der Wissenschaft ändern, eine Entwicklung der man zumindest kritisch gegenüberstehen kann.

#Ende

Update, 23.10.2012: Auf der Website zum Workshop-Programm kann man nun auch die jeweiligen Vortragsfolien erhalten.