Das Datenrepositorium OPARA¶

Was ist OPARA?¶

OPARA ist das Forschungsdatenrepositorium der sächsischen Hochschulen. Es können digitale Forschungsdaten archiviert oder veröffentlicht werden. Der Dienst ist über die Webseite https://opara.zih.tu-dresden.de erreichbar.

Die Archivierung digitaler Forschungsdaten erfolgt gemäß der guten wissenschaftlichen Praxis für zunächst zehn Jahre. Bei der Veröffentlichung digitaler Forschungsdaten erhalten diese zusätzlich einen DOI zur dauerhaften Referenzierung, werden unbefristet gespeichert und sind für jedermann auffindbar und zugreifbar.

Daten werden im Rahmen eines Einreichungsprozesses auf der OPARA-Webseite übertragen. Dieser umfasst die Angabe beschreibender Metadaten, den Upload der Daten und - im Falle der Veröffentlichung - die Auswahl einer Open-Access-Lizenz. (Siehe: DFG: Was ist Open Access?)

Vor der finalen Archivierung oder Veröffentlichung findet ein Begutachtungsprozess statt, in dem die Einreichung - insbesondere bei einer Publikation - auf ihre formale Eignung (Art der Daten, Umfang und Signifikanz der angegebenen Metadaten, Beschreibung und Dokumentation, Wahl der Lizenz) und inhaltliche Eignung (Vollständigkeit, Richtigkeit, Nachvollziehbarkeit der Dokumentation) geprüft wird.

Das Akronym OPARA bedeutet "Open Access Repository and Archive".

Wer darf OPARA nutzen?¶

1) Alle Personen, die an den angebundenen(*) öffentlichen sächsischen Hochschulen forschen. Dies umfasst z.B. Wissenschaftler, die im Rahmen von Drittmittelprojekten forschen, aber auch Studierende und Promovierende im Rahmen ihrer akademischen Qualifikationsarbeit.

2) Alle Wissenschaftler, die an Forschungsprojekten mit Beteiligung der angebundenen(*) öffentlichen sächsischen Hochschulen arbeiten. Diese erhalten Zugriff auf OPARA über einen Gastlogin der jeweiligen Hochschule.

*) Folgenden öffentlichen sächsischen Hochschulen steht OPARA zur Verfügung:

Hochschule für Technik und Wirtschaft Dresden
Technische Universität Bergakademie Freiberg
Technische Universität Dresden
Universität Leipzig

Auch den übrigen öffentlichen sächsischen Hochschulen steht die Nutzung von OPARA offen. Bitte kontaktieren Sie uns, wenn Sie einer dieser Hochschulen angehören und OPARA nutzen möchten.

Für welche Daten darf OPARA genutzt werden?¶

OPARA darf zur Archivierung oder Veröffentlichung aller digitalen Forschungsdaten genutzt werden. Dies betrifft alle digitalen Daten, die im Rahmen der wissenschaftlichen Arbeit entstehen. Sie bilden üblicherweise die Grundlage jeder wissenschaftlichen Publikation, z.B. Journal-Paper, Tagungsbeiträge, Dissertationen oder studentischer Abschlussarbeiten. Digitale Forschungsdaten sind in der Praxis sehr heterogen. Daher existieren keine Einschränkungen hinsichtlich Datentyp oder Dateiformat oder Datenmenge.

Keine Forschungsdaten sind

Dokumente, die den Charakter einer üblichen wissenschaftlichen Veröffentlichung haben, wie z.B. auf der QUCOSA-Webseite dokumentiert. Für solche Daten sollte entweder QUCOSA oder ein ähnlicher Dokumenten- oder Publikationsdienst genutzt werden.
Verwaltungsdokumente, z.B. aus Projekt- oder der Institutsverwaltung.

Quellcode für Software ist ein Spezialfall und sollte auf dafür spezialisierten Code-Repositorien veröffentlicht werden, wie z.B. dem GitLab der TU Chemnitz oder kommerziellen Anbietern wie GitLab oder GitHub. Sofern darüber hinaus ein DOI benötigt wird, kann aber auch Quellcode in OPARA veröffentlicht werden.

Welche Kosten entstehen bei der Nutzung von OPARA?¶

Keine.

Was ist bei der Vorbereitung und Einreichung von Daten zu beachten?¶

Die Ziele von Archivierung und Veröffentlichung von Forschungsdaten sind zum einen die Sicherung der Reproduzierbarkeit von Forschungsergebnissen im Sinne der guten wissenschaftlichen Praxis, und zum anderen, Dritten die Daten zugänglich zu machen um eine Nachnutzung zu ermöglichen, z.B. im Rahmen weiterer Forschung oder anderer Kontexte. Ausgerichtet an diesen Zielen sollte die Auswahl und Aufbereitung der Daten erfolgen.

Welche Daten sollten archiviert oder veröffentlicht werden?¶

Datenveröffentlichungen erfolgen zumeist im Kontext einer üblichen wissenschaftlichen Publikation z.B. in einem wissenschaftlichen Journal. Darin wird eine bestimmte Forschungsfrage diskutiert und das Forschungsergebnis basierend auf der Auswertung der zugrundeliegenden Daten vorgestellt. Diese Daten sollten Gegenstand der Datenveröffentlichung sein. Weil in OPARA veröffentlichte Daten zeitlich unbefristet und unveränderlich gespeichert werden, können veröffentlichte Daten auch als archiviert betrachtet werden.

Bei der reinen Archivierung ist der Kontext häufig das gesamte Forschungsprojekt, z.B. ein Drittmittelprojekt oder eine akademische Qualifikationsarbeit. Forschungsdaten, die einen ausgereiften und unveränderlichen Entwicklungsstand aufweisen, kommen für die Archivierung infrage. Diese findet oft zu bestimmten Zeitpunkten statt, z.B. zum Projektende. Aber auch zu früheren Zeitpunkten ist es empfehlenswert, zumindest eine Teilmenge der Forschungsdaten des Projekts zu archivieren. So können z.B. direkt nach Beendigung der Datenaufnahme in einer frühen Projektphase die Rohdaten oder nach Beendigung bestimmter Auswertezyklen fertige Analysedaten archiviert werden. Ein frühzeitiges Archivieren kann auch eventuellen späteren Datenverlusten vorbeugen oder bei der Klärung späterer urheberrechtlicher Fragen helfen.

In jedem Fall sollte geprüft werden, welche der vorliegenden Daten von tatsächlicher Relevanz sind. Das Vorhandensein der ursprünglich aufgenommenen Rohdaten ist regelmäßig notwendig zur Reproduktion von Forschungsergebnissen und oft sind diese auch einzigartig und unwiederbringlich. Diese Daten sollten Teil der Veröffentlichung oder Archivierung sein. Zwischenresultate lassen sich häufig durch Wiederholung der Datenverarbeitung oder -analyse wiederherstellen und sind somit nicht archiv- oder veröffentlichungswürdig, da die Verarbeitungsschritte nachvollziehbar dokumentiert sein sollten und somit reproduzierbar sind. Liegen weiterhin z.B. finale Ergebnisdaten vor, sind diese häufig von der Datenmenge so gering aber vom Informationsgehalt hoch, so dass diese ebenfalls berücksichtigt werden sollten. Darüber hinaus können im Rahmen des Forschungsprozesses auch weitere Datenprodukte relevant sein. Im Einzelfall sollte auch abgeschätzt werden, wie hoch der Aufwand der Bereinigung und eventuellen Wiederherstellung von Daten im Verhältnis zu den Kosten der dauerhaften Speicherung ist.

Wie sollten die Daten vorbereitet werden?¶

Zur optimalen Verarbeitung und Bereitstellung der Daten über OPARA sollte bei der Vorbereitung der Daten Folgendes beachtet werden:

Die Anzahl der Dateien sollte gering gehalten werden und zehn Dateien möglichst nicht überschreiten. Bei einer größeren Anzahl von Dateien wird die Paketierung als zip- oder tar-Archiv empfohlen.

Die Größe der Dateien sollte pro Datei einige hundert GB nicht überschreiten. Sollten einzelne Dateien größer als 300-500 GB sein, wird das Aufteilen in kleinere Pakete empfohlen.

In beiden Fällen sollte überlegt werden, wie sich die Dateien logisch aufteilen lassen. Bei den genannten Werten handelt es sich um Empfehlungen, die in einzelnen Fällen auch überschritten werden können, sofern das notwendig erscheint.

Bei großen Datensätzen kann insbesondere bei Veröffentlichungen die Bereitstellung eines repräsentativen Beispieldatensatzes hilfreich sein, um einen Eindruck über den gesamten Datensatz zu vermitteln, ohne diesen vollständig herunterladen und analysieren zu müssen. (z.B. als separates zip- oder tar-Archiv)

Zusätzliche detaillierte Informationen zur Beschreibung des Datensatzes, die über die Möglichkeiten der Metadatenfelder in OPARA hinausgehen, können in Form einer README-Datei dem Datensatz beigelegt werden (z.B. als einfache Textdatei readme.txt).

Beispieldatensätze sowie README-Dateien oder ähnliche Dateien, die den Datensatz inhaltlich beschreiben, können in OPARA als Data-Sample oder Info-File gekennzeichnet werden und werden auf der Webseite als solche markiert.

Wie werden Forschungsdaten in OPARA archiviert oder veröffentlicht?¶

Für die Archivierung oder die Veröffentlichung von Forschungsdaten existieren zwei unterschiedliche Prozesse in OPARA. Die Webseitenformulare für die Archivierung und die Veröffentlichung sind in weiten Teilen identisch. Bei der Veröffentlichung sind jedoch einige Komponenten ergänzt, die zusätzlich relevant sind.

Nach der Anmeldung auf der OPARA-Webseite kann im linken Seitenmenü über 'New' -> 'Data Submission' der entsprechende Prozess ausgewählt und gestartet werden. ('Submit to Archive' oder 'Submit to Publish'). Danach öffnet sich die Übersichtsseite mit allen Formularfeldern und dem Dateiupload (Dialogfenster oben auf der Seite). Sobald alle notwendigen Angaben getätigt wurden, kann am Ende der Seite die Einreichung fertiggestellt und in den Begutachtungsprozess übertragen werden.

Sollten die hochzuladenden Daten zu groß für den Upload auf der Webseite sein, können diese separat nach OPARA importiert werden. Details dazu befinden sich in diesem Abschnitt.

Begonnene Einreichungen werden im System gespeichert und erst gelöscht, wenn dies vom Nutzer ausgewählt wird. Unvollendete oder im Begutachtungsprozess befindliche Einreichungen und archivierte oder veröffentlichte Datensätze sind über den Link 'My Data' im Nutzermenü über den Nutzerprofil-Button in der rechten oberen Ecke der Webseite zu finden.

Beschreibung der einzelnen Formularkomponenten:¶

DOI & Citation Recommendation¶

(nur bei Veröffentlichung)

Diese Formularkomponente ist rein informativ. Sie enthält den für diese Einreichung reservierten DOI. Zum Zeitpunkt der Veröffentlichung (also nach Abschluss der Einreichung und des Begutachtungsprozesses und ggf. nach Ablauf eines Embargos) wird dieser DOI offiziell registriert. Er kann aber bereits jetzt, also vor der Fertigstellung der Einreichung, als zukünftige Referenz auf den Datensatz verwendet werden, und z.B. in ein Paper eingetragen werden. Wird die Einreichung vor der Fertigstellung verworfen, wird der DOI ebenfalls verworfen.

Zusätzlich können Zitierempfehlungen für den Datensatz generiert werden. Diese wird je nach Verfügbarkeit der relevanten Metadaten (z.B. Titel, Autor) aktualisiert und kann für verschiedene Zitierstile generiert werden.

Ownership and Access¶

Hier wird angegeben, zu welcher Organisationseinheit der Datensatz gehört und wie die Zugriffsrechte für den Datensatz gesetzt werden.

Die primäre Organisationseinheit, zu der der Datensatz gehört, ist vorbesetzt mit der Zugehörigkeit der einreichenden Person und sollte nur im Fehlerfall geändert werden oder wenn keine Organisationseinheit angegeben ist (z.B. für Gastlogins). Alle der angegebenen Organisationseinheit zugehörigen Personen können zukünftig auf diesen Datensatz zugreifen.

Details zu den Zugriffsoptionen sind in diesem Abschnitt beschrieben.

Project Information¶

Angabe von Informationen zu dem Forschungsprojekt, in dessen Rahmen der Datensatz entstanden ist. Typischerweise ist das Projekt ein Forschungsprojekt aus Drittmitteln oder eine akademische Qualifikationsarbeit.

Felder: Title, Abstract, Website

Data Description¶

Hier sind die wichtigsten beschreibenden Informationen zu dem Datensatz verpflichtend anzugeben.

Felder: Author, Title, Abstract, Type of the data (Auswahl), Specification of the disciplines (nach DFG-Klassifikation)

Extended Data Description (optional)¶

Es können zusätzliche beschreibende Informationen ergänzt werden, die den Datensatz genauer beschreiben um das Auffinden und die Nachnutzung zu vereinfachen.

Felder: Contributing persons (inklusive Art der Mitwirkung), References to related materials, Description of the data, Documenation of the data, Date of data creation , Underlying research objects, Software, Research instruments, Countries to which the data refer, Additional geographical or spatial references

Uploaded Files¶

Hier werden alle zu dieser Einreichung hochgeladenen Dateien angezeigt. Für jede Datei können über den Button 'Edit Bitstream' weitere Einstellungen vorgenommen werden. Es kann jede Datei mit einer Kurzbeschreibung versehen sowie inhaltlich klassifiziert werden nach

1) normaler Daten-Datei,

2) deskriptiver Datei, die den Datensatz näher beschreibt (z.B. eine README-Datei) oder

3) eine Musterdatei/ein Musterdatensatz, die bzw. der repräsentativ für den Gesamtdatensatz ist. Insbesondere bei großen Datensätzen sollte das Hinzufügen eines Musters erwägt werden, um Interessenten einen Eindruck über den Gesamtdatensatz zu vermitteln, ohne diesen vollständig herunterladen und analysieren zu müssen.

Creative Commons License¶

(nur bei Veröffentlichung)

Um die Nachnutzung zu ermöglichen muss ein veröffentlichter Datensatz unter einer freien Open-Access-Lizenz lizenziert werden. Hierzu kann eine Variation der Creative-Commons-Lizenz ausgewählt werden. Für eine optimale Nachnutzung wird die am wenigsten restriktive CC-BY-4.0 Lizenz empfohlen, ohne die weiter einschränkenden Bausteine Share-Alike (SA), Non-Commercial (NC) oder Non-Derivatives (ND). Für weitere Informationen siehe: https://creativecommons.org/share-your-work/

Open Access Publication¶

(nur bei Veröffentlichung)

Standardmäßig werden zu veröffentlichende Datensätze direkt nach Abschluss des Begutachtungsprozesses veröffentlicht. Alternativ kann ein Embargo festgelegt werden, d.h. die Daten werden zu einem bestimmten, späteren Zeitpunkt veröffentlicht.

Reviewer Assignment¶

Es soll eine Wissenschaftler angegeben werden, die die Daten inhaltlich auf ihre Eignung zur langfristigen Archivierung oder Veröffentlichung beurteilt. Die Person muss einen Login an einer der an OPARA angebundenen Institutionen haben und wird mit Namen und dienstlicher Emailadresse angegeben. Dabei kann es sich auch um einen Gastlogin handeln. Weitere Details zur fachlichen Begutachtung sind in diesem Abschnitt beschrieben.

Deposit License¶

Diese Lizenz erlaubt dem Dienstanbieter, die im Rahmen der Langzeitarchivierung notwendige technische Verarbeitung und Speicherung der Daten und muss vor Abschluss der Dateneinreichung akzeptiert werden.

Wie wird die fachliche Begutachtung durchgeführt und worauf soll dabei geachtet werden?¶

Die fachliche Begutachtung einer Dateneinreichung soll durch einen Fachwissenschaftler durchgeführt werden. Es sollen die Daten und Metadaten inhaltlich auf ihre Eignung zur langfristigen Archivierung und ggf. zur Veröffentlichung beurteilt werden. Wichtig ist dabei vor allem die Vollständigkeit und Richtigkeit der Daten und Metadaten sowie deren Dokumentation. Es soll beachtet werden, dass die Daten auch nach über zehn Jahren noch verstanden werden sollen.

Insbesondere bei einer beabsichtigten Veröffentlichung der Daten sollte auch die Perspektive eines potenziellen Nachnutzers berücksichtigt werden: Eine gute Dokumentation von Entstehungs-, Verarbeitungs- und Auswahlprozessen der Daten als auch deren Verwendung ermöglicht erst das Verständnis der Daten und erlaubt damit eine potentielle Nachnutzung. Mehr Details und Überlegungen zur Aufbereitung eines Datensatzes zur Archivierung oder Veröffentlichung sind in diesem Abschnitt erläutert.

Im Falle einer Ablehnung der Einreichung sollen die Gründe sowie Verbesserungsvorschläge für den Einreichenden im dafür vorgesehenen Kommentarfeld beschrieben werden.

Die fachliche Begutachtung kann durch jeden Wissenschaftler vorgenommen werden, der den Datensatz und seine Dokumentation inhaltlich beurteilen kann. Dies können z.B. Projektleiter, Projektmitarbeiter oder auch weitere Wissenschaftler der eigenen Arbeitsgruppe sein, oder der Betreuer einer akademischen Qualifikationsarbeit für Dateneinreichungen von Studenten.

Durchführung der Begutachtung¶

Nach der Anmeldung auf der OPARA-Webseite öffnet sich bei Klick auf den Nutzerprofil-Button in der rechten oberen Ecke das Nutzermenü. Wählen Sie hier den Eintrag 'My Tasks'. Auf der folgenden Seite finden Sie den Workflow Task mit dem in der Email angegeben Titel. Klicken Sie hier den Button 'View', um die Informationen zu der zu begutachtenden Einreichung anzuzeigen.

Hier werden alle beschreibenden Informationen (Metadaten) und die hochgeladenen Dateien angezeigt. Die Dateien können ggf. zur Kontrolle heruntergeladen werden.

Anschließend gelangen Sie über den Button 'Back' am Ende der Seite zurück auf die Übersichtsseite 'My Tasks'. Hier können Sie über den Button 'Approve' die Einreichung annehmen, wenn diese in diesem Abschnitt beschriebenen Anforderungen an Richtigkeit, Vollständigkeit und Dokumentation erfüllt. Direkt danach erfolgt die Archivierung und eventuelle Veröffentlichung (sofern kein Embargo angegeben wurde) des Datensatzes.

Erfüllt die Einreichung nicht die beschriebenen Anforderungen, können Sie die Einreichung über den Button 'Reject' ablehnen. Es öffnet sich ein Dialog, um dem Einreichenden die Gründe der Ablehnung zu erläutern und gegebenenfalls Hinweise zu geben, wie die Einreichung nachgebessert werden kann. Bestätigen Sie anschließend die Ablehnung mit dem Button 'Reject item'. Ihre Hinweise erhält der Einreichende danach per Email und kann die Einreichung überarbeiten und ggf. erneut zur Begutachtung einreichen.

Sie haben eine Email zur Durchführung einer Begutachtung erhalten, sehen aber keine Aufgabe auf der Webseite¶

Es wurde wahrscheinlich nicht Ihre primäre Emailadresse zur fachlichen Begutachtung angegeben, mit der Sie automatisch vom Identitätsmanagement-System Ihrer Einrichtung an OPARA angemeldet werden. Kontaktieren Sie in diesem Falle bitte den OPARA-Support, um die korrekte Zuweisung vornehmen zu lassen.

Sie haben irrtümlich eine Email zur Durchführung einer fachlichen Begutachtung erhalten¶

In diesem Falle, oder wenn Sie sich aus anderen Gründen nicht für die Durchführung einer Begutachtung zuständig fühlen, bitten wir darum, die Durchführung der Begutachtung auf der OPARA-Webseite ablehnen. Gehen Sie dafür bitte wie folgt vor:

Nach der Anmeldung auf der OPARA-Webseite öffnet sich bei Klick auf den Nutzerprofil-Button in der rechten oberen Ecke das Nutzermenü. Wählen Sie hier den Eintrag 'My Tasks'. Auf der folgenden Seite finden Sie den Workflow Task mit dem in der Email angegeben Titel. Klicken Sie hier den Button 'Decline', um die Aufgabe abzulehnen. Danach wird das OPARA-Team den Einreichenden kontaktieren, um eine andere Person zur Durchführung der fachlichen Begutachtung zu benennen.

Übertragung größerer Datenmengen¶

Für die Übertragung größerer Datenmengen ist die Einreichungsoption 'Transfer a large dataset' auszuwählen. Hier kann über den TU Dresden Dienst Datashare (Nextcloud) ein passwortgeschützter Share erstellt werden, über den größere Datenmengen einfacher übertragen werden können als über die OPARA Webseite. Für Angehörige der TU Dresden besteht zusätzlich die Option, Daten direkt auf das interne Gruppenlaufwerk zu übertragen. Bitte beachten Sie in jedem Fall die Hinweise in diesem Abschnitt zu Anzahl und Größe der Dateien.

Übertragung via TUD Datashare (Nextcloud)¶

Über die Formularkomponente 'Data Transfer via TUD Datashare' kann ein persönlicher passwortgeschützter Share erstellt und freigegeben werden (Button 'Generate Storage Access'). Nach Abschluss der Datenübertragung muss der Share geschlossen werden ('Close Storage Access').

Es ist zu beachten, dass für den Uplod im Datashare die maximale Dateigröße 5 GB beträgt. Größere Dateien müssen entsprechend aufgesplittet werden (z.B. via zip -s, split -b oder 7Zip (Windows)). Vor dem Import können wir eventuell gesplittete Dateien wieder zusammenführen. Hierzu bitte im Kommentarfeld 'Import Information' die genutzte Methode angeben und wie die Dateien wieder zusammengeführt werden können.

Weitere Informationen: Datashare im ZIH Service Katalog, Datashare FAQ

Übertragung via TUD Gruppenlaufwerk¶

Diese Option ist ausschließlich für Angehörige der TU Dresden verfügbar: Innerhalb des Netzes der TU Dresden können Daten auch direkt auf das freigegebene Gruppenlaufwerk von OPARA übertragen werden.

Gehen Sie bitte wie folgt vor:

Erstellen Sie lokal ein Verzeichnis, z.B. <Datum>_<Name>
Paketieren Sie Ihre Daten als zip- oder tar-Archiv/e in dieses Verzeichnis
Kopieren Sie dieses Verzeichnis komplett über das Datengateway in das freigegebene Verzeichnis auf dem OPARA Gruppenlaufwerk: dgw.zih.tu-dresden.de:/glw/opara/import/
Tragen Sie anschließend den Namen des erstellten Verzeichnisses in das Formularfeld 'Name of the transferred directory' ein.

1. Transfer aus dem Campusnetz¶

Für eine Linux-Shell können die Befehle für rsync oder scp etwa so aussehen:

> rsync -avzh --progress <lokales-Verzeichnis> <ZIH-Login>@dgw.zih.tu-dresden.de:/glw/opara/import/
> scp -r <lokales-Verzeichnis> <ZIH-Login>@dgw.zih.tu-dresden.de:/glw/opara/import/

Für den Transfer von Windows aus sind zusätzliche Tools notwendig, wie z.B. PuTTY/pscp. Auf der Windows Shell würde der Befehl etwa so aussehen:

> pscp -sftp -r <lokales-Verzeichnis> <ZIH-Login>@dgw.zih.tu-dresden.de:/glw/opara/import/

Alternativ zum Transfer auf der Shell können auch grafische Tools wie FileZilla (Windows und Linux), WinSCP (Windows) oder andere genutzt werden. Für den Zugang sind dann folgende Informationen notwendig:

Server: sftp://dgw.zih.tu-dresden.de/glw/opara/import/
Benutzername: <zihlogin>
Passwort: **********
Port: -frei- oder 22

2. Transfer von den Hochleistungsrechnern¶

Datenübertragungen direkt von den HPC-Systemen sind mit den dt-Tools über die Datamover-Knoten möglich. Für den asynchronen Datentransfer muss dazu ein separater SSH-Key ohne Passwort erstellt werden. Der gesamte Vorgang ist dann wie folgt:

Erstellen des SSH-Keys auf dem HPC Cluster:

barnard$ ssh-keygen -t ed25519 -f ~/.ssh/opara -C "data transfer key for $(whoami)@$(hostname)" -P "" # Passphrase muss leer sein

Der neue Key wird über das gemeinsame Homeverzeichnis auf Loginknoten und Datengatewayknoten kopiert:

barnard$ ssh-copy-id -i ~/.ssh/opara <zihlogin>@login1.zih.tu-dresden.de

Der Hostkey des Datengateway muss lokal bekannt gemacht werden:

barnard$ ssh-keyscan -t rsa dgw.zih.tu-dresden.de >> ~/.ssh/known_hosts

Bei dem Kommando dtrsync muss nun zusätzlich die Information über den neuen SSH-Key mitgegeben werden:

barnard$ dtrsync -av -e \"ssh -i \$HOME/.ssh/opara\" /data/walrus/<your_project> dgw.zih.tu-dresden.de:/glw/opara/import/

Die Backslashes und Anführungszeichen im Parameter -e müssen hierbei exakt gesetzt werden.

Alternativ dazu kann auch eine dedizierte SSH-Config für den Datengateway-Knoten angelegt werden, z.B. bei häufiger Nutzung. Das Vorgehen wäre dann:

barnard$ cat ~/.ssh/config
  Host dgw.zih.tu-dresden.de
      User <zihlogin>
      IdentityFile ~/.ssh/opara

Mit dieser Konfiguration kann das dtrsync-Kommando ohne zusätzliche Parameter zum SSH-Key abgesetzt werden:

barnard$ dtrsync -av /data/walrus/<your_project> dgw.zih.tu-dresden.de:/glw/opara/import/

(siehe auch HPC Compendium: Transfer data with Datamover)

Abschluss des Datenimports¶

Im Dropdown in 'Import Information' ist auszuwählen, ob die übertragenen Daten lediglich archiviert oder veröffentlicht werden sollen. Im Kommentarfeld können eventuelle Hinweise zur weiteren Behandlung der Daten gegeben werden.

Nach Absenden des Formulars via 'Deposit' werden die Daten nach OPARA importiert. Dabei wird eine neue Einreichung erzeugt, die anschließend im Webinterface wie eine normale Einreichung bearbeitet und fertiggestellt werden kann. Sie erhalten eine Email, sobald der Import erfolgt ist und die neue Einreichung zur weiteren Bearbeitung zur Verfügung steht.

Ist eine Verschlüsselung von Daten zur Archivierung sinnvoll?¶

Grundsätzlich ist die Archivierung verschlüsselter Daten nicht zu empfehlen, weil zusätzlich zur Problematik der dauerhaften Verfügbarkeit der eigentlichen Daten auch noch die sichere Verfügbarkeit des Schlüssels dauerhaft gewährleistet sein muss. Ohne diesen können die archivierten Daten nicht wiederhergestellt werden.

Gemäß der guten wissenschaftlichen Praxis sollen Daten mindestens zehn Jahre verfügbar sein, was durch den Dienst OPARA gewährleistet wird. Der Verlust eines digitalen Schlüssels ist in diesem Zeitraum nicht auszuschließen und wird durch den perspektivisch mehrmaligen (geplanten und ungeplanten) Wechsel der digitalen Arbeitsmittel (PC, Laptop, etc.) als auch durch die seltene Nutzung und dem damit einhergehend nachlassenden Bewusstsein über Zweck und Existenz des Schlüssels begünstigt.

Unbenommen davon werden Ihre Daten bei besonderem Schutzbedarf auch in verschlüsselter Form archiviert, wir weisen aber nachdrücklich auf das genannte Risiko hin und empfehlen dringend, ein geeignetes Konzept zur dauerhaften Verfügbarkeit des Schlüssels zu etablieren.

Dürfen personenbezogene Daten archiviert werden?¶

Gemäß § 12 (2) des Sächsischen Datenschutzdurchführungsgesetzes sind personenbezogene Merkmale aus Forschungsdaten zu löschen, sobald der Forschungszweck dies zulässt.

Es kann angenommen werden, dass mit Projektende der jeweilige Forschungszweck entfällt. Da die Daten durch die Archivierung aber regelmäßig weit über das Projektende hinaus erhalten bleiben, müssen diese von personenbezogenen Merkmalen bereinigt sein.

Gegebenenfalls muss daher im Einzelfall entschieden werden, ob und mit welchem Aufwand die personenbezogenen Merkmale aus den Daten entfernt werden können, und ob anhand der verbleibenden Daten überhaupt noch die Nachvollziehbarkeit des Forschungsprozesses gewährleisten werden kann und diese somit erhaltenswert sind. Bei der Klärung dieser Frage können die zuständigen Datenschutzbeauftragten der Hochschulen unterstützen.

Von der gesetzlichen Regelung abweichend ist es möglich, die Informierte Einwilligung der betreffenden Personen zur Archivierung oder Veröffentlichung ihrer personenbezogenen Daten vor der Datenerhebung einzuholen. Dieses Vorgehen sollte aber ebenfalls mit den Datenschutzbeauftragten im Voraus abgestimmt werden.

Wer hat Zugriff auf archivierte Daten?¶

Jede Einreichung wird vom Einreichenden einer Organisationseinheit (OU) zugeordnet, z.B. einer Professur innerhalb der Hochschule. Standardmäßig können alle Angehörigen dieser OU auf den archivierten Datensatz zugreifen. Damit wird verhindert, dass nach dem Ausscheiden der einreichenden Person aus der Einrichtung der Datensatz von niemandem mehr gefunden werden kann und ein sogenanntes 'Dark Archive' entsteht. Eine individuelle manuelle Rechtevergabe hat sich in der Vergangenheit als nicht praktikabel erwiesen und birgt ebenfalls die Gefahr, dass auch die zusätzlich autorisierten Personen aus der Einrichtung ausscheiden.

Veröffentlichte Datensätze sind für alle – auch nicht eingeloggte – Nutzer von OPARA vollständig zugreifbar.

Gibt es für die Veröffentlichung von Forschungsdaten Alternativen zu OPARA?¶

Ziel einer Datenveröffentlichung ist die Bereitstellung des Datensatzes für eine potenzielle Nachnutzung durch Dritte. Durch die Nutzung eines disziplinspezifischen Repositoriums kann dieses Ziel für bestimmte Fachdisziplinen oder bestimmte Datenarten besser erreicht werden. Die Vorteile solcher Repositorien sind der höhere Bekanntheitsgrad in der jeweiligen Fachcommunity, die Möglichkeit bestimmte Datenarten nach den Community-Standards detaillierter und spezifischer zu beschreiben, und die Einordnung eines Datensatzes mit weiteren ähnlichen. Infrage kommende Repositorien können nach Disziplin, Datenart oder anderen Stichworten auf der Webseite www.re3data.org gefunden werden.