Durch exzellente Datenqualität ans Ziel

Öffnungszeiten, Veranstaltungen und Ausflugstipps – Daten von touristischen Regionen, Städten und Orten bilden die Basis für die erfolgreiche Sichtbarkeit und Vermarktung einer Destination. Aber all diese Daten sind für Gäste nur dann von Nutzen, wenn eine exzellente Datenqualität vorliegt.

„Noch nie waren gut gepflegte Daten im Tourismus so wichtig wie im Zeitalter von Sprachassistenten, Google und Künstlicher Intelligenz. Durch Schnittstellen können Daten an viele verschiedene Ausgabekanäle weitergegeben und somit mehrfach genutzt werden. Allerdings ist die Datenqualität entscheidend dafür, über welche digitalen Anwendungen die Daten schlussendlich zielgerichtet ausgespielt werden können“, so Markus Garnitz, Bereichsleitung Digitalisierung der BayTM. Wie wichtig eine exzellente Datenqualität ist und was dafür getan werden kann, erklären wir euch in diesem Beitrag.

Die Kriterien für die Erfassungsqualität von Open Data-Daten
Die wichtigsten Kriterien für die Erfassungsqualität von Daten.

Was bedeutet Datenqualität eigentlich? 

Bei der Datenqualität geht es um die Bewertung der vorhandenen Datensätze anhand unterschiedlicher Kriterien. Dazu gehört die Strukturiertheit, Eindeutigkeit, Aktualität, Richtigkeit und Vollständigkeit eines Datensatzes. Ein Infoscreen in einer Tourist-Information ist immer nur so gut wie die Datenqualität, die den Gästen geboten wird. Eine exzellente Datenqualität spiegelt daher auch den digitalen Reifegrad einer Destination wider und zeigt, wie gut oder schlecht eine Destination von einem Gast digital wahrgenommen wird. Die Basis aller digitalen Angebote im Tourismus bilden also gut gepflegte Daten.

Wenn ein Mitarbeiter einer Tourismusinformation in einem Destinationsmanagementsystem (DMS) bspw. Titel, Beschreibung, Kategorie, Geo-Information und Kontaktdaten eines Datensatzes angibt, generiert er sofort wertvolle Daten für seine Gäste. Und je mehr Informationen in einem Datensatz enthalten sind, desto höher ist der Mehrwert dieser Daten. In diesem Fall spricht man über die Vollständigkeit der Daten. Denn was bringt es dem Gast zu wissen, dass heute ein interessantes Event ist, wenn er nicht weiß, wo und wann es stattfindet?

Wie kann die Vollständigkeit der Daten in der BayernCloud gemessen werden? 

Dafür wurde eine Bewertungsmatrix für die einzelnen Datenkategorien erstellt. Die Aufteilung in drei Farben visualisiert die Qualität eines Datensatzes in ausreichend, gut und sehr gut. Anhand der aufgelisteten Datenfelder wird in der BayernCloud ein Score für die Bewertung der Vollständigkeit je nach Datentyp errechnet. Sind nur rote Felder eines Datensatzes gefüllt, erhält der Datensatz den Score 0. Mit jedem weiteren ausgefüllten Datenfeld bekommt der Datensatz zusätzliche Punkte. Erreicht der Datensatz insgesamt über 70 Punkte, gilt er als gut. Sind alle Felder gepflegt, erhält der Datensatz einen Score von 100 und wird als sehr gut ausgezeichnet.

Eine wertvolle Ergänzung eines Datensatzes ist zudem die Vergabe von Keywords oder Attributen. Je mehr Keywords, wie beispielsweise „barrierefrei“ oder „kinderwagengeeignet“, zugeordnet werden, desto aussagekräftiger ist er. Damit kann der Datensatz noch besser eingeordnet, gefunden und verknüpft werden und wertvolle Informationen für bestimmte Nutzergruppen liefern.

Die Bewertungsmatrix zur Datenqualität
Die Bewertungsmatrix zur Datenqualität wird stetig erweitert und angepasst.

Weitere wichtige Datenqualitätskriterien sind Aktualität, Korrektheit und Eindeutigkeit. Schließlich gibt es für einen Gast nichts ärgerlicheres, als vorab online die Öffnungszeiten eines Museums zu überprüfen, um dann trotzdem vor verschlossener Tür zu stehen. Über Eindeutigkeit spricht man in Zusammenhang mit der sogenannten „Dubletten-Problematik“. Fälschlicherweise doppelt angelegte Adressen oder verschiedene Namensschreibweisen in einem Datensatz führen dazu, dass Daten doppelt vorhanden sind.

Aber die Vollständigkeit, Aktualität, Korrektheit und Eindeutigkeit der Daten ist noch nicht alles. Damit App-Entwickler*innen Daten programmatisch verarbeiten können, müssen diese in strukturierter Form vorliegen (= Daten-Konformität). Was die strukturierte Aufbereitung von Daten genau bedeutet, erfahrt ihr in unserem Semantic Web Artikel. 

Deswegen soll an dieser Stelle die praktische Bedeutung der strukturierten Auszeichnung von Daten veranschaulicht werden. Wenn z.B. die Öffnungszeiten strukturiert im dafür vorgesehenen Datenfeld erfasst werden, dann sind diese maschinenlesbar und können somit auch als Öffnungszeiten erkannt werden (siehe Beispiel Museum 1). Dagegen können Öffnungszeiten, die nicht im dafür vorgesehenen Feld stehen, sondern im Fließtext, nicht als Öffnungszeiten ausgewertet werden (siehe Beispiel Museum 2). Wenn ein Gast also nach einem Museum sucht, das Montags geöffnet hat, würde das Museum 2 mit den im falschen Datenfeld gepflegten Informationen nicht angezeigt werden. Sehr schade, denn die Daten sind ja gepflegt, nur leider in der falschen Form.

Beispiel eines gut gepflegten Datensatzes im Json-Format
Richtige Datenpflege im DMS: in jedem Datenfeld stehen die dafür vorgesehenen Informationen.
Beispiel für falsch eingepflegte Öffnungszeiten-Daten eines Museums im Json-Format
Falsche Datenpflege: Öffnungszeiten und Adresse werden in das Beschreibungsfeld geschrieben, wodurch die Daten maschinell nicht erkannt werden können.

Was kann für eine gute Datenqualität unternommen werden? 

  1. Darauf achten, dass die Informationen eines Datensatzes auch in dem dafür vorgesehenen Feld gepflegt werden.
  2. Den zuständigen DMS-Dienstleister auf die strukturierte Datenerfassung nach Domain Specification hinweisen.
  3. Die bestehenden Datensätze bei Aktualisierungen mit zusätzlichen Inhalten kontinuierlich nachpflegen bzw. bei neuen Datensätzen gleich auf die Vollständigkeit achten.

Es geht also nicht darum, alle Datensätze auf einmal anzupassen, sondern einen kontinuierlichen Prozess zur Sicherung der Datenqualität zu definieren. Die Kriterien werden oftmals auch nicht zu 100 Prozent erfüllt werden können. Dennoch: je vollständiger, fehlerfreier und aktueller die Daten gesammelt und gepflegt werden, desto besser ist die Datenqualität. Eine gute Datenqualität bietet somit relevante und hilfreiche Informationen und steigert dadurch die Zufriedenheit von Gästen und Einheimischen, die diese in Anspruch nehmen.

Grafik zum Datenqualität-Score der aktuellen Datensätze in der BayernCloud
Datenqualität-Score der Datensätze in der BayernCloud.

Datenqualität in der BayernCloud – Status Quo

Aktuell dürfen wir uns bereits über knapp 50.000 Datensätze (ausgenommen Bilder) in der BCT erfreuen. Dabei erreichen 13 % des Datenbestandes einen Score von 100 (sehr gut) und 41 % einen Score von 70 (gut). Der größte Anteil der Daten (46 %) hat einen Score von 0 (ausreichend). Das bedeutet, dass bspw. nur die Grundangaben wie Titel, Kategorie, Geo-Koordinaten oder Beginn und Ende einer Veranstaltung gepflegt sind. Diese Angaben sind zwar ausreichend, um einen Datensatz in der BCT anzulegen, aber nicht um dauerhaft einen Mehrwert für die Gäste zu bieten. In der Regel kann das aber mit einigen wenigen Änderungen schnell angepasst werden.