Analyse der bereits nach Wikidata verlinkten Gartenlaube Artikel

Dieses Skript soll verschiedene Analysen der bereits in Wikidata verlinkten Gartenlaube Artikel vor allem hinsichtlich der Verbesserung der Datenqualität und ihrere Homogenisierung ermöglichen.

Die bereits vorhandenen WD-Items wurden über ein Parsing aller Gartenlaube-Artikel auf de.wikisource via der Media-Wiki-API durch Extraktion der gegebenfalls hinterlegaten Wikibase-ID definiert. Die hier verwendete Liste an QIDs stammt aktuell von 09. März 2019 20.00 Uhr UTC.

1. Zählung aller vorhandenen Properties

Es werden die Properties aller Wikidata-Items ausgelesen und deren Vorkommen gezählt. In einer Tabelle werden sortiert nach ihren Vorkommen die häufigsten Properties dargestellt.

2. Verteilung der verwendeten P31 Objekt-Items

Auch um die Datenqualität der vorhandenen Items analysieren zu können, ist eine Auswertung der verwendeten Objekte im Statement P31 (instance of) interessant. Graphik zeigt die Häufigkeit der verwendeten Items in Gartenlaube-Artikel als Statement mit Property P31.

3. Verteilung der Anzahl an Items zu Gartenlaube-Artikel nach Anzahl an Statements.

In allen ca. 7.700 angelegten Items befinden sich in Summe 16.142 Statements, das sind durchschnittlich nur 2 Statements je Item. Das Diagramm zeigt die Verteilung genauer an. Items mit sehr hoher Anzahl an Statements weisen wieder auf eine wahrscheinlich falsche Verlinkung (bspw. an ein geographisches oder biographisches Item) hin.