Daten und Analyse

PolMine-Plenardebattenkorpus

Das PolMine-Plenardebattenkorpus (PDK) ist die zentrale PolMine-Ressource. Das PDK wird in einem automatisierten Verfahren, auf der Grundlage der über die Websites der Parlamente zugänglichen Plenarprotokolle, aufbereitet. Durch die Konvertierung entsteht ein für die automatisierte Analyse geeignetes Datenformat. Die Dokumentation des PolMine-Plenardebattenkorpus stellt Aufbereitung und Auswertungsmöglichkeiten ausführlicher dar.

PolMine-Datenbank

Die PolMine-Datenbank, die die Korpusaufbereitung und -auswertung unterstützt, stellt die zweite PolMine-Ressource dar. Die für die politikwissenschaftlichen Auswertungen relevante Informationen, welche nicht im Protokoll enthalten sind (z.B. Parteimitgliedschaften, Ausschüsse oder Koalitionen), werden in der Datenbank erfasst.

Analyse

Im Rahmen korpusunterstützter politikwissenschaftlicher Analysen haben wir bislang die Konstruktion von Zielgruppen in der Migrations- und Integrationspolitik und die Streuung diskursiver Bezugnahmen in Policy-Feldern mit Querschnittscharakter untersucht.

Stand und Qualität der Daten

Die folgende Tabelle bietet einen Überblick über die bisher aufbereiteten Daten:

Bundeslandab
Wahlperiode
ab
Datum
Anzahl der Protokolle
Bundestag1426.10.1998872
Bundesrat-04.02.2000155
Baden-Württemberg1211.06.1996378
Bayern1428.09.1998359
Berlin1418.11.1999228
Brandenburg329.09.1999254
Bremen1507.07.1999264
Hamburg1608.10.1997363
Hessen1507.04.1999413
Mecklenburg-Vorpommern326.10.1998317
Niedersachsen1409.04.1998413
Nordrhein-Westfalen1201.06.1995486
Rheinland-Pfalz1320.05.1996383
Saarland1229.09.1999172
Sachsen313.10.1999318
Sachsen-Anhalt325.05.1998267
Schleswig-Holstein1423.04.1996458
Thüringen301.10.1999322
Wahlperioden: 65Gesamtzahl: 6422

Alle Plenarprotokolle werden auschließlich vollautomatisiert annotiert, so dass keine manuelle Eingriffsmöglichkeit besteht. Aus Gründen der Konsistenz erfolgen auch im Anschluss keine manuellen Nachkorrekturen der annotierten Protokolle. Dies gilt jedoch nicht für das eine Metainformation darstellende Protokolldatum, welches geprüft und bei Bedarf manuell korrigiert wird.

Die aufbereiteten Plenarprotokolle werden aus PDF-Dateien extrahiert. Einige wenige PDF-Dokumente sind als reguläre PDF-Dokumente in den Landtagen erfasst worden. Andere wiederum wurden aus Word-Dateien oder eingescannten Papierdokumenten erstellt, die unterschiedliche Qualitäten aufweisen. Diese Dokumente werden per OCR (engl. Optical Character Recognition/ dtsch. Texterkennung) aus Bilddateien in Textdateien überführt. Die zum Teil minderwertige Qualität der PDF-Bilddateien wirkt sich dabei entspreched qualitätsmindernd auf die Ergebnisse der aus ihnen gewonnenen Textdateien aus. Die Fehlerarten sowie einen Überblick über die Qualität der bisher konvertierten Daten finden sie in der Qualitätsdokumentation.