PolMine-Plenarprotokollkorpus Deutscher Bundestag [txt]

v1.0.1

Andreas Blätte (andreas.blaette@uni-due.de)

2017-03-13

Vorbemerkung

Das Plenarprotokollkorpus auf Basis der vom Deutschen Bundestag veröffentlichten Plenarprotokolle im txt-Dokumentformat umfasst den Zeitraum von 1996 bis zum Ende der 17. Wahlperiode (September 2013). Für einen Zeitraum zwischen 2008 und 2010 standen die Parlamentsprotokolle nicht im txt-Format zur Verfügung. Diese Lücke wird durch eine Korpusaufbereitung auf Grundlage der pdf-Dokumente der Protokolle geschlossen (für Download-Quellen siehe Anhang).

Das Korpus wird in ein für die Corpus Workbench (CWB) geeignetes Format transformiert und steht registrierten Nutzern über CQPweb auf dem PolMine-Server (http: //polmine.sowi.uni-due.de/cwb) zur Verfügung. Als Nachweis für die Nutzung des Korpus sollte bitte diese Dokumentation zitiert werden.

Aufbereitungsverfahren

Das Korpus wird im Wesentlichen in den folgenden Schritten aufbereitet.

Das Aufbereitungsverfahren erfolgt vollständig automatisert. Die Skripte fur das Parsing der txt-/pdf-Dateien wurden durch eine systematische Durchsicht von Stichproben des Korpus entwickelt, eine vollständige manuelle Durchsicht des Korpus ist nicht erfolgt und angesichts des Umfangs des Materials praktisch nicht möglich. Aufgrund der Automatisierung der Korpusaufbereitung können Fehler nicht ausgeschlossen werden.

Es ist ein Ziel des PolMine-Projekts, die Datenqualität sukzessive zu verbessern. Entsprechende Hinweise sind willkommen (bitte Nachricht an andreas.blaette@uni-due.de)!

Daten

Aufbereitungszeitraum

Das Korpus umfasst alle verfugbaren txt-Plenarprotokolle bis einschließlich der letzten Sitzung der 17. Wahlperiode. In einem Zeitraum zwischen 2008 und 2010 hat der Deutsche Bundestag Plenarprotokolle nicht im txt-Format zur Verfugung gestellt. Für diesen Zeitraum erfolgte die Korpusaufbereitung auf Grundlage von pdf-Dokumenten. Vergleiche hierzu die Übersichten im Anhang.

Gegenstand der Korpusaufbereitung

Das Korpus umfasst nur die Reden im Bundestag, die tatsächlich im Bundestag gehalten wurden. Reden, die zu Protokoll gegeben wurden und die im Anhang zu Plenarprotokollen enthalten sind, wurden bei der Korpusaufbereitung nicht berucksichtigt. Im Korpus ebenfalls nicht enthalten sind die Tagesordnungen, welche jeweils am Anfang der Plenarprotokolle stehen.

Annotation

Linguistische Annotation

Das Korpus wurde mit dem TreeTagger tokenisiert und linguistisch annotiert. Durch die Tokenisierung wird der fortlaufende Text in lexikalische Einheiten zerlegt (d.h. in einzelne Wörter). Im Zuge der linguistischen Annotation wird fur jedes einzelne Wort die Wortart bestimmt (sog. POS / Part-of-Speech-Tagging). Die Wörter werden lemmatisiert, d.h. jede Wortform wird auf seine Grundform zuruckgeführt.

Bei der Arbeit mit den Lemmata ist zu beachten, dass durch Wortneuschöpfungen und Sprachwandel nicht jedes Wort im Korpus im Lexikon des TreeTaggers enthalten ist. Gerade bei neuen Wörtern bzw. Wortschöpfungen kann nicht davon ausgegangen werden, dass die Wortform tatsächlich lemmatisiert werden konnte. Bei unbekannten Worten wird als Lemma “unknown” angegeben.

Metadaten / strukturelle Annotation

Bei der Umwandlung des durch das Parsing generierten Ausgangs-XML in das CWB/CQPweb-Importformat werden alle Passagen ununterbrochener Rede sowie alle Zwischenrufe in gesonderte Texte fur den CWB-Import zergliedert, die jeweils mit Metadaten versehen sind. Dies erfolgt aufgrund der Anforderungen von CQPweb an das Datenformat. Diese Texte entsprechen damit nicht Reden. Da eine Rede oftmals durch eine Reihe von Zwischenrufen unterbrochen wird, ist eine Rede in aller Regel in mehrere Texte zerlegt.

Die Texte des Korpus haben in der CWB-Fassung folgende Metadaten:

strukt. Attribut Beschreibung Ausprägungen
text_id ID des Textes BT, Wahlperiode, Sitzungsnummer, S/I (S für Rede, I für Zwischenruf)
text_source Ausgangsnaterial “txt” oder “pdf”“
text_lp Wahlperiode 13 bis 17
text_protocol_no Sitzungsnummer 1 bis 253
text_date Datum Format JJJJ-MM-TT (z.B. “2013-06-28”)
text_year Jahr Jahr vierstellig, 1996 bis 2013
text_month Monat zweistellig, 01 bis 12
text_type Art der Rede “speech” oder “interjection”“
text_function Funktion des Sprechers “Bundestags(vize)präsident/in”, “Abgeordnete/r”, Funktion innerhalb der Bundesregierung
text_name Name Name wie im Plenarprotokoll angegeben einschließlich Titel

Eine Annotation von Absätzen oder Sätzen wurde nicht vorgenommen. Diese ist für künftige Versionen des Korpus vorgesehen

Nutzung des Korpus

Das Korpus steht registrierten Nutzern auf dem PolMine-Server uber CQPweb zur Verfugung. CQPweb ist eine Web-Applikation, die Nutzern auf der Basis einer Verwaltung des Korpus mit der CWB einen effizienten Datenzugriff ermöglicht. Es kann die Syntax der Korpus-Abfragesprache CQP (fur Corpus Query Processor) genutzt werden. Diese wird im CQP-Tutorial umfassend beschrieben. Als einfacher Einstieg ist das Tutorial von Noah Bubenhofer bestens geeignet. Eine ausfuhrlichere Beschreibung von CQPweb bietet der Text “EDV-gestutzte Arbeit mit Korpora” von Christian Kreuz und Norbert Römer.

Bei entsprechendem Bedarf kann nach Rucksprache ein Zugriff auf die CWB auf der Kommandozeile eingerichtet werden. Die folgenden Hinweise richten sich vor allem an Nutzer von CQPweb. Die in CWB/CQPweb importierte Fassung des Korpus wurde gezielt so transformiert, dass die Funktionalität von CQPweb genutzt werden kann, insbesondere die Möglichkeit Subkorpora uber ‘restricted queries’ durchzufuhren. Zu beachten ist dabei:

Versionsgeschichte

Version 0.9.0 vom 13.09.2013

Version 0.8.0 vom 12.08.2013

Version 0.7.0 vom 02.08.2012

Anhang

Aufbereitung von Plenarprotokollen (nach Wahlperioden)

WP Datenbestand Zeitraum Zahl der Protokolle Token
13 ab 86. Sitzung 1996-1998 163 11.484.628
14 vollständig 26.10.1998-13.09.2002 253 18.955.237
15 vollständig 17.20.2002-28.09.2005 187 12.797.634
16 vollständig 18.10.2005-08.09.2009 233 17.623.703
17 vollständig 27.10.2009-03.09.2013 251 22.544.458

Aufbereitung von Plenarprotokollen (nach Jahren)

Jahr PlPr(txt) Token(txt) PlPr(pdf) Token(pdf) PlPr(insg.) Token(insg.)
1996 64 4.411.731 0 0 64 4.411.731
1997 62 4.347.053 0 0 62 4.347.053
1998 51 3.460.238 0 0 51 3.460.238
1999 65 5.018.672 0 0 65 5.018.672
2000 62 4.939.233 0 0 62 4.939.233
2001 69 5.023.673 0 0 69 5.023.673
2002 60 4.348.155 0 0 60 4.348.155
2003 67 4.519.408 0 0 67 4.519.408
2004 65 4.733.993 0 0 65 4.733.993
2005 47 2.918.442 0 0 47 2.918.442
2006 65 4.864.127 0 0 65 4.864.127
2007 60 4.447.858 0 0 60 4.447.858
2008 29 2.115.105 34 2.498.827 63 4.613.932
2009 0 0 49 3.979.244 49 3.979.244
2010 50 4.452.127 19 1.293.767 69 5.745.894
2011 68 6.148.992 0 0 68 6.148.992
2012 63 5.714.284 0 0 63 5.714.284
2013 37 4.170.713 0 0 37 4.170.713
SUMME 984 75.558.956 102 7.771.838 1.086 83.405.660

Quellennachweis

Die txt-Fassungen der Plenarprotokolle der 17. Wahlperiode können uber die Homepage des Bundestags abgerufen werden: http://www.bundestag.de/dokumente/protokolle/plenarprotokolle/plenarprotokolle/index.html. Dies gilt auch fur die Plenarprotokolle der 16. und der 17. Wahlperiode, die nur im pdf-Format zur Verfugung stehen: http://suche.bundestag.de/plenarprotokolle/search.form

Die Dateien der Plenarprotokolle fruherer Wahlperioden bzw. Jahre stehen über das Webarchiv des Bundestags unter den folgenden Adressen zur Verfügung:

1996: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/1996/index.htm

1997: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/1997/index.htm

1998: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/1998/index.htm

1999: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/1999/index.htm

2000: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2000/index.htm

2001: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2001/index.htm

2002: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2002/index.html

2003: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2003/index.html

2004: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2004/index.html

2005: http://webarchiv.bundestag.de/archive/2005/1205/bic/plenarprotokolle/pp/2005/index.html

2006: http://webarchiv.bundestag.de/archive/2008/0912/bic/plenarprotokolle/pp/2006/index.html

2007: http://webarchiv.bundestag.de/archive/2008/0912/bic/plenarprotokolle/pp/2007/index.html

2008: http://webarchiv.bundestag.de/archive/2008/0912/bic/plenarprotokolle/pp/2008/index.html

2009: http://webarchiv.bundestag.de/archive/2008/0912/bic/plenarprotokolle/pp/2009/index.html