Shakespeare Statistics
Autorschaft von Marlowes Edward II
in English
Alle Daten wurden mit R Stylo generiert (.
Siehe:
).
Rolling delta ist ein Programmteil von R Stylo, das mit stilometrischen Analysen Fragen der Autorschaft von Dramen
oder deren Kollaborationen untersucht. Delta wurde als Maß der stilistischen Distanz zwischen Referenztexten
und dem Untersuchungstext 2002 von John Burrows vorgestellt. Maciej Eder, Jan Rybicki und Mike Kestemont entwickelten
seit ca 2012 Rolling Delta, das die Deltawerte von Wortfenstern bestimmter Größe errechnet und dann
überlappend zum nächsten Wortfenster übergeht. So wird der ganze Text durchlaufen, und die
iedrigsten Werte ergeben eine Kurve, die zu dem Autor oder den Autoren gehört, die das Drama verfasst haben.
Um nicht durch die zufällige Zusammenstellung von Referenztexten unzureichende Ergebnisse zu erhalten, kamen
alle gesammelten Referenztexte zur Anwendung, so dass die niedrigsten Deltawerte quasi objektive Messungen darstellen.
Die Anzahl der mehr als 150 Referenztexte (ohne Apokryphen und anonyme Texte) überfordern den Arbeitsspeicher
eines normalen PC. Daher wurde der methodische Rahmen auf die Untersuchung eines 4000-Wortfensters mit einer
Überlappung von 250 Worten reduziert. Untersucht wurden Buchstabentrigramme. In einem
Tabellenkalkulationsprogramm enthielt Spalte A die Dramentitel, Spalte B das Delta-Messergebnis des ersten
4000-Wortfensters bei 2000 Worten. Spalte C die nächste Messung bei 2250 Worten. Je nach Länge des
Untersuchungstexts setzt sich die Spaltenzahl nach rechts fort, wobei der Messpunkt sich um jeweils 250 Worte
erhöht. In jeder Spalte (außer A) wurden die drei niedrigsten Deltawerte markiert und alle
Datensätze ohne jegliche Markierung gelöscht. Die verbleibenden Texte mit ihren Werten fanden
mit einer 90° Drehung in der nachfolgenden Tabelle ihren Ort. Der niedrigste Deltawert pro Fenstermessung
(Wortzahl in Spalte A) wurde grün markiert, der zweitniedrigste gelb, der drittniedrigste grün.
Ab Spalte B sind die durch den Algorithmus ermittelten Texte notiert. Die beiden rechten Spalten geben die
Szenenabfolge und die akkumulierten Wortlängen an, die an die Abfolge der Messpunkte (250 Wortabstand)
angepasst wurden.


