Shakespeare Statistics
Die General Imposters Methode und The Life and Death of Jack Straw
in English
Alle Daten wurden mit R Stylo generiert.
Siehe: 
In seinem Blog "Authorship verification with the package 'stylo'" vom 30. Mai 2018 ( https://computationalstylistics.github.io/blog/imposters/)
beschrieb Maciej Eder ein neues Programmteil des Stylo-Pakets, die General Imposters Methode (GI), die von Koppel und Winter 2014
vorgestellt und von Kestemont 2016 auf die Untersuchung von Julius Caesars Schriften angewendet wurde. Eder zitiert dann die Autoren:
"Die allgemeine Intuition hinter dem GI ist nicht zu beurteilen, ob zwei Dokumente einfach im Schreibstil ähnlich sind, wenn ein
statisches Merkmalsvokabular gegeben ist, sondern es zielt darauf ab, zu beurteilen, ob zwei Dokumente signifikant ähnlicher
zueinander sind als andere Dokumente, über eine Vielzahl von stochastisch beeinträchtigten Merkmalsräumen (Eder, 2012; Stamatatos,
2006) hinweg, und im Vergleich zu einer zufälligen Auswahl von sogenannten Distraktor-Autoren (Juola, 2015), auch 'Hochstapler'
genannt."
Im Zusammenhang mit der Autorschaftszuordnung von The Life and Death of Jack Straw wurden folgende Texte in Anlehnung an die Rolling Delta
Ergebnisse abgefragt:
anon_jackstraw.txt, chettle_hoffman.txt, greene_friarbb.txt, kyd_soliman.txt, kyd_spanpure.txt, lodge_mariusscilla.txt, lyly_motherbombie.txt,
mar_tamburlain1.txt, mar_tamburlain2.txt, mars_antmellid.txt, mars_malcontent.txt, nashe_summerslast.txt, peele_oldwives.txt, row_whenysee.txt,
shak_hamlet.txt, shak_thnight.txt, sidney_marcantonie.txt, wilson_3ladieslondon.txt
Für jeden dieser Texte wurden die Häufigkeiten von Worten mit einem Script von Jan Rybicki untersucht, wobei die Anzahl
mit 5000 bestimmt wurde und jeweils die klassische Delta Methode (delta) eingesetzt wurde, ergänzt durch die sogenannte Würzburg Distanz (wu)
und die Ruzicka Metrik (Ru). Eder gibt folgende Einführung:
Die Hauptprozedur ist über die Funktion imposters() verfügbar. Sie setzt voraus, daß alle zu analysierenden Texte bereits
vorverarbeitet und in Form einer Matrix mit Häufigkeiten von Merkmalen (meist Wörtern) dargestellt sind. Die Funktion
vergleicht in mehreren Iterationen einen fraglichen Text mit (1) einigen Texten, die von möglichen Kandidaten für die
Autorschaft geschrieben wurden, oder den Autoren, die im Verdacht stehen, der tatsächliche Autor zu sein, und (2) einer
Auswahl von "Hochstaplern", oder den Autoren, die den zu beurteilenden Text nicht geschrieben haben können. Folglich wird
der Klasse eines Kandidaten eine Punktzahl zwischen 0 und 1 zugewiesen (siehe Blog). In Jans Script wurde das Ergebnis optimiert durch die Berechnung
eines Grauzonenbereich mit ungewisser Autorschaft. Oberhalb des Oberwertes ist das gesicherte Ergebnis der jeweiligen
Berechnungsmethode, die für einen bestimmten Kandidaten erfolgreich war.
Die Zuordnung ergab folgende tabellarische Übersicht, wobei horizontal die Autorenzuordnungen und vertikal die
Methoden Eingang gefunden haben.

Es wird deutlich, dass der Delta-Klassifikator unterschiedliche
Ergebnisse erzielt. Es stellt sich aber immer mehr heraus, dass die Ruzicka Metrik, die eine furchtbar lange Berechungszeit
braucht, in der Bewertung genauer ist und auch hier bei Ru auf Shakespeare verweist.

Vergleiche die General Imposters Ergebnisse mit jenen von Rolling Delta
und Rolling Classify.