> Modalitäten > Text > Analyse > Wordsmiths Tools
WordSmith Tools
Einleitung
WordSmith Tools ist ein integriertes Softwarepaket zur Untersuchung von Wortmustern in Texten. Es wurde 1996 von dem britischen Linguisten Mike Scott an der Universität Liverpool entwickelt, um Studierenden eine handhabbare und anwendungsfreundliche Toolbox für korpuslinguistische Analysen zugänglich zu machen. Seitdem hat Scott das Programm kontinuierlich weiterentwickelt (vgl. Scott 2008), die neueste Version 9.0 ist 2024 erschienen. WordSmith Tool ist rein textbasiert, die zu verarbeitenden Dokumente müssen als plaint text (.txt), HTML oder XML vorliegen. Es ist auf allen gängigen Betriebssystemen unter Windows 7 oder aktueller nutzbar und benötigt, einmal heruntergeladen, keine Verbindung zum Internet. Eine Einzellizenz kostet ca. 76 EUR, es besteht auch die Möglichkeit, Lizenzen im Bundle zwischen 10 und 200 vergünstigt zu erwerben. Auf der Webseite finden sich ein umfangreiches Handbuch, diverse Videotutorials, Wortlisten und weitere Informationen zur Software, die kostenfrei genutzt werden können (vgl. Scott 2024).
WordSmith Tools besteht aus drei Modulen, die entweder einzeln oder in Kombination verwendet werden können, um lexikographische Muster in Texten zu untersuchen: WordList, KeyWords und Concord. Das WordList-Modul generiert Listen mit allen Wörtern, die im Text enthalten sind, und sortiert sie alphabetisch oder nach Häufigkeit. So können beispielsweise bestimmte Wortcluster im Text identifiziert und Frequenzvergleiche von Wörtern zwischen Texten erstellt werden. Sie sind außerdem die Grundlage für das KeyWord-Modul, anhand dessen errechnet wird, welche Wörter im Text im Verhältnis zu einem Referenzkorpus überzufällig häufig vorkommen. Auf diese Weise können etwa Rückschlüsse über die Dominanz bestimmter Sprachgebrauchsmuster getroffen werden. Über das Konkordanzmodul schließlich lassen sich (Schlüssel-)Worte in ihrem jeweiligen Satzkontext betrachten und ihre statistische Nähe zu benachbarten Worten, sogenannten Kollokationen, bestimmen. Auch können die Wortmuster graphisch über Wortwolken dargestellt werden, wobei Größe und Abstand zwischen den Wörtern Aussagen über ihre Dominanz und Relation im Textkorpus erlauben.
Anwendung
WordSmith Tools wurde für korpuslinguistische Zwecke konzipiert. Die Anwendung seiner lexikometrischen Funktionen kann aber auch in den Geisteswissenschaften von Nutzen sein – insbesondere für diskursanalytische Ansätze und wenn es darum geht, große Textkorpora zu filtern und/oder sich die Entwicklung bestimmter Muster und Phänomene über die Zeit hinweg zu betrachten. Beispiele für den Einsatz von WordSmith Tools in den Digital Humanities finden sich vor allem in der Humangeographie – etwa bei Mattissek (2007, 2008) zu städtischer Identität und Stadtmarketing verschiedener deutscher Städte, bei Brailich und Kollegen (2008) zur diskursiven Konstitution von Großwohnsiedlungen sowie bei Breitung und Hopfinger zu Diskursen und transkulturellen Identitäten im städtischen Raum (Breitung 2013; Breitung und Hopfinger 2016; Hopfinger und Breitung 2016). Allen gemeinsam ist eine umfangreiche Datengrundlage von Zeitungsartikeln verschiedener Zeitungen über mehrere Jahre, aus der mit Hilfe von unter anderem Word Smith Tools die zentralen Themen, Begriffe und hegemonialen Sprechmuster über die Zeit hinweg analysiert und verglichen wurden.
Ich selbst habe WordSmith Tools im Rahmen meiner Dissertation (Stumpf 2019) genutzt, um mich einem Textkorpus von mehr als 18.000 Zeitungsartikeln anzunähern und diesen schrittweise, im Sinne eines Blended Readings[1]-Prozesses, auf seine für mich relevanten Muster und Relationen zu verdichten, und schließlich für eine qualitative Analyse handhabbar zu machen. Auf diese Weise war es möglich, die zentralen Ordnungskonzepte in einem Berliner Stadtraum über verschiedene Zeitspannen zu vergleichen und ihre Entwicklung zu analysieren.
Bewertung
WordSmith Tools hat unter den digitalen Textverarbeitungsprogrammen eher die Rolle eines Underdogs. Es ist in den Digital Humanities nur wenig bekannt und die Zahl der Arbeiten, die es für geisteswissenschaftliche Zwecke nutzen, ist begrenzt. Sein Interface ist einfach gehalten und wirkt fast wie „aus der Zeit gefallen“. Das mag vor allem daran liegen, dass es ein „Ein-Mann-Projekt“ ist, das sich seit fast 30 Jahren in der Entwicklung befindet und immer noch fortwährend weiterentwickelt wird. Darin liegt wiederum sein Charme. So wie für jedes Programm müssen sich Nutzende zu Beginn intensiv in die entsprechenden Funktionen einarbeiten. Nicht alle machen für geisteswissenschaftliche Fragestellungen überhaupt Sinn und der händische Aufwand, um digitale Texte für die Analyse aufzubereiten kann – je nachdem, in welcher Qualität das Datenmaterial vorliegt – sehr umfangreich sein.
Noch vor wenigen Jahren gab es auf dem Markt kaum Software, die überhaupt von Forschenden der Geisteswissenschaften für die Analyse größerer Datenmengen genutzt wurde/werden konnte. Einhergehend mit der wachsenden Relevanz der Digital Humanities und dem Bewusstsein und Bedürfnis danach, Forschung auch im Digitalen und unter Zuhilfenahme großer multimodaler Datenmengen zu betreiben, gibt es zunehmend auch Softwarelösungen, die integrierte Möglichkeiten für die quantitative und qualitative Analyse von Daten zur Verfügung stellen und damit einen Wechsel zwischen verschiedenen Programmen überflüssig machen (z.B. die neusten Versionen von Atlas.ti, MaxQDA, Catma, die noch im Aufbau befindliche DATS der Universität Hamburg). Wer diese nicht nutzen möchte oder kann und dennoch einen Einstieg in große (Text-)Datenmengen sucht, für den kann WordSmith Tools eine gängige Weghilfe sein.
[1] In der Methode des Blended Reading werden durch Distant Reading, mit Hilfe Computer gestützter Text Mining Verfahren, quantitative Muster im Text identifiziert. Darauf basierend und im Wechselspiel damit werden durch Closed Reading interpretative Einzelanalysen in ausgewählten Textstellen durchgeführt (vgl. Lemke und Stulpe 2015; Stulpe und Lemke 2016).
Literaturverzeichnis
Brailich, Adam; Germes, Mélina; Schirmel, Henning; Glasze, Georg; Pütz, Robert (2008): Die diskursive Konstitution von Großwohnsiedlungen in Deutschland, Frankreich und Polen. In: Europa Regional, 16(3), 113–128.
Breitung, Anke (2013): Urbane Heterotopien – Transkulturelle Identitäten im städtischen Raum. In: Olaf Schnur, Philipp Zakrzewski und Matthias Drilling (Hg.): Migrationsort Quartier – zwischen Segregation, Integration und Interkultur. Wiesbaden: Springer Fachmedien, S. 75–88.
Breitung, Anke; Hopfinger, Hans (2016): Zur Konstruktion von urbanen Identitäten im Migrationskontext. In: Kerstin Kazzazi, Angela Treiber und Tim Wätzold (Hg.): Migration, Religion, Identität. Aspekte transkultureller Prozesse. Wiesbaden: Springer VS, S. 263–280.
Hopfinger, Hans; Breitung, Anke (2016): Urbane Geographien. Transkulturelle Identitäten im städtischen Raum. In: Klaus Stüwe und Eveline Hermannseder (Hg.): Migration und Integration als transnationale Herausforderung. Perspektiven aus Deutschland und Korea. Wiesbaden: Springer VS, S. 311–322.
Lemke, Matthias; Stulpe, Alexander (2015): Text und soziale Wirklichkeit. Theoretische Grundlagen und empirische Anwendung von Text-Mining-Verfahren in sozialwissenschaftlicher Perspektive. In: Zeitschrift für germanistische Linguistik, 43(1), 52–83.
Mattissek, Annika (2007): Diskursive Konstitution städtischer Identität – Das Beispiel Frankfurt am Main. In: Christian Berndt (Hg.): Kulturelle Geographien. Zur Beschäftigung mit Raum und Ort nach dem Cultural Turn. Bielefeld: Transcript, S. 83–111.
Mattissek, Annika (2008): Die neoliberale Stadt. Diskursive Repräsentationen im Stadtmarketing deutscher Großstädte. Bielefeld: Transcript.
Scott, Mike (2008): DEVELOPING WORDSMITH. In: Int. j. Engl. stud. 8(1), 95–106.
Scott, Mike (2024): WordSmith Tools. Version 9.0: Lexical Analysis Software Ltd. Online verfügbar unter https://lexically.net/LexicalAnalysisSoftware/#gsc.tab=0, zuletzt geprüft am 11.04.2024.
Stulpe, Alexander; Lemke, Matthias (2016): Blended Reading. Theoretische und praktische Dimensionen der Analyse von Text und sozialer Wirklichkeit im Zeitalter der Digitalisierung. In: Matthias Lemke und Gregor Wiedemann (Hg.): Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Wiesbaden: Springer VS, S. 17–61.
Stumpf, Teresa (2019): Regime urbaner Resilienz: Sozialräumliche Dynamiken des Wandels in belasteten Stadtbezirken. Dissertation. Universität Hamburg, Hamburg. Institut für Empirische Kulturwissenschaft. Online verfügbar unter https://ediss.sub.uni-hamburg.de/handle/ediss/8811 , zuletzt geprüft am 04.04.2024.
INHALT
THEMENBEREICH REFLEXION:
SCHLAGWORTE:
CREDITS:
DOI:
In Erstellung
VERSION:
1.0.0.
ZITIEREN ALS:
Stumpf Teresa. (2024). WordSmith Tools. http://doi.org/ – in Erstellung