> Modalitäten > Social Media > Extraktion
Social Media Extraktion
DATEN EXTRAKTION
Kommentare, Posts, Tweets, Bilder, Videos oder ganze Webseiten – wie können diese Daten erforscht werden? Welche Schritte sind nötig, um mit digitalen Daten zu arbeiten? In diesem Abschnitt geht es um das Exrahieren von unterschiedlichen Datenformaten.
EXTRAKTION VON WEBSEITEN UND BILDERN
Das Sammeln und Herunterladen von Bildern kann natürlich in manueller Art durch einen Rechtsklick im Browser und „Speichern unter“ gemacht werden; bei einer größeren Anzahl von Bildern ist dies jedoch ein zeitaufwendiges Unterfangen.
Hierfür eignet sich das sogenannt „Web Scraping“. Hiermit sind Programme gemeint, die automatisch Daten suchen, sortieren und herunterladen. In Open Source Projekten wird hierzu meist auf Programmierumgebungen, die auf Python (eine Programmiersprache) basieren, zurückgegriffen. Für die Einrichtung eines solchen Tools werden zum Teil rudimentäre Programmierkenntnissen gefragt. Eine Vielzahl von Tutorials erleichtern den Zugang hierzu jedoch immens.
– scrapy
– pyspider
Für kleinere Projekte eignen sich auch kommerzielle Softwareangebote mit limitierten Datensätzen bzw. Suchvorgängen.
Parsehub (kommerziell)
Ein Tutorial für den Bilderdownload mit Parsehub gibt es hier.
Octoparse (kommerziell)
EXTRAKTION UND ANALYSE VON TWEETS
TAGS ist eine einfache Umgebung für den Download und die Analyse von Tweets. Die Archive werden mit Hilfe von Google-Sheets archiviert und laufen im Hintergrund weiter. Es sind keine Progammierkenntnisse notwenig. Darüber hinaus gibt das Tool eine oberflächliche Analyse- und Visualisierungsmöglichkeit.
EXTRAKTION UND SPEICHERUNG VON VIDEOS
YouTube-DL ist eine gut dokumentierte Möglichkeit, um Online-Videos von unterschiedlichen Quellen zu speichern.
Eine Vollständigkeit der Daten kann jedoch auch hier nicht garantiert werden. Auch fehlt je nach Bereitstellungsformat der Daten der Kontext bzw. das Frame, in dem die Inhalte auf der Plattform präsentiert werden.
Generelle Herangehensweisen bei der Extraktion von Social Media Daten:
Manuelle Methoden
Die einfachste Herangehensweise für der Speicherung von Tweets, Kommentaren oder Bildern liegt in sogenannten manuellen Methoden z.B. durch copy-paste, Bildschirmfotos oder Screenrecordings. Diese Inhalte können in weiteren Schritten zusammengetragen, annotiert und aufbereitet werden.
Das manuelle Vorgehen bringt jedoch auch Limitierungen mit sich. So ist dieses Verfahren bei größeren Datenmengen sehr zeitaufwendig. Auch werden Metadaten, die wichtige Auskünfte über Vernetzungsgrad und Reichweite der Inhalte geben nicht mitgespeichert. Gerade der Interaktionsgrad kann wichtige Erkenntnisse über das Netzwerk der Akteure untereinander aufzeigen.
Im Folgenden werden die manuellen Herangehensweisen vorgestellt.
- Gerade bei kleinen und explorativen Forschungsansätzen und Aufgabenstellungen reicht eventuell eine manuelle Herangehensweise.
- Bei größeren Datenmengen und Vorhaben können automatisierte und Software gestützte Lösungen sinnvoll sein.
- Bei längerfristigen Unterfangen und großen Datenmengen macht eine direkte Anbindung an die sogenannte API Sinn.
Angebote von Drittanbietern
Online lassen sich eine Vielzahl von Anbietern und Angebote zum Auslesen und Speichern von Sozial Media Daten finden. Diese werden gerade für Marketingzwecke, zur Reichweiten Messung, Zielgruppenanalysen und Kampagnenoptimierung genutzt. Aus diesem Grund sind die Angebote und Dienstleistungen dieser Anbieter in der Regel kostenpflichtig. Manche davon bieten jedoch Vergünstigungen für Studierende oder kostenlose Test-Versionen bzw. limitierte Zugänge an. Der Vorteil dieser Angebote liegt in der einfachen Handhabung, dem automatischen Ablauf, sowie der Datentiefe, sprich neben den inhaltlichen Social-Media Daten werden ebenfalls die Metadaten mitgespeichert. Des Weiteren, wird meistens eine erste explorative Analyse der Daten sowie eine Visualisierung der Ergebnisse
in Form von Graphiken und Tabellen auf den jeweiligen Dashboards bzw. Übersichtsseiten der Webseiten dynamisch zusammengestellt.
Insgesamt ist es eine sehr niedrigschwellige Möglichkeit, sich an eine explorative Analyse von Social Media Daten anzunähern.
Die bereitgestellten Analyse- und Interpretationstools, die auf den plattforminternen Seiten zu finden sind, dürften für viele Nutzende als Informationsquelle genügen. Für einen forschenden Ansatz mit großen Datensets braucht es jedoch einen Zugang zu den ungefilterten und kompletten Rohdaten. Gerade in quantitativen, methodischen Verfahren ist die Verwendung von unverfälschtem Datenmaterial wichtig, um mögliche Korrelationen und Hypothesen ableiten zu können und somit ein mögliches Bias zu reduzieren bzw. auszuschließen.
Dieser allumfassende Zugang zu Social Media Daten, (Inhalt, Metadaten, Vernetzungsgrad) stellt oft eine Herausforderung dar und kann aktuell vor allem mit Hilfe einer direkten Verbindung zur jeweiligen Plattform erfolgen.
API Schnittstelle
Viele Social Media Plattformen stellen eine eigene API-Schnittstelle (Application Programming Interface) für Entwickler und Partnerunternehmen zur Verfügung. Der Zugang zu solch einer API kann öffentlich sein oder individuell beantragt werden. Über diese Schnittstelle können, je nach Plattform Sozial Media Daten abgerufen werden. Diese Verbindung wird mit Hilfe eines Scriptes (ein kleines Programm) oder einer angepassten Software hergestellt. Diese Programme rufen die gewünschten Daten von der Plattform ab und stellen diese in einem zuvor festgelegten Datenformat (JSON, CSV etc.) dar. Dieses Verfahren bietet eine gute Möglichkeit zur automatisierten Extraktion von Datensets samt Metadaten.
Zugänge über die API:
Twitter API:
Die Twitter API ermöglicht den Zugriff auf Echtzeit-Tweets, Benutzerprofile und Trends. Mithilfe von Entwicklertools können eigene benutzerdefinierte Abfragen erstellt werden.
Facebook Graph API:
Die Facebook Graph API gewährt Zugriff auf öffentliche Inhalte, Seiteninformationen und Benutzerdaten. Sie bietet vielfältige Möglichkeiten für die Analyse von Facebook-Interaktionen.
YouTube Data API:
Die YouTube Data API ermöglicht den Zugriff auf Videoinhalte, Kommentare und Kanalstatistiken. So können z.B. Trends in Videos untersucht werden.
Reddit API:
Die Reddit API bietet Zugriff auf öffentliche Reddit-Inhalte, Kommentare und Benutzerinformationen. Es können Diskussionen und Meinungsbildung in verschiedenen Subreddits analysiert werden.
Snapchat Developer Kit:
Das Snapchat Developer Kit bietet Tools für den Zugriff auf öffentliche Inhalte auf Snapchat. Damit können Snapchat-Stories und -Geofilter analysiert werden.
INHALT
- Daten Extraktion
- Extraktion von Webseiten und Bildern
- Extraktion und Analyse von Tweets
- Extraktion und Speicherung von Videos
- Generelle Herangehensweisen bei der Extraktion von Social Media Daten
- Manuelle Methoden
- Angebote von Drittanbietern
- API Schnittstelle
THEMENBEREICH MULTIMODAL:
KATEGORIEN:
SCHLAGWORTE:
CREDITS:
DOI:
10.25592/uhhfdm.13611
VERSION:
1.0.0.
ZITIEREN ALS:
Knipping-Sorokin, Roman. (2023). Multimodal Extraktion [website]. http://doi.org/10.25592/uhhfdm.13611