Module > Grundlagen > Arbeit mit Digitalen Daten > Extraktion

Extraktion  

DATEN EXTRAKTION

Kommentare, Posts, Tweets, Bilder, Videos oder ganze Webseiten – wie können diese Daten erforscht werden? Welche Schritte sind nötig, um mit digitalen Daten zu arbeiten? In diesem Abschnitt geht es um das Exrahieren von unterschiedlichen Datenformaten. 

EXTRAKTION VON WEBSEITEN UND BILDERN 

Das Sammeln und Herunterladen von Bildern kann natürlich in manueller Art durch einen Rechtsklick im Browser und „Speichern unter“ gemacht werden; bei einer größeren Anzahl von Bildern ist dies jedoch ein zeitaufwendiges Unterfangen. 
Hierfür eignet sich das sogenannt „Web Scraping“. Hiermit sind Programme gemeint, die automatisch Daten suchen, sortieren und herunterladen. In Open Source Projekten wird hierzu meist auf Programmierumgebungen, die auf Python (eine Programmiersprache) basieren, zurückgegriffen. Für die Einrichtung eines solchen Tools werden zum Teil rudimentäre Programmierkenntnissen gefragt. Eine Vielzahl von Tutorials erleichtern den Zugang hierzu jedoch immens. 

– scrapy

– pyspider

– MechanicalSoup

Für kleinere Projekte eignen sich auch kommerzielle Softwareangebote mit limitierten Datensätzen bzw. Suchvorgängen. 

Parsehub (kommerziell)

Ein Tutorial für den Bilderdownload mit Parsehub gibt es hier.

Octoparse (kommerziell)

EXTRAKTION UND ANALYSE VON TWEETS
TAGS ist eine einfache Umgebung für den Download und die Analyse von Tweets. Die Archive werden mit Hilfe von Google-Sheets archiviert und laufen im Hintergrund weiter. Es sind keine Progammierkenntnisse notwenig. Darüber hinaus gibt das Tool eine oberflächliche Analyse- und Visualisierungsmöglichkeit. 

EXTRAKTION UND SPEICHERUNG VON VIDEOS 

YouTube-DL ist eine gut dokumentierte Möglichkeit, um Online-Videos von unterschiedlichen Quellen zu speichern.