Datenerfassung und -vorverarbeitung

Vorbereitung

Ausgangspunkt ist immer eine Frage, auf die wir eine Antwort (Antworten) suchen.

Beispiel: Welchen Zusammenhang gibt es zwischen dem Alter einer Person und der Anzahl der "Freunde", die sie auf Social-Media-Plattformen hat?

Diese Frage ist noch zu offen; wir müssen sie eingrenzen.

Beispiel: Welchen Zusammenhang gibt es zwischen dem Alter der TeilnehmerInnen an Kursen der Volkshochschule Rheintal und der Anzahl der "Freunde", die sie auf Social-Media-Plattformen haben?

Wir suchen also nach Daten, die dem Finden eines allfälligen Zusammenhangs dienlich sein könnten. Die folgende Tabelle wäre dazu geeignet.

Person	Alter	Anzahl "Freunde"
Person A
Person B
Person C
...

Nun wählen wir eine geeignete Methode, um die benötigten Daten zu erfassen. Leider können wir nicht alle Teilnehmenden (die sogenannte Grundgesamtheit) befragen (das würde mindestens ein Jahr dauern). Wir beschränken uns deshalb auf die Teilnehmenden eines einzelnen Kurses (Stichprobe). Damit wird die Datenerfassung einfach: Wir fragen einfach und füllen die Tabelle aus.

Zur Erhebung von Personendaten benötigen wir die Einwilligung der Personen. Wir müssen jeden Druck auf die Personen vermeiden (auch psychischen und sozialen).

Erfassung

Erfassung der Daten der Kursteilnehmenden: Die aktuelle Tabelle ...

Beispiel: Wir nehmen an, die Befragung der Teilnehmenden eines Kurses habe folgende Tabelle mit 12 Datensätzen ergeben:

Die Werte in der Tabelle sind unvollständig (Person 5) bzw. fehlend (Person 8). Wie gehen wir damit um? Fehlende oder unvollständige Daten können sich sehr negativ auf die Beantwortung der eingangs gestellten Frage(n) auswirken! (Siehe z.B. Marina Wyss (2020): Fehlende Werte verstehen und handhaben.)

Vorverarbeitung

Wir wählen die einfachste Variante des Umgangs mit unvollständigen und fehlenden Daten: Wir ignorieren die betreffenden Datensätze.

Danach ordnen wir die verbleibenden Datensätze nach dem Merkmal "Alter" in aufsteigender Reihenfolge.

Die Daten in dieser Tabelle sind anonymisiert; ein Rückschluss auf die tatsächlich beteiligten Personen ist nicht möglich. Die Daten könnten allerdings auch pseudonymisiert sein, d.h. es könnte eine Tabelle geben, in der den Personen 1 bis 12 die Namen (und weitere Angaben) der tatsächlich beteiligten Personen zugeordnet sind. Damit könnten von den tatsächlich beteiligten Personen zu einem späteren Zeitpunkt weitere Daten erfasst und Vergleiche angestellt werden.