Drücke „Enter”, um zum Inhalt zu springen.

Studiendesigns

Jonas Ebbecke 0

Phänomene in der Natur sind oft komplex und werden von vielen verschiedenen Faktoren beeinflusst. Systematische Untersuchungen in Form von wissenschaftlichen Studien werden durchgeführt, um ihre Zusammenhänge, die zu der Phänomenausprägung führen, zu verstehen und zu beschreiben. Zu diesem Zweck verwenden die Wissenschaftler spezifische Strategien und Studiendesigns, so dass sie störende Faktoren ausschließen und zu einem evidenzbasierten Ergebnis kommen.

  1. Deskriptive Studiendesigns

  2. Experimentelle Studiendesigns

  3. Randomisierung

1. Deskriptive Studiendesigns

Deskriptive Studiendesigns sind wissenschaftliche Beobachtungen, d.h. sie umfassen die Beobachtung, Messung und Beschreibung von Phänomenen ohne jede Art von Intervention. Sie werden oft dann eingesetzt, wenn ein natürliches Verhalten ohne künstliche Einflüsse wissenschaftlich untersucht werden soll. Im Allgemeinen kann man zwischen vier verschiedenen deskriptiven Studiendesigns unterscheiden:

Längsschnittdesigns werden in der Regel (aber nicht immer) in abhängigen Studien verwendet, d.h. bei dieser Art von Studien wird eine Stichprobe wiederholt über einen längeren Zeitraum gemessen oder beobachtet. Der Vorteil von Längsschnittstudien besteht darin, dass sie Einblick in intraindividuelle Veränderungen im Zeitverlauf ohne genetische Einflüsse geben können. Nachteile sind der hohe Zeit- und Kostenaufwand sowie das Risiko von Dropouts zwischen den Messungen. Darüber hinaus besteht die Gefahr des Reihenfolgeeffekten. Dies kann entweder ein Lerneffekt sein, bei dem die Teilnehmer in der zweiten Untersuchung besser abschneiden, weil sie mit dem Testverfahren besser vertraut sind, oder ein Ermüdungseffekt, bei dem die Teilnehmer aufgrund von Muskelermüdung schlechter abschneiden. 

Querschnittdesigns werden in unabhängigen Studien durchgeführt. Dabei wird nur eine Messung pro Probe zu einem Zeitpunkt durchgeführt. Beispielsweise werden verschiedene Altersgruppen von Probanden in der gleichen Zeitspanne untersucht. Daraus lassen sich Rückschlüsse auf typische Phänomene in einer Entwicklungsphase ziehen. Diese Art von Studie erfordert weniger Aufwand (Zeit und Geld) als Längsschnittstudien. Allerdings können Korrelationen zwischen Merkmalen nicht als kausal interpretiert werden, da auch nicht erfasste Variablen, wie z.B. der Kohorteneffekt, das Ergebnis beeinflussen können.

Das gemischte Längsschnittstudiendesign ist eine Mischung aus Längs- und Querschnittsstudien. Verschiedene Gruppen werden über einen (kürzeren) Zeitraum gemessen. Der Vorteil dieser Kombination besteht darin, dass die Studiendauer recht kurz sein kann, während die untersuchte effektive Altersspanne nicht reduziert wird. Allerdings werden einzelne Effekte in der Entwicklung über einen kürzeren Zeitraum untersucht.

In Time-Lag-Studien werden identische Gruppen mit unterschiedlichen Subjekten zu verschiedenen Zeitpunkten gemessen. Bei dieser Art von Studie wird also untersucht, wie sich Variablen in derselben Gruppe im Laufe der Zeit verändern (z.B. Hat sich das Bewegungsverhalten von 14-Jährigen zwischen 2000 und 2020 verändert?) Ähnlich wie bei Längsschnittstudien ist der Aufwand an Zeit und Geld sehr hoch. Es besteht jedoch keine Gefahr von Studienabbrechern, da jede Stichprobe nur einmal untersucht wird.

2. Experimentelle Studiendesigns

Das Ziel eines Experiments ist es, den Einfluss einer der unabhängigen Variablen zu bestimmen, indem sie verändert wird, während die anderen unabhängigen Variablen so kontrolliert und konstant wie möglich gehalten werden. Die Änderung der abhängigen Variable wird dann gemessen und es kann eine Aussage über den Einfluss der unabhängigen Variable auf das Gesamtsystem getroffen werden.

Bei wissenschaftlichen Experimenten müssen einige wenige Grundprinzipien beachtet werden:

Es müssen drei Hauptqualitätsanforderungen für wissenschaftliche Forschung erfüllt werden. Diese sind:

1. Validität (Misst der Test das, was er messen soll?)

2. Objektivität (Ist das Messergebnis unabhängig vom Ausführenden des Tests?)

3. Reliabilität (Ist das Ergebnis der Messung unter identischen Bedingungen reproduzierbar?)

Bei der Durchführung von Experimenten sollten homogene Kohorten ausgewählt werden, um ein hohes Maß an Vergleichbarkeit zu erreichen. Deshalb werden in wissenschaftlichen Studien in der Regel Ein- und Ausschlusskriterien für Probanden eingeführt.

Obwohl ein hohes Maß an Vergleichbarkeit innerhalb einer Studie ermöglicht werden sollte, darf die Verallgemeinerbarkeit nicht darunter leiden. Wenn die Ein- und Ausschlusskriterien zu eng gefasst sind, können die Studienergebnisse nur auf diese eine Stichprobe bezogen werden und eine Projektion auf die Gesamtpopulation wird erschwert.

Durch die Wiederholung der Messungen eines Experiments kann der experimentelle Fehler abgeschätzt und die Auswirkung von nicht-systematischen Fehlern reduziert werden.

In wissenschaftlichen Experimenten sollten verschiedene Bedingungen in einer randomisierten oder geblockten Reihenfolge gemessen werden. Dies erlaubt eine unvoreingenommene Abschätzung des Effekts sowie eine Unabhängigkeit der Ergebnisse von störenden Faktoren. Dadurch wird im Allgemeinen die Normalisierung der Daten erhöht. Außerdem werden unerwünschte und unbekannte Korrelationssysteme vermieden, was zu einer Eliminierung von systematischen und nicht-systematischen Fehlern führt.

Häufig beeinflusst in wissenschaftlichen Untersuchungen nicht nur die unabhängige Variable die abhängige Variable, sondern auch unkontrollierbare Störfaktoren. Wenn diese bekannt und messbar sind, kann eine Kovarianzanalyse durchgeführt werden. Wenn diese bekannt, aber nicht messbar sind, sollten die Gruppen der Experimente in Blöcke aufgeteilt werden, die so weit wie möglich mit dem Störfaktor übereinstimmen sollten. Wenn die Faktoren unbekannt und nicht messbar sind, führen die Randomisierung der Gruppenzuteilung und die Replikation des Experiments zu einer Eliminierung systematischer und nicht systematischer Fehler.

In der Wissenschaft gibt es viele verschiedene Arten von Versuchsaufbauten und Studiendesigns. Diese unterscheiden sich in ihrer Anwendbarkeit und Qualität. Hier wollen wir Dir einen schnellen Überblick über sie geben. Wir werden Dir die verschiedenen Designs anhand einer Beispielstudie erläutern, so dass die Unterschiede deutlich werden. Beginnend mit dem einfachsten Design werden wir dann zu komplexeren, aber qualitativ hochwertigeren übergehen.

Beispielhypothese:
„Die maximale Leistungsabgabe beim Radfahren ist bei einem Hüftwinkel von 60° höher als bei einem Hüftwinkel von 50°“.
Mit dieser Hypothese erhalten wir eine unabhängige Variable mit zwei Leveln (L1: 60° Hüftwinkel und L2: 50° Hüftwinkel) sowie eine abhängige Variable (DV: maximale Leistungsabgabe).

Die Stichprobe wird nicht in Gruppen unterteilt. Die gesamte Probe wird zuerst unter der Bedingung L1 und dann unter L2 getestet. Dieses Design ist nicht wirklich geeignet, da der Reihenfolgeeffekt die Ergebnisse beeinflussen kann. Dies kann entweder ein Lerneffekt sein, bei dem die Teilnehmer im zweiten Versuch besser abschneiden, weil sie mit dem Testverfahren besser vertraut sind, oder ein Ermüdungseffekt, bei dem die Teilnehmer aufgrund von Muskelermüdung schlechter abschneiden. Auch gibt es keine Kontrollgruppe, die diesen Effekten entgegenwirkt.

Auch hier wird die Stichprobe wird in irgendwelche Gruppen aufgeteilt. Jede Testperson wird insgesamt vier Messungen unterzogen. Zuerst L1, dann L2 und danach beide Bedingungen wieder in umgekehrter Reihenfolge, d.h. zunächst L2 und dann L1. Diese Spiegelung des Designs der wiederholten Messungen eliminiert Reihenfolgeeffekte. Diese Methode ist jedoch nur anwendbar, wenn die Reihenfolge der Tests nicht relevant ist (was in unserem Beispiel der Fall ist).

Die Stichprobe wird in zwei Gruppen aufgeteilt. Gruppe A wird nur mit der Bedingung L1 und Gruppe B wird nur mit L2 getestet. Da hier zwei Gruppen gebildet werden, werden mehr Testpersonen als im Design für wiederholte Maßnahmen benötigt. Allerdings werden in diesem Design keine Reihenfolgeeffekte zu sehen sein, da jeder Proband nur einmal getestet wird. Bei dieser Methode sind die Gruppenzuordnungen kritisch, da beide Merkmale (wie zum Beispiel die Leistungsfähigkeit) in beiden Gruppen sehr unterschiedlich ausgeprägt sein könnten, was einen Vergleich unmöglich macht.

Dieses Design ähnelt dem unabhängigen Studiendesign, mit dem Unterschied, dass die Probanden zufällig den Gruppen A und B zugeordnet werden. Dies führt zu einer Eliminierung unkontrollierbarer Störfaktoren und einer höheren Vergleichbarkeit. Man geht davon aus, dass aufgrund der Zufallstheorie die Merkmalsausprägungen gleichmäßig auf die Gruppen verteilt werden.

Auch dieses Design ähnelt dem unabhängigen Studiendesign, mit dem Unterschied, dass die Probanden nach den Ergebnissen eines Pre-Tests, der vor den eigentlichen Messungen durchgeführt wird, in die Gruppen A und B eingeteilt werden (z.B. nach der maximalen Leistung bei bevorzugtem Hüftwinkel). Die Ergebnisse des Vortests werden in eine Rangfolge gebracht, und die Gruppen werden so aufgeteilt, dass beide Gruppen eine ähnliche Ergebnisverteilung aufweisen (Matched-Pairs). Auf diese Weise kann sich die Merkmalsausprägung nicht mehr als Störfaktor auf das Ergebnis auswirken und die Vergleichbarkeit erhöht werden.

Auch hier wird die Stichprobe in zwei Gruppen aufgeteilt. Die Probanden werden nach dem Zufallsprinzip der Gruppe A und der Gruppe B zugeordnet. Die Gruppe A wird zuerst mit der Bedingung L1 und dann mit L2 getestet. Gruppe B wird in umgekehrter Reihenfolge getestet.
Mit der randomisierten Zuteilung können Störfaktoren eliminiert werden. Darüber hinaus kann durch das Cross-Over-Design ein Lerneffekt ausgeschlossen werden, ohne die Vergleichbarkeit der Ergebnisse zu beeinträchtigen. Diese Methode ist jedoch nur anwendbar, wenn die Reihenfolge der Tests nicht relevant ist (was in unserem Beispiel nicht der Fall ist).

Ähnlich wie das Balanced Repeated Measures Design, aber die Gruppen werden nach der Matched-Pairs-Methode des Parallelisierten Gruppen Design zugewiesen.

In der Wissenschaft gibt es jedoch oft nicht nur eine unabhängige Variable, sondern mehrere, die sich nicht nur isoliert auf die abhängige Variable auswirken, sondern auch Interaktionseffekte aufweisen. Wenn wir auf unser Fahrradbeispiel zurückkommen, wäre eine weitere unabhängige Variable z.B. die Sattelhöhe, die natürlich auch den Hüftwinkel sowie die maximale Leistungsabgabe beeinflusst. Würde man nun zwei isolierte Experimente mit beiden Variablen durchführen, würden man die Interaktion beider Variablen einfach ignorieren. Um dies zu vermeiden, werden sogenannte faktorielle Experimente durchgeführt.

In unserem Beispiel haben wir zwei unabhängige Variablen, welche auch als Faktoren bezeichnet werden (Hüftwinkel und Sattelhöhe) mit jeweils zwei Leveln (Hüftwinkel: 60° und 50° Hüftwinkel; Sattelhöhe: 85% Beinlänge und 95% Beinlänge):

 L1L2
F1: Hüftwinkel

60°

50°

F2: Sattelhöhe

85% Beinlänge

95% Beinlänge

In faktoriellen Experimenten werden alle Faktoren auf allen Leveln gemessen. Die Anzahl der Einzelmessungen ergibt sich also aus der Anzahl der Faktoren (n) und der Anzahl der Ebenen (k): kn. In unserem Fall ist sie wie folgt: 22 = 4. Hier wird in der Regel ein randomisiertes unabhängiges Studiendesign gewählt, so dass die Stichprobe nach dem Zufallsprinzip in kn Gruppen aufgeteilt wird.

3. Randomisierung

Wie in diesem Artikel mehrfach erwähnt, werden die Probanden oft zufällig einzelnen Versuchsgruppen zugeordnet. Dadurch werden die Unterschiede zwischen diesen Gruppen minimiert, indem Personen mit bestimmten Merkmalen mit Hilfe der Wahrscheinlichkeitstheorie gleichmäßig verteilt werden. Dadurch sind unverzerrte Messungen möglich, und die Verblindung der Versuche wird erleichtert. Auch die statistische Aussagekraft steigt durch die Randomisierung. Generell wird zwischen drei verschiedenen Arten der Randomisierung unterschieden:

  1. Einfach
    Die einfache Randomisierung ist ein intuitives Verfahren wie der Münzwurf und wird daher auch als Münz-Randomisierung bezeichnet. Hierdurch können Selektions- und Allokationsverzerrungen bereits ausgeschlossen werden. Insbesondere bei kleinen Studien kann es jedoch vorkommen, dass sich die Gruppengrößen aufgrund der Zufallszuteilung stark unterscheiden. Je größer die Stichprobe, desto größer ist die Wahrscheinlichkeit, dass die Gruppen ungefähr gleich groß sind.

  2. Eingeschränkt
    Die Methode der eingeschränkten Randomisierung dient dem Zweck, die Gruppengrößen gleich zu halten. Sie wird auch als Permuted-block-Randomisierung bezeichnet. Hier sind Blockgröße und Allokationsverhältnis vorgegeben, und die Randomisierung erfolgt innerhalb dieser Grenzen.

  3. Angepasst
    Die adaptive Randomisierung dient dem Zweck, auch die Gruppengrößen gleich zu halten. Im Gegensatz zur eingeschränkten Randomisierung gibt es keine festen Grenzen. Vielmehr wird hier die Wahrscheinlichkeit, einer Gruppe zugeordnet zu werden, ständig angepasst. Das heißt, sie sinkt, wenn die Gruppe überrepräsentiert ist, und steigt, wenn die Gruppe unterrepräsentiert ist. Daher wird sie als adaptive biased-coin-Randomisierung bezeichnet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert