Algemene structuur van deze leereenheid

In de laatste leereenheid statistiek van de cursus bio-informatica gaan jullie het geleerde in de praktijk brengen. In groepen van 3 tot 5 personen zullen jullie een casus voorbereiden. Je zal merken dat je nu veel kennis en vaardigheden in huis hebt om een onderzoek uit te voeren (horend bij leerdoel “bewust bekwaam”), en tegelijkertijd zal je per casus ook merken dat er elementen in zitten waardoor je deze data nog niet op de optimale manier kunt analyseren (horend bij leerdoel “bewust onbekwaam”). Dat hoeft ook niet, maar het is wel van belang dat je deze situaties herkent en dat je in staat bent om vragen daarover te stellen aan een statisticus. In deze leereenheid gaan we dit oefenen.

Deze leereenheid bevat zes onderdelen:

  1. Een hoorcollege, waarin deze leereenheid geïntroduceerd wordt;
  2. Een werkcollege, waarin je in groepsverband twee casussen bestudeert, een werkplan maakt voor statistische analyse en een gesprek voorbereid met een statisticus om over de gevorderde statistiek vragen te stellen;
  3. Een COO, waarin je (individueel) beschrijvende statistiek en inferentiële analyses (voor zover dit kan) uitvoert aan de hand van het werkplan;
  4. Zelfstudie, waarin je samen verdere voorbereidingen treft voor het gesprek met de statisticus;
  5. Een consultatiegesprek met een statisticus (verplicht onderdeel, actieve participatie wordt beoordeeld met voldaan of niet voldaan);
  6. Een hoorcollege, waarin classicaal meer achtergrond wordt gegeven over de gevorderde analyses.

Leerdoelen van deze leereenheid

De student:

  • Is in staat om een statistiekconsult voor te bereiden. Dit houdt in dat de student een onderzoeksprobleem kan verwoorden en een dataset kan inspecteren ter voorbereiding van een statistiekconsult. Hiervoor moet de student:
    • de juiste vraagstelling uit een context te kunnen formuleren;
    • aan kunnen geven wat de determinanten en uitkomsten zijn in de vraagstelling;
    • in staat zijn om bij variabelen de correcte meetniveaus kan selecteren;
    • aan kunnen geven wat de passende beschrijvende statistiek is aan de hand van het aantal en type van de variabelen en het onderzoeksprobleem;
    • deze beschrijvende statistiek kunnen beoordelen;
    • kunnen bepalen of deze vraagstelling met deze data getoetst kan worden met een momenteel bekende inferentiële toets of niet;
    • indien dit niet het geval is moet de student aan kunnen geven waarom dit niet zo is;
  • Is in staat om data in R in te laden en simpele beschrijvende statistieken, visuele inspecties doormiddel van figuren, en correlaties, t-test, simpele regressies en chi-kwadraat toetsen uit te voeren.

1. Het eerste hoorcollege

Tijdens het eerste hoorcollege van LE5 wordt de werkwijze van LE5 uitgelegd en worden de vraagstellingen behorend bij de zes casussen besproken.

2. Het werkcollege

Bij het werkcollege ga je twee casussen analyseren en je voorbereiden van een statistiekconsult met een expert over een casus. Iedere groep (1-6) behandelt 2 casussen. De casussen behandelen vraagstukken die in eerste instantie lijken op wat jullie al geleerd hebben, maar waarbij er iets meer aan de hand is waardoor het niet volledig mogelijk is om de onderzoeksvraag te beantwoorden met de statistische technieken die jullie op dit moment kennen. Dit is een situatie die jullie mogelijk vaker zullen tegenkomen; hier is dan een statistiekconsult nodig.

Werkcollege deel 1

Bereid tijdens het eerste deel van het werkcollege voor hoe je de casussen zou kunnen aanpakken, op basis van wat je al geleerd hebt. Gebruik hiervoor de stappen die in PSLS / Baldi en Moore beschreven zijn en die we in alle werkcolleges gebruikt hebben.

Je bereidt dus een analyse plan voor op basis waarvan je informatie kunt geven over de volgende onderdelen:

  1. De Onderzoeksvraag, met het domein, de determinant(en) en de uitkomst(en);

    • Hoeveel determinanten zijn er, en hoeveel uitkomsten? Welk data types zijn deze?
    • Indien mogelijk: geef de formule voor het lineaire model
  2. De hypotheses en de waarde van de (één- of tweezijdige) alfa

  3. De steekproef. Je kiest daarvoor de juiste beschrijvende statistiek (inclusief figuren en tabellen) en je maakt in dit werkcollege een plan om die tijdens het COO uit te voeren.

  4. Informatie over de toets:

    • Tegen welk probleem loop je aan?
    • Is er een manier om dit voorlopig op te lossen, zodat je één van de bekende toetsen uit kunt voeren? (t-toets, lineaire regressie, correlatie of chi-kwadraat toets)
    • Als dit kan, zet dan in je werkplan hoe je deze uit moet voeren, en welke aannames je moet controleren.
    • Je mag zelf, als daar tijd voor is, zoeken naar een toets waarmee je de vraagstelling goed kunt beantwoorden. Dit is voor de eerste 3 casussen te doen met behulp van het studieboek PSLS / Baldi and Moore. Voor de andere drie casussen is dit lastiger.

3. Werkcollege deel 2 (COO)

Tijdens het COO voer je de statistiek in je werkplan uit. Doe dit individueel en vergelijk aan het einde van het COO of je dezelfde uitkomsten hebt verkregen. De datafiles staan op blackboard. Dit onderdeel is vooral gericht op het programmeren in R. Zorg dat je bijvoorbeeld een Rmarkdown file hebt waarin je je analyseplan uit werkcollege deel 1 duidelijk uitwerkt.

4. De zelfstudie

Tijdens de zelfstudie bereid je het gesprek met de statisticus voor.

Let op: de voorbereiding wordt gezamenlijk gedaan. Zorg dat alle leden van je groep alles uit kunnen leggen, want we beslissen tijdens het consult wie voor welke casus en voor welk onderdeel het woord moet doen.

Zorg dat je de vraagstelling en context van je casus goed kunt verwoorden, want de statisticus en je medestudenten die meeluisteren kennen die casus niet. We verwachten dat je informatie over je steekproef kunt laten zien tijdens het consult (bijv. figuren, tabellen, andere R-output). Maak je analyses dus overzichtelijk met bijvoorbeeld een rmarkdown file. Bereid ook tekst en uitleg voor over wat je casus was en hoe/waarom je je analyse zo hebt uitgevoerd en tegen welke problemen je aanloopt. Doe dit voor beide casussen.

5. Het consult

Tijdens het consult zit je met een groep van ongeveer 25 a 30 mensen bij de statisticus. Er worden 6 casussen behandeld. Om de beurt komt een casusgroep bij de statisticus aan tafel zitten en wordt het consult gevoerd terwijl de andere studenten toekijken. De volgorde van de casussen wordt random bepaald, en ook de volgorde van woordvoerders wordt random bepaald.

De statisticus zal jullie vragen om te vertellen waar het onderzoek over gaat en om uit te leggen wat het probleem is. Per groep is er 12 minuten tijd. Na 3 gesprekken is er een pauze.

De onderwerpen van de andere groepen zijn ook onderdeel van het tentamen, en het is daarom belangrijk om de discussie te volgen. Bovendien kun je in de toekomst zelf te maken krijgen met vraagstellingen die deze benaderingen vereisen.

6. Het tweede hoorcollege

Tijdens het hoorcollege van LE5 worden de casussen en de passende statistiek verder besproken. Er wordt daar uitgelegd waarom dat type analyse bij de vraag hoort, welke resultaten zo’n analyse oplevert en hoe je die moet interpreteren. Dit hoort ook bij de leerstof die tijdens het tentamen getoetst wordt. Je hoeft deze analyses niet zelf uit te kunnen voeren.

7. De casusgroepen

Binnen de groep van 30 studenten worden 6 casusgroepen gevormd van 3 tot 5 mensen. We gebruiken dezelfde, door jullie zelfgekozen indeling die ook bij de opdracht over Parkinson’s Disease is gebruikt. Als je voor aanvang van het WC nog van groep wilt veranderen dan kan dat, maar groepen moeten 3 tot 5 deelnemers hebben, niet meer en niet minder. Als je van groep verandert moet je dit voor dinsdag 17.00 uur doorgeven aan je oude en nieuwe groepsgenoten en aan .

8. De casussen

Hieronder staan de algemene vraagstellingen van de zes casussen. Op blackboard kun je vinden welke twee casussen je uit moet werken. Op blackboard kan je ook de data vinden (tumorgrowth.rds). Laad in via readRDS().

De data

De data heeft de volgende variabelen:

Variabele Beschrijving
ID Identificatie van het proefdier
Drug_group Of het dier wel (1) of niet (0) medicatie heeft gekregen
Radiation_group Of het dier wel (1) of niet (0) bestraald is
Radiation_type Welke type bestraling het dier heeft gehad: 1 = Electron, 2 = Photon, 3 = Proton
Size.d0 Tumor volume (in mm³) op de dag van randomisatie (baseline)
Size.d14 Tumor volume (in mm³) op de 14e dag na randomisatie
Sex Biologisch geslacht, man of vrouw
Temp_cage Temperatuur van de kooi in Celsius
Excess21 Of 21 dagen na randomisatie de tumor groter dan 2 cm is (1) of niet (0)
Day De dag dat tumorgrootte 2 cm is bereikt OF de dag van de laatste meting
Status Of op dag=Day de tumorgrootte 2 cm of meer is (1) of niet (0)
Size.4, Size.7, Size.11 Tussenliggende metingen op dagen 4, 7 en 11 na randomisatie
# Data inladen
tumorgrowth <- readRDS("tumorgrowth.rds")
head(tumorgrowth)

Casus 1

Vraagstelling: Verschilt de tumorgroei na 14 dagen tussen de drie typen radiatiebehandeling? En tussen welke behandelgroepen zitten deze verschillen precies?


Casus 2

Vraagstelling: Is er een effect van medicatie (ja/nee) en/of radiatie (ja/nee) op de tumorgroei na 14 dagen? En versterkt de ene behandeling het effect van de andere?


Casus 3

Vraagstelling: Wat zijn de effecten van medicijngebruik (ja/nee), radiatiebehandeling (ja/nee), tumorgrootte bij aanvang, geslacht en kooi-temperatuur op tumorgroei na 14 dagen?


Casus 4

Vraagstelling: Wat is het effect van medicijngebruik (ja/nee) en van de tumorgrootte bij aanvang op de kans dat een tumor na 21 dagen een doorsnede van ≥2 cm heeft? (Dichotome uitkomst)

De variabele “excess21” geeft aan of er excessieve groei (tot 2 cm of meer) is geweest: bij 1 is dit wel het geval, bij 0 is dit niet het geval.


Casus 5

Vraagstelling: Heeft medicijngebruik (ja/nee) effect op de tijd tot een tumor een doorsnede van 2 cm bereikt? Bekijk ook eventueel het effect van radiatie (ja/nee) apart. (time to event)

Let op: bij deze casus zijn er twee variabelen die informatie geven over de tijd die nodig is om een tumor met doorsnede 2 cm te bereiken, namelijk “status” (of de muis tijdens het onderzoek wel of niet een tumor groter dan 2 cm heeft ontwikkeld) en het aantal dagen van randomisatie tot dit moment (als status=1) of tot de laatste meting als (status=0): dit staat in de variabele “Days”.


Casus 6

Vraagstelling: Is er een medicijneffect op tumorgrootte na 14 dagen? Gebruik voor de analyse ook de informatie over tumorgrootte na 0, 4, 7 en 11 dagen (repeated measures).

Bedenk bij deze vraag waarom het belangrijk is om de tumorgroottes op de tussenliggende data te gebruiken. Zijn deze variabelen op dagen 0, 4, 7 en 11 uitkomstvariabelen of determinanten?