Hieronder vind je een aantal opgaven. Hoewel sommige vragen een correct antwoord hebben, is voor andere vragen niet direct een correct antwoord aan te wijzen. Bespreek onderling de voors en tegens van verschillende antwoorden.
Opgaven 1 t/m 6 kosten samen niet veel tijd. Opgave 7 zal de meeste tijd in beslag nemen. Voorafgaand aan opgave 7 kijk je eerst naar een kennisclip die als voorbeeld dient voor het uitvoeren van de opdracht.
NHANES (National Health and Nutrition Examination survey) is een survey die sinds het begin van de jaren zestig wordt uitgevoerd door het Amerikaanse National Center for Health Statistics (NCHS). De survey verzamelt jaarlijks data over gezondheid en voeding in een steekproef van ongeveer 5.000 personen van alle leeftijden. Voor de volgende vragen wordt een subset van deze data gebruikt, bestaande uit data van volwassenen in het jaar 2011-2012.
We
kijken eerst naar de systolische bloeddruk (SBP) van de volwassenen in
de steekproef. Hieronder staan het histogram en de boxplot van SBP
weergegeven.
Nu kijken we naar de verdeling van testosteron in de steekproef. Hieronder staan de histogram en boxplot van testosteron weergegeven.
Een
arts werkt in een praktijk in de wijk Woensel-west in Eindhoven, een van
de zogenoemde Vogelaarwijken. Zij vermoedt dat er veel overgewicht is in
haar gebied, en ze heeft daarom een steekproef genomen uit haar
patiëntenbestand om dit te onderzoeken. Onderstaande histogram en
boxplot geven een overzicht van deze data. Raden jullie haar aan om het
gemiddelde of de mediaan te rapporteren in haar verslag? Ga goed na wat
de voor- en nadelen van deze beide centrummaten zijn, en maak dan een
keuze.
Je bent gevraagd om data-analyse uit te voeren voor een presentatie op een studentencongres. Je onderzoekt serum miRNA expressie in 3 cellijnen m.b.v. TaqMan kwantitatieve PCR. Je eerste blik op de data van de eerste cellijn levert het histogram hiernaast op. Twee vrij hoge metingen vallen je op. Je checkt meteen of er fouten zijn gerapporteerd in het logboek, en je vraagt dit ook nog na, maar je vindt geen duidelijke reden voor deze afwijkingen. Wat doe je? Ga je deze uitbijters verwijderen uit je dataset, of laat je ze erin?
Al jaren kampt 25% van de Nederlanders in de leeftijd van 30 t/m 70 jaar met een te hoog cholesterol. Je vermoedt dat dit tijdens de coronacrisis groter is geworden, en zoekt naar evidentie op dat gebied. Een collega heeft gehoord dat je die informatie zoekt en vertelt over een recente studie waarin ze hebben gevonden dat 30% van de deelnemers nu een te hoog cholesterolgehalte heeft. “Maar het was wel een kleine studie”, vertelt hij je, “Ik zal het je mailen”. Je maakt je nu zorgen dat het onderzoek weinig overtuigend zal zijn. 30% is meer dan 25%, maar als deze studie heel erg klein is?
Hoeveel deelnemers wil jij in deze studie zien om overtuigd te raken van een afwijkende waarde? Je mag hier af gaan op je intuïtie. In de tabel hieronder staan een aantal voorbeelden van verhoudingen tussen totaal aantal deelnemers en deelnemers met een verhoogd cholesterol.
Totaal aantal | Aantal verhoogd | percentage |
---|---|---|
6 | 2 | 33% |
10 | 3 | 30% |
20 | 6 | 30% |
50 | 15 | 30% |
100 | 30 | 30% |
200 | 60 | 30% |
400 | 120 | 30% |
800 | 240 | 30% |
We maken in opgaven 5 en 6 gebruik van de NHANES dataset, die al eerder aan bod is gekomen. Het betreft een grote, observationele studie van volwassenen in de Verenigde Staten. In de dataset staan variabelen over demografische kenmerken, leefstijl, voeding, en de gezondheidstoestand van ongeveer 5000 deelnemers.
Verschillende variabelen kunnen vergeleken worden tussen rokers, niet rokers en voormalig rokers. Er waren 2027 personen die niet meer dan 100 sigaretten gerookt hebben, 698 personen roken nog steeds (>100 sigaretten in totaal), en 862 personen zijn gestopt (voormalig >100 sigaretten in totaal). 120 personen hebben geen antwoord gegeven.
We vergelijken nu de systolische bloeddruk (SBP, systolic blood pressure) van de drie groepen (afbeelding hieronder). Geef antwoord op de volgende vragen:
![Chart, box and whisker chart
Figuur 1.
In de NHANES dataset is HDL cholesterol gegeven in mmol/L. Dit is in veel landen de standaard eenheid van HDL cholesterol, in tegenstelling tot de VS. Daar wordt de eenheid mg/dL gebruikt, hiervoor is de conversie factor om van mmol/L naar mg/dL te transformeren 38.61004.
n mean sd min max range IQR Q0.25 Q0.5 Q0.75
3500 5 1.06 1.53 12.28 10.75 1.4 4.24 4.91 5.64
![Chart, histogram
Figuur 2.
Ook is er besproken hoe bepaalde transformaties kunnen helpen met scheve verdelingen (skewed distributions). De bovenstaande afbeelding is de directe/absolute HDL cholesterol. De verdeling is rechts-scheef (“right skewed”), zoals veel andere lab/fysische meetbare variabelen. Vaak is het handiger om een (ongeveer) normaal verdeelde uitkomst variabele te hebben. Een veelvoorkomende transformatie is de natuurlijke log-transformatie (ln), waar ook log10 of log2 kan werken. Welke log gebruikt wordt hangt af van de context, in dit geval is er geen overduidelijke reden om een andere log dan ln te gebruiken. Hier onder zien we de distributie van de getransformeerde HDL cholesterol.
![Chart, histogram
Figuur 3.
In deze opgave vragen we jullie om informatie uit een krant kritisch te evalueren. Je doet dit door het oorspronkelijke artikel op te zoeken en daarvan in ieder geval het abstract en de figuren en tabellen goed van te bekijken en vergelijken met het krantenartikel. Docenten en onderwijsassistenten kunnen jullie nog een aantal specifieke vragen stellen.
https://video.uu.nl/permalink/v126896cf432fqhet224/iframe/