SluitenHelpPrint
Switch to English
Cursus: B-B2DSB18
B-B2DSB18
Data science en biologie
Cursus informatie
CursuscodeB-B2DSB18
Studiepunten (EC)7,5
Cursusdoelen
Leerdoelen
Tijdens deze cursus leer je methoden uit de data science toe te passen op biologische data. Na afloop van de cursus:
  • ken je de basis van computerbestanden (onderscheid tekst- en binaire bestanden), bestandssystemen en besturingssytemen en kun je overweg met de command-line-interface;
  • ken je de concepten van scripttalen (variabelen, datastructuren, iteraties, expressies, functies) en kun je scripts schrijven in Python en bash om biologische datasets te analyseren;
  • kun je verschillende manieren van data-analyse en –visualisatie (grafieken, clusteringmethoden, principale-componentenanalyse, etc.) toepassen en kun je beredeneren welke voor een bepaalde dataset en vraag de voorkeur heeft;
  • ken je de basis van machine learning, kun je verschillende manieren hiervan toepassen en kun je beoordelen hoe goed een classifier is;
  • kun je figuren maken die geschikt zijn voor wetenschappelijke publicaties;
  • kun je aan de hand van een biologische vraag een eigen computationele pipeline van opeenvolgende analyses opstellen met bijbehorende scripts en deze vraag beantwoorden met behulp van de uitgevoerde analyses;
  • kun je uitgevoerde computationele analyses helder en volledig documenteren, zodat de resultaten volledig reproduceerbaar zijn.               
Vaardigheden
Programmeren, data-analyse, datavisualisatie, systematische benadering van problemen, creativiteit en probleemoplossend vermogen, uitvoeren onderzoekscyclus, schriftelijke rapportage in het Engels, geven en ontvangen van feedback, samenwerken.
Inhoud
Capaciteit
40 studenten
 
Delen van deze cursus worden in het Engels gegeven.
 
Ingangseisen
De cursus Systeembiologie of vergelijkbare kennis. Het gehaald hebben van de cursus Experiment en statistiek wordt aangeraden.
 
Studiepad
In deze cursus doe je kennis en vaardigheden op omtrent ‘big data’-analyse, die zeer waardevol zijn voor alle studiepaden en zullen worden gebruikt in niveau-3-cursussen. De cursus zal een ingangseis zijn voor de niveau-3-cursus Bioinformatica (vanaf 2020-2021). De cursus is een kerncursus in het studiepad Theoretische biologie en bioinformatica.

Inhoud
Deze tijd wordt gekenmerkt door enorme hoeveelheden beschikbare data. Deze big data geldt zeker ook voor de biologie, nu er door high-throughput DNA-sequencingmethoden enorm veel data wordt gegenereerd van genomen, metagenomen, transcriptomen, epigenomen, en variaties hierop. Ook in andere biologische disciplines zijn grote databestanden niet langer zeldzaam. Denk daarbij bijvoorbeeld aan de soorten en interacties in een ecosysteem, automatisch verkregen microscopieafbeeldingen en de data over ons online gedrag. Uit recent Amerikaans onderzoek blijkt dat circa 90% van de biologen werkt of binnenkort gaat werken met grote datasets. Om met deze hoeveelheid data om te gaan zijn methoden uit de data science essentieel. In deze cursus leer je de theorie en vaardigheden om nieuwe biologische inzichten te verkrijgen uit grote databestanden.
 
Allereerst is een andere manier noodzakelijk om met grote databestanden om te gaan, namelijk met behulp van de command-line-interface. Deze interface zul je ook vaak moeten gebruiken voor het uitvoeren van computerprogramma’s op je databestanden. Bovendien is het onmogelijk geworden om handmatig alle bestanden te analyseren en zul je zelf scripts moeten schrijven om de gewenste informatie uit tekstbestanden te verkrijgen. In de cursus ‘Systeembiologie’ heb je al kennis gemaakt met programmeren (hoofdstuk ‘Talking to computers’) en deze vaardigheden zullen sterk worden uitgebreid in deze cursus. In dit eerste deel van de cursus leer je om te gaan met de Unix-terminal en hoe je scripts schrijft in Python.
 
Het tweede deel staat in het teken van het analyseren van numerieke data. De focus zal liggen op hoe je van een enorme tabel met getallen gaat naar een visualisatie die de structuur in de data helder naar voren brengt. Je leert meerdere manieren van visualisatie toe te passen op grote datasets, waaronder heatmaps, clustering en principale-componentenanalyse. Daarnaast zal een introductie in machine learning worden gegeven: hoe classificeer je data en hoe kun je op basis van bestaande data voorspellingen doen voor nieuwe datapunten?
 
Gedurende de cursus werk je aan een groepsproject waarbij je aan de hand van een grote dataset een biologisch vraagstuk aanpakt door zelf een eigen computationele pipeline van opeenvolgende analyses op te zetten met bijbehorende scripts.
 
Werkvormen
Colleges, computerpractica, groepsopdrachten en zelfstudie.
 
Toetsing
Tentamen (60%), projectverslag (30%), reviewerverslag (5%) en rebuttal (5%).
 
Studiemateriaal
  • Boek: Practical computing for biologists, Steven Haddock en Casey Dunn, 2011, Sinauer Associates, Inc.
  • Overig studiemateriaal zal online worden aangeboden.
SluitenHelpPrint
Switch to English