R-pohjainen johdatus kemometriaan

 

Aika:                          4.6.08 9.00-17.00

Paikka:                      EVTEK-ammattikorkeakoulu

                                    Leiritie 1

                                    01600 Vantaa

Saapumisohje:          Myyrmannin kauppakeskuksesta n. 300 m. Rajatorpantietä länteen.

 

Hinta                          250 € (jatko-opiskelijoille 180 €)


Kurssille ilmoittaudutaan sitovasti lähettämällä sähköposti Sanni Materolle (Sanni.Matero@uku.fi) viimeistään 30.5.2008 mennessä. Mikäli sinulla on omaan ongelmaasi liittyvää dataa, lähetä se liitetiedostona alla kerrotussa muodossa. Osallistujia on tähän mennessä ilmoittautunut 8 ja mukaan voidaan ottaa korkeintaan 20.


Kerro sähköpostiviestissäsi seuraavat asiat:


1. nimi, osoite (myös sähköposti) ja puhelinnumero,

2. oletko jatko-opiskelija vai et,

3. oma vapaamuotoinen arvioisi kemometrian ja tilastotieteen osaamisestasi ja

4. mitä laskentaan liittyviä tietokoneohjelmia olet käyttänyt?


Kuvaus ja sisältö


Kemometria on ala, jota ei voi käytännössä harrastaa ilman sopivaa ohjelmistoa. Kaupalliset ohjelmistot ovat kuitenkin melko kalliita ja niiden hankintahinta voi olla kynnyskysymys varsinkin pienemmissä yrityksissä ja tutkimusyksiköissä. Kemometriaan soveltuvia ilmaisohjelmia on useita: R, Octave, Python, SciLab jne. Näistä kaksi ensin mainittua lienevät yleisimmät. Näistä Octave ja SciLab ovat pitkälti Matlab-yhteensopivia, mutta erojakin on ja ennen kaikkea käyttöliittymässä. Tämä kurssi on toteutetaan R-pohjaisena.


R on komentokielipohjainen tilasto-ohjelmisto, johon on lukuisia eri alueiden sovelluspaketteja (Packages). R on erityisesti tilastotieteilijöiden suosima ja usein uusien tilastollisten menetelmien tietokoneimplementaatiot ilmestyvät ensimmäisenä R:ään. R:stä löytyy myös kemometrian perustyökalut (MLR, PCA ja PLS), mutta myös erittäin hyvin kemometriaan soveltuva lineaarinen diskriminanttianalyysi tai esim. hierarkkinen ryhmittelyanalyysi. R:n kokonaisvaltainen hallinta ei ole helppoa, mutta R:n käytön rajatulla sovellusalueella oppii kohtuullisen helposti. Oppimista helpottaa huomattavasti, jos vähänkään kokemusta ohjelmoinnista, mutta se ei ole edellytys.


Kurssille osallistujilta toivotaan etukäteen lähetettyä omaa dataa, jota käytetään kurssin aikana opetusesimerkeissä mahdollisuuksien ja soveltuvuuden mukaan. Datan tulee olla .txt-, .csv-, .xls- tai .mat-muodossa.


Kurssilla tutustutaan menetelmien perusideoihin ja käytännön toteutukseen R:llä. Teoriaan ei mennä syvälle ja matematiikkaa käytetään vain siltä osin kuin se on välttämätöntä. Esim. regressioanalyysissä tulee voida ymmärtää, mitä regressiomallilla tarkoitetaan, mutta ei ole välttämätöntä ymmärtää ratkaisussa tarvittavaa matematiikkaa. Osallistujan tulisi olla perillä tilastotieteen sellaisista peruskäsitteistä kuin keskiarvo tai keskihajonta ja mielellään jokin käsitys todennäköisyyden peruskäsitteistä (esim. normaalijakaumasta). Sisällön kohdasta 3 eteenpäin asiat esitetään kemometristen esimerkkien avulla.



Kurssin sisältö

 

1.         R:n perusfilosofia ja data-rakenteet

 

2.         R:n käyttö laskimena

 

3.         Tilastolliset perustoiminnot R:ssä (tunnusluvut, testit, regressio, histogrammi yms.)

 

4.         R:n grafiikan perustoiminnot

 

5.         Johdatus pääkomponenttianalyysiin (PCA)

                      PCA:n perusidea

                      datan esikäsittely ja sen vaikutus tuloksiin

                      latausten ja pistelukujen tulkinta

                      tulosten graafinen esittäminen ja tulkitseminen

                      luotettavuuden arviointi

 

6.         Johdatus luokitteluanalyysiin (lineaarinen diskriminanttianalyysi, LDA)

                      ohjattu ja ohjaamaton oppiminen (supervised and unsupervised learning)

                      diskriminanttianalyysin perusidea

                      opetusjoukko ja testijoukko ja ristiinvalidointi

 

7.         Usean muuttujan lineaarinen regressio (MLR) ja spektroskopia

                      moniulotteisen kalibroinnin idea

                      datan esikäsittely

                      muuttujien valinta ja siihen liittyviä ongelmia

                      luotettavuuden arviointimenetelmiä

 

8.         Pääkomponentti- ja PLS-regressio

                      perusidea ja erot MLR:ään nähden

                      datan esikäsittely

                      riippumattoman testijoukon merkitys

                      luotettavuuden arviointi ristiinvalidoinnilla

                      graafisia tulkintoja