Lærer: Jon Sporring og Peter Johansen
Tid og sted: Onsdag kl. 9 - 11 i N037
Kredit: 3 mundtlige punkter Der skal afleveres ugentlige
hjemmeopgaver. Der vil desuden blive stillet en 1 måneds, 3
punkts skriftlig rapportopgave sidst på kurset til de
interesserede.
Forudsætninger: Matematisk gå på mod
Formålet med kurset er at gøre opmærksom på nytten af den kortest mulige beskrivelse af data som metode til modelvalg. Denne længde kaldes Kolmogorov kompleksiteten, og Minimum Description Length (MDL) er en praktisk beregnelig approksimation. Målestøj er et begreb alle med bare en anelse eksperimentel-videnskabelig baggrund stifter bekendtskab med. I f.eks. fysik undervisningen i gynmasiet og på universitetet bruger vi megen tid på at indlære forskellige matematiske modeller til at beskrive det vi ser gennem vores sanser eller via måleapparater. Modellerne er valgt fordi de til en vis nøjagtighed kan verificeres gennem egentlige eksperimenter. Modellerne har altafgørende betydning for den videre forståelse af de studerede fænomener og de benyttes i vid udstrækning til at lave forudsigelser for experimenter endnu ikke foretaget. Data måles altid med en usikkerhed, måledata har ikke uendelig mange decimaler! Man skal derfor kun forvente at en model beskriver det essentielle. Begrebet "essentiel'' viser sig at kunne defineres algoritmisk: En models evne til at simulere data afvejes mod mængden af målestøj, der implicit antages. Men for at foretage denne afvejning samt at sammenligne forskellige modellers evne til at beskrive det samme fænomen (datasæt), må man vedtage en og samme enhed til at beskrive kompleksiteten af model og målestøj. Som eksempel tænk på et datasæt der er overvejende polynomielt, f.eks. en sampling af funktionen f(x) = a x^2+støj. Vi kan sammeligne modeller ved at nedskrive deres parametre som en liste af rationelle tal dvs. heltalspar, algoritmen til at producere funktionen, samt listen af målestøj (også par af heltal). Dette perspektiv giver anledning til en naturlig 2-delt databeskrivelse. En syntaktisk og en semantisk. Som oftest har man ikke, som i det ovenstående eksempel, en nøjagtig forhåndsviden om datakildens karakter og man er derfor nød til at antage en mest sandsynlig klasse af modeller, såsom klassen af polynomier, neurale netværk, sum af cosinus funktioner m.m. Denne antagelse bliver beskrivelsens semantik, mens elementerne i klassen dikterer beskrivelsens syntaks. Semantikken bestemmer således hvilken type modeller (og dermed målestøj) vi hælder til, og det semantiske valg bliver det eneste men altafgørende ikke automatiske (altså subjektive) valg i modelvalgsprocessen.
Nr. | Dato | Emne | Materiale | Ca. sider | Forelæser |
1 | sep. 3 | Oversigsforlæsning | - | - | Jon |
2 | sep. 10 | Introduktion til Statistik | Brøndum og Monrad | 1-71 | Jon |
3 | sep. 17 | Introduktion til Statistik | Brøndum og Monrad | 72-184 | Jon |
4 | sep. 24 | Entropi | Shannon og Weaver | 31-53 | Jon |
5 | okt. 1 | Entropi | Shannon og Weaver | 31-53 | Jon |
6 | okt. 8 | Entropi | Shannon og Weaver | 53-80 | Jon |
7 | okt. 22 | Entropi | Opgaveregning | - | Jon |
8 | okt. 29 | Entropi | Shannon og Weaver | 80-115 | Jon |
9 | nov. 5 | Kodning | Noter | - | Peter |
10 | nov. 12 | Kodning | Noter | - | Peter |
11 | nov. 19 | Minimum Description Length | Rissanen - Stochastic | 45-56 | Jon |
12 | nov. 26 | Minimum Description Length | Rissanen - Stochastic | 54-60 | Jon |
13 | dec. 3 | Minimum Description Length | Rissanen - Stochastic | 57-70 | Jon |
14 | dec. 10 | Kontekst Algoritmen | Noter | - | Jon |
15 | dec. 17 | Evaluering og Afslutning | - | - | Jon og Peter |