DIKU 2. dels kursus

Introduktion til informationsteori

Lærer: Jon Sporring og Peter Johansen
Tid og sted: Onsdag kl. 9 - 11 i N037
Kredit: 3 mundtlige punkter Der skal afleveres ugentlige hjemmeopgaver. Der vil desuden blive stillet en 1 måneds, 3 punkts skriftlig rapportopgave sidst på kurset til de interesserede.
Forudsætninger: Matematisk gå på mod


Indhold


Kursusbeskrivels

Formålet med kurset er at gøre opmærksom på nytten af den kortest mulige beskrivelse af data som metode til modelvalg. Denne længde kaldes Kolmogorov kompleksiteten, og Minimum Description Length (MDL) er en praktisk beregnelig approksimation. Målestøj er et begreb alle med bare en anelse eksperimentel-videnskabelig baggrund stifter bekendtskab med. I f.eks. fysik undervisningen i gynmasiet og på universitetet bruger vi megen tid på at indlære forskellige matematiske modeller til at beskrive det vi ser gennem vores sanser eller via måleapparater. Modellerne er valgt fordi de til en vis nøjagtighed kan verificeres gennem egentlige eksperimenter. Modellerne har altafgørende betydning for den videre forståelse af de studerede fænomener og de benyttes i vid udstrækning til at lave forudsigelser for experimenter endnu ikke foretaget. Data måles altid med en usikkerhed, måledata har ikke uendelig mange decimaler! Man skal derfor kun forvente at en model beskriver det essentielle. Begrebet "essentiel'' viser sig at kunne defineres algoritmisk: En models evne til at simulere data afvejes mod mængden af målestøj, der implicit antages. Men for at foretage denne afvejning samt at sammenligne forskellige modellers evne til at beskrive det samme fænomen (datasæt), må man vedtage en og samme enhed til at beskrive kompleksiteten af model og målestøj. Som eksempel tænk på et datasæt der er overvejende polynomielt, f.eks. en sampling af funktionen f(x) = a x^2+støj. Vi kan sammeligne modeller ved at nedskrive deres parametre som en liste af rationelle tal dvs. heltalspar, algoritmen til at producere funktionen, samt listen af målestøj (også par af heltal). Dette perspektiv giver anledning til en naturlig 2-delt databeskrivelse. En syntaktisk og en semantisk. Som oftest har man ikke, som i det ovenstående eksempel, en nøjagtig forhåndsviden om datakildens karakter og man er derfor nød til at antage en mest sandsynlig klasse af modeller, såsom klassen af polynomier, neurale netværk, sum af cosinus funktioner m.m. Denne antagelse bliver beskrivelsens semantik, mens elementerne i klassen dikterer beskrivelsens syntaks. Semantikken bestemmer således hvilken type modeller (og dermed målestøj) vi hælder til, og det semantiske valg bliver det eneste men altafgørende ikke automatiske (altså subjektive) valg i modelvalgsprocessen.


Litteraturliste:

Der anvendes følgende:

Kursusplan:

Nr. Dato Emne Materiale Ca. sider Forelæser
1 sep. 3 Oversigsforlæsning - - Jon
2 sep. 10 Introduktion til Statistik Brøndum og Monrad 1-71 Jon
3 sep. 17 Introduktion til Statistik Brøndum og Monrad 72-184 Jon
4 sep. 24 Entropi Shannon og Weaver 31-53 Jon
5 okt. 1 Entropi Shannon og Weaver 31-53 Jon
6 okt. 8 Entropi Shannon og Weaver 53-80 Jon
7 okt. 22 Entropi Opgaveregning - Jon
8 okt. 29 Entropi Shannon og Weaver 80-115 Jon
9 nov. 5 Kodning Noter - Peter
10 nov. 12 Kodning Noter - Peter
11 nov. 19 Minimum Description Length Rissanen - Stochastic 45-56 Jon
12 nov. 26 Minimum Description Length Rissanen - Stochastic 54-60 Jon
13 dec. 3 Minimum Description Length Rissanen - Stochastic 57-70 Jon
14 dec. 10 Kontekst Algoritmen Noter - Jon
15 dec. 17 Evaluering og Afslutning - - Jon og Peter

Frivillig 3 pkt. skriftlig opgave:

En eller to opgaver vil blive stillet i slutningen af november eller december. Der vil så blive mulighed for at besvare en af disse inden for en strengt begrænset tidsramme på en måned. Opgaverne vil formentlig blive noget i stil med: anvend MDL på et givent datasæt eller registrer 2 datasæt vha. entropimål.

Løbende bemærkninger:


Please direct comments to: sporring@diku.dk