2. dels kursus

Introduktion til informationsteori

Lærer: Jon Sporring og Peter Johansen
Tid og sted: Onsdag kl. 9 - 11 i N037
Kredit: 3 mundtlige punkter Der skal afleveres ugentlige hjemmeopgaver. Der vil desuden blive stillet en 1 måneds, 3 punkts skriftlig rapportopgave sidst på kurset til de interesserede.
Forudsætninger: Matematisk gå på mod

Kursusbeskrivels

Formålet med kurset er at gøre opmærksom på nytten af den kortest mulige beskrivelse af data som metode til modelvalg. Denne længde kaldes Kolmogorov kompleksiteten, og Minimum Description Length (MDL) er en praktisk beregnelig approksimation. Målestøj er et begreb alle med bare en anelse eksperimentel-videnskabelig baggrund stifter bekendtskab med. I f.eks. fysik undervisningen i gynmasiet og på universitetet bruger vi megen tid på at indlære forskellige matematiske modeller til at beskrive det vi ser gennem vores sanser eller via måleapparater. Modellerne er valgt fordi de til en vis nøjagtighed kan verificeres gennem egentlige eksperimenter. Modellerne har altafgørende betydning for den videre forståelse af de studerede fænomener og de benyttes i vid udstrækning til at lave forudsigelser for experimenter endnu ikke foretaget. Data måles altid med en usikkerhed, måledata har ikke uendelig mange decimaler! Man skal derfor kun forvente at en model beskriver det essentielle. Begrebet "essentiel'' viser sig at kunne defineres algoritmisk: En models evne til at simulere data afvejes mod mængden af målestøj, der implicit antages. Men for at foretage denne afvejning samt at sammenligne forskellige modellers evne til at beskrive det samme fænomen (datasæt), må man vedtage en og samme enhed til at beskrive kompleksiteten af model og målestøj. Som eksempel tænk på et datasæt der er overvejende polynomielt, f.eks. en sampling af funktionen f(x) = a x^2+støj. Vi kan sammeligne modeller ved at nedskrive deres parametre som en liste af rationelle tal dvs. heltalspar, algoritmen til at producere funktionen, samt listen af målestøj (også par af heltal). Dette perspektiv giver anledning til en naturlig 2-delt databeskrivelse. En syntaktisk og en semantisk. Som oftest har man ikke, som i det ovenstående eksempel, en nøjagtig forhåndsviden om datakildens karakter og man er derfor nød til at antage en mest sandsynlig klasse af modeller, såsom klassen af polynomier, neurale netværk, sum af cosinus funktioner m.m. Denne antagelse bliver beskrivelsens semantik, mens elementerne i klassen dikterer beskrivelsens syntaks. Semantikken bestemmer således hvilken type modeller (og dermed målestøj) vi hælder til, og det semantiske valg bliver det eneste men altafgørende ikke automatiske (altså subjektive) valg i modelvalgsprocessen.

Litteraturliste:

Der anvendes følgende:

Brøndum og Monrad: "Statistik I - Sandsynlighedsregning og statistiske grundbegreber", Den Private Ingeniør Fond, 1993, ca. kr. 75.
Shannon og Weaver: "The Mathematical Theory of Communication", University of Illinois Press, 1963, ISBN 0-252-72548-4, ca. kr. 100.
Rissanen: "Stochastic Complexity in Statistical Inquiry", World Scientific, 1989, ISBN 981-02-0311-X, ca. kr. 370.
Rissanen: "Fisher Information and Stochastic Complexity", IEEE Transactions on Information Theory, Vol. 42, No. 1, Jan.\ 1996, (kopi pris).
Dom: "MDL Estimation for Small Sample Sizes and Its Application to Linear Regression",, Technical Report RJ 10030 (90526), IBM Almaden Research Center, 1996, (kopi pris).
Jaynes: "Prior Probabilities", IEEE Transactions on Systems Science and Cybernetics, Vol. 4, No. 3, 1968, (kopi pris).

Kursusplan:

Nr.	Dato	Emne	Materiale	Ca. sider	Forelæser
1	sep. 3	Oversigsforlæsning	-	-	Jon
2	sep. 10	Introduktion til Statistik	Brøndum og Monrad	1-71	Jon
3	sep. 17	Introduktion til Statistik	Brøndum og Monrad	72-184	Jon
4	sep. 24	Entropi	Shannon og Weaver	31-53	Jon
5	okt. 1	Entropi	Shannon og Weaver	31-53	Jon
6	okt. 8	Entropi	Shannon og Weaver	53-80	Jon
7	okt. 22	Entropi	Opgaveregning	-	Jon
8	okt. 29	Entropi	Shannon og Weaver	80-115	Jon
9	nov. 5	Kodning	Noter	-	Peter
10	nov. 12	Kodning	Noter	-	Peter
11	nov. 19	Minimum Description Length	Rissanen - Stochastic	45-56	Jon
12	nov. 26	Minimum Description Length	Rissanen - Stochastic	54-60	Jon
13	dec. 3	Minimum Description Length	Rissanen - Stochastic	57-70	Jon
14	dec. 10	Kontekst Algoritmen	Noter	-	Jon
15	dec. 17	Evaluering og Afslutning	-	-	Jon og Peter

Frivillig 3 pkt. skriftlig opgave:

En eller to opgaver vil blive stillet i slutningen af november eller december. Der vil så blive mulighed for at besvare en af disse inden for en strengt begrænset tidsramme på en måned. Opgaverne vil formentlig blive noget i stil med: anvend MDL på et givent datasæt eller registrer 2 datasæt vha. entropimål.

Løbende bemærkninger:

aug. 6:

Bogen "Stochastic Complexity in Statistical Inquiry" er udsolgt fra forlaget. Vi vil derfor læse de pågælende 100 sider i kopi.
De sidste 3 artikler i litteraturlisten læses hvis vi har tid/lyst.

sep. 2:
- Eksempel på mdl implementationen demonstreret 3. september i Matlab findes her
sep. 16:
- Første del af Shannon & Weaver (den skrevet af Weaver) vil vi ikke gennemgå. Jeg kan dog varmt anbefale at I læser den, for perspektivets skyld.
sep. 24:
- Opgave til 1. oktober: I filen text.mat er en lang sekvens af bogstaver. Udregn entropien for den estimerede frekvens af bogstaver P(a_i), samt entropien for den betingede frekvens P(a_i|a_{i-1}).
sep. 29:
- Der findes en kort introduktion til Matlab: "Matlab Primer". Det er intet krav at I bruger Matlab, men jeg har selv stor glæde af systemet i forbindelse med prototyper indenfor signalbehandling, mønstergenkendelse og deslige.
sep. 30:
- Løsning til opgaven til 1. oktober ligger her.
okt. 21:
- Der har indsneget sig en fejl i første teoretiske opgave. D(p(X)||q(Y)) skulle lyde D(p(X)||q(X)). Bemærk yderligere, at der implicit i denne opgave er et valg af definition af D(p(Y|X)||q(Y|X)).
okt. 22:
- Løsning til Huffman og Betinget Entropi opgaverne ligger her og her. De er ikke frygtligt illustrative, og jeg vil anbefale at I selv forsøger jer.
- Vi har aftalt at jeg fra næste gang har kopier med af de første 100 sider af Rissanens bog, som I kan købe ved at aflevere en kopikupon af værdi kr. 50. Kuponerne kan købes hos Annelise Axen. Den anden mulighed er, at I kan låne min bog i en kort periode og selv stå for kopieringen.
nov. 20:
- Til opgaven stillet d. 19. november anvendes datasættet opg4_data.mat. Første søjle er x-coordinaten og skal ikke kodes eksplicit, dog kan viden om grænserne på x med fordel anvendes under kodningsprocessen.
dec. 17:
- De to valgfrie opgaver er nu stillet.
- De til Opgave 1 tilhørende billeder er her: Grass.mix.bin.im og smp300dpi.im
- Til Opgave 2 hører Lille Klaus og Store Klaus.

Please direct comments to: sporring@diku.dk