AI FÖR NATURLIGT SPRÅK

Kursinfo

Kursmaterial

FAQ

Kursmaterial

Kapitel

Deluppgift 2: Språkets statistiska egenskaper

Statistisk analys

Följande filer används i uppgiften:

• talbanken-dep-train.conll

För att spara filerna, högerklicka på länken och välj att spara filen. Du behöver inte ladda ned några filer för att genomföra uppgiften, utan de är per automatik tillgängliga för användning i kodcellerna nedan.

All data som vi arbetar med har statistiska egenskaper, och vad de är kan såväl begränsa och skapa möjligheter för hur vi kan använda informationen i vår data. Språk bär med sig vissa specifika statistiska egenskaper som vi ska vara medvetna om.

I denna deluppgift vill vi undersöka ordfrekvens. Utifrån samma korpus som föregående deluppgift ska du ta reda på antalet unika ord. Specifikt ska du använda dig av ett Counter objekt för att uppdatera varje ords frekvens.

Du ska nu skapa en lista bestående av tuples (ord, frekvens) som är sorterad i ordning från högst frekvens till lägst. Se om du kan hitta en funktion för Counter-objekt vars uppgift är precis att ta fram de mest frekventa orden.

För att få en bättre förståelse av fördelningen vill vi visualisera frekvenserna. Vi använder de sorterade ord- och frekvensparen för att skapa ett stapeldiagram.

Det är tydligt att ett litet antal ord är mycket frekventa och majoriteten av ord förekommer mer sällan, man kan säga att fördelningen har en lång svans. Diagrammet kan anses vara ett exempel på giltigheten av Zipfs lag som säger att ett ords frekvens (antalet förekomster) är omvänt proportionerlig till ordets rang – dess position i frekvenstabellen. Med ett ännu större dataset skulle denna tendens vara ännu tydligare.

Linköpings universitet
Institutionen för datavetenskap
ai-for-naturligt-sprak@ida.liu.se

Denna webbsajt innehåller kursmaterialet för kursen ETE335 AI för naturligt språk.
Materialet är licenserat under en Creative Commons Erkännande 4.0 Internationell licens.
Copyright © 2022, Marco Kuhlmann & Oskar Holmström