AI FÖR NATURLIGT SPRÅK

Kursinfo

Kursmaterial

FAQ

Kursmaterial

/

Kapitel

N-gram-modeller

N-gram-modeller

Antalet parametrar i en n-gram-modell

En $n$-gram-modell har lika många parametrar (i detta fall sannolikheter) som det finns möjliga $n$-gram som kan byggas med hjälp av orden i modellens vokabulär. Antag att vokabulären består av 100 000 unika ord. Hur många parametrar har då en $4$-gram-modell? Svara med ett konkret tal.

Att skatta n-gram-modeller

Skattning av bigram-sannolikheter

Datamängden WikiText är en samling bestående av 2 miljoner ord som extraherats från ”bra” och ”utmärkta” artiklar på Engelska Wikipedia. Vokabulären består av 33 000 unika ord. I denna datamängd förekommer bl.a. följande unigram och bigram:

the book the book book the
113 161 611 200 1

Ange den MLE-skattade sannolikheten P(book|the), avrundad till tre decimaler.

Denna webbsajt innehåller kursmaterialet för kursen ETE335 AI för naturligt språk.
Materialet är licenserat under en Creative Commons Erkännande 4.0 Internationell licens.
Copyright © 2022, Marco Kuhlmann & Oskar Holmström