AI FÖR NATURLIGT SPRÅK
Kursinfo
Kursmaterial
FAQ
Kursmaterial
/
Kapitel
N-gram-modeller
N-gram-modeller
Antalet parametrar i en n-gram-modell
En $n$-gram-modell har lika många parametrar (i detta fall sannolikheter) som det finns möjliga $n$-gram som kan byggas med hjälp av orden i modellens vokabulär. Antag att vokabulären består av 100 000 unika ord. Hur många parametrar har då en $4$-gram-modell? Svara med ett konkret tal.
Att skatta n-gram-modeller
Skattning av bigram-sannolikheter
Datamängden WikiText är en samling bestående av 2 miljoner ord som extraherats från ”bra” och ”utmärkta” artiklar på Engelska Wikipedia. Vokabulären består av 33 000 unika ord. I denna datamängd förekommer bl.a. följande unigram och bigram:
the | book | the book | book the |
113 161 | 611 | 200 | 1 |
Ange den MLE-skattade sannolikheten P(book|the), avrundad till tre decimaler.
Denna webbsajt innehåller kursmaterialet för kursen ETE335 AI för naturligt språk.
Materialet är licenserat under en Creative Commons Erkännande 4.0 Internationell licens.
Copyright © 2022, Marco Kuhlmann & Oskar Holmström