AI FÖR NATURLIGT SPRÅK

Kursinfo

Kursmaterial

FAQ

Kursmaterial

/

Kapitel

Naive Bayes-klassificeraren

Naive Bayes-klassificeraren

Betingad sannolikhet

En betingad sannolikhet är sannolikheten att en händelse B inträffar under antagandet att händelsen A redan har inträffat. En sådan sannolikhet tecknas $P(B|A)$ och utläses ”sannolikheten för B givet A”.

$P(B|A) = \frac{P(A, B)}{P(A)} = \frac{P(B, A)}{P(A)}$

Om du inte redan är bekant med begreppet betingad sannolikhet och dess relation till andra typer av sannolikheter rekommenderar vi att du går igenom avsnittet Betingad sannolikhet i Matteboken.

Generativa modeller

Tänk dig att du har en klass $c$ (t.ex. ”positiv” eller ”negativ”) och ett ord $w$ (t.ex. ”bra” eller ”dålig”). En generativ modell för dessa två variabler definierar en sannolikhetsfördelning på formen $P(c, w)$. Vi skulle t.ex. kunna ha följande fördelning:

P(positiv, bra) P(positiv, dålig) P(negativ, bra) P(negativ, dålig)
0,4 0,1 0,2 0,3

Om man har en generativ modell kan man alltid också få ut den betingade sannolikhetsfördelningen $P(c|w)$, som man behöver för att predicera klassen $c$ utifrån ordet $w$. För exemplet ovan, vad är $P(\text{positiv}|\text{bra})$? Ange ett procenttal avrundat till två decimaler.

Små sannolikheter

I praktiska implementationer av Naive Bayes brukar man inte använda sannolikheter utan log-sannolikheter. Med detta menas att man skriver om varje sannolikhetsvärde $p$ till dess logaritm, $\log p$. Fördelen med detta är att man alltid får tal vars absolutvärde är relativt stort, vilket förhindrar underspill.

När man använder log-sannolikheter måste man i beslutsregeln för Naive Bayes ersätta multiplikation med …

Inlärningsalgoritmen för Naive Bayes

Maximum Likelihood-skattning

Använd Maximum Likelihood Estimation-principen för att skatta ordsannolikheten $P(\text{Stockholm}|\text{Sverige})$ utifrån följande dokumentsamling. Svara med ett procenttal avrundat till två decimaler.

Dokument Klass
Stockholm Oslo Köpenhamn Sverige
Stockholm Stockholm Köpenhamn Sverige
Stockholm Helsingfors Rejkjavik Sverige
Helsingfors Tampere Stockholm Finland

Denna webbsajt innehåller kursmaterialet för kursen ETE335 AI för naturligt språk.
Materialet är licenserat under en Creative Commons Erkännande 4.0 Internationell licens.
Copyright © 2022, Marco Kuhlmann & Oskar Holmström