AI FÖR NATURLIGT SPRÅK
Kursinfo
Kursmaterial
FAQ
Kursmaterial
/
Kapitel
Naive Bayes-klassificeraren
Naive Bayes-klassificeraren
Betingad sannolikhet
En betingad sannolikhet är sannolikheten att en händelse B inträffar under antagandet att händelsen A redan har inträffat. En sådan sannolikhet tecknas $P(B|A)$ och utläses ”sannolikheten för B givet A”.
$P(B|A) = \frac{P(A, B)}{P(A)} = \frac{P(B, A)}{P(A)}$
Om du inte redan är bekant med begreppet betingad sannolikhet och dess relation till andra typer av sannolikheter rekommenderar vi att du går igenom avsnittet Betingad sannolikhet i Matteboken.
Generativa modeller
Tänk dig att du har en klass $c$ (t.ex. ”positiv” eller ”negativ”) och ett ord $w$ (t.ex. ”bra” eller ”dålig”). En generativ modell för dessa två variabler definierar en sannolikhetsfördelning på formen $P(c, w)$. Vi skulle t.ex. kunna ha följande fördelning:
P(positiv, bra) | P(positiv, dålig) | P(negativ, bra) | P(negativ, dålig) |
0,4 | 0,1 | 0,2 | 0,3 |
Om man har en generativ modell kan man alltid också få ut den betingade sannolikhetsfördelningen $P(c|w)$, som man behöver för att predicera klassen $c$ utifrån ordet $w$. För exemplet ovan, vad är $P(\text{positiv}|\text{bra})$? Ange ett procenttal avrundat till två decimaler.
Små sannolikheter
I praktiska implementationer av Naive Bayes brukar man inte använda sannolikheter utan log-sannolikheter. Med detta menas att man skriver om varje sannolikhetsvärde $p$ till dess logaritm, $\log p$. Fördelen med detta är att man alltid får tal vars absolutvärde är relativt stort, vilket förhindrar underspill.
När man använder log-sannolikheter måste man i beslutsregeln för Naive Bayes ersätta multiplikation med …
Inlärningsalgoritmen för Naive Bayes
Maximum Likelihood-skattning
Använd Maximum Likelihood Estimation-principen för att skatta ordsannolikheten $P(\text{Stockholm}|\text{Sverige})$ utifrån följande dokumentsamling. Svara med ett procenttal avrundat till två decimaler.
Dokument | Klass |
---|---|
Stockholm Oslo Köpenhamn | Sverige |
Stockholm Stockholm Köpenhamn | Sverige |
Stockholm Helsingfors Rejkjavik | Sverige |
Helsingfors Tampere Stockholm | Finland |
Denna webbsajt innehåller kursmaterialet för kursen ETE335 AI för naturligt språk.
Materialet är licenserat under en Creative Commons Erkännande 4.0 Internationell licens.
Copyright © 2022, Marco Kuhlmann & Oskar Holmström