Teknik · Taligenkänning

KB-Whisper vs generisk Whisper — varför det spelar roll för svenska

30 juni 2026 Fredrik Carlsson 8 min läsning

Det finns ett problem med hur de flesta dikteringsappar hanterar svenska. De transkriberar—men de är inte byggda för svenska. Det är en viktig skillnad, och det är skälet till att Saega använder en annan modell än alla andra.

Vad är generisk Whisper, och varför är den bra?

Whisper är OpenAIs taligenkänningsmodell, publicerad 2022. Den är tränad på 680 000 timmar ljud från internet och stödjer 96 språk. För en generisk modell är den remarkabelt kapabel på svenska—den känner igen röster, accenter och vardagstal bättre än något som kom före den.

Men "förvånansvärt bra på svenska" är inte samma sak som "byggd för svenska". Whispers träningsdata är kraftigt sned mot engelska—det är det språk som dominerar på internet. Svenska är ett av 96 språk, vilket i teorin innebär ~1% av träningsdatan. I praktiken är det antagligen lägre.

Det här syns på specifika sätt i den faktiska transkriptionen:

Sammansatta ord: Svenska bygger lätt ihop långa sammansatta ord. Ord som landstingsfullmäktige, skatteverksutbetalning och trotsålder är enskilda ord—inte fraser. Generisk Whisper delar ofta upp dem i separata delar, vilket är fel och kräver manuell korrigering.
Ortnamn och personnamn: Luleå, Björklund, Östergötland, Åkerberg—nordiska namn med ä/å/ö och konsonantkombinationer som saknas i engelska. En modell tränad främst på engelska sett dessa själlan, och misstar dem.
Långa facktermer: samhällsutvecklingen, näringsliv, infrastrukturpropositionen—ord som är vanliga i svenska formella sammanhang men nästan aldrig förekommer i engelskdominerad träningsdata.
Dialektord: Göteborgska, skånska och nordnorska dialektord exponerar bristerna ytterligare.

Vad är KB-Whisper?

KB-Whisper skapades av KBLab—Kungliga Bibliotekets AI-laboratorium i Stockholm. De tog Whisper som grund och fine-tunade den på över 50 000 timmar svenska ljud: SVT-nyheter, Sveriges Radio, riksdagsdebatter, podcaster och transkriberat arkivmaterial.

Resultatet är en modell som fortfarande är Whisper under huven—men specialiserad på svenska. Den har sett de ord, namn och meningsstrukturer som faktiskt förekommer när svenska talare dikterar. Den känner igen sammansatta ord. Den klarar nordiska personnamn.

NB-Whisper gör motsvarande för norska—tränad på norska sändningar, riksdagsdebatter och litteratur av Nasjonalbiblioteket. Båda modellerna är öppen källkod och fritt tillgängliga.

Hur stor är skillnaden?

Word Error Rate (WER) är standardmåttet för taligenkänning—hur stor andel av orden i en transkription som är fel. Lägre är bättre.

I KBLabs publicerade benchmarks presterar KB-Whisper i genomsnitt 47% bättre än generisk Whisper av samma storlek mätt i Word Error Rate på svenska tal. Det är inte en marginell förbättring—det är skillnaden mellan ett verktyg du litar på och ett du hela tiden korrigerar.

Konkret konsekvens

I en typisk 200-ords mejldiktering på svenska kan generisk Whisper göra 30–40 fel. KB-Whisper gör kanske 15–20. För en professionell som dikterar dagligen summerar det till timmar av rädigningstid per månad.

Egenskap	Generisk Whisper	KB-Whisper
Träningsdata	680 000 h, 96 språk, engelskdominerat	~50 000 h svenska ljud (SVT, SR, riksdagen)
Sammansatta ord	Delar ofta upp dem	Hanterar dem korrekt
Svenska person- och ortnamn	Frekventa fel	Avsevärt bättre
Svenska facktermer	Ofta fragmenterade	Igenkänns som helord
WER på svenska tal	Högre	I genomsnitt 47% lägre
Licens	MIT	Apache 2.0

Varför använder ingen annan dikteringsapp KB-Whisper?

KB-Whisper är inte hemlig. Den är öppen källkod, väldokumenterad och gratis att använda. Men de flesta dikteringsappar väljer den inte, av tre skäl.

De bygger för engelska först. SuperWhisper, Wispr Flow, MacWhisper—alla är nordamerikanska produkter som stödjer svenska som ett av många språk. Skandinavien är inte primärmarknaden. Ingen i teamet dikterar på svenska varje dag, så ingen märker felen.

Molnbaserade appar föredrar OpenAI API. Det är enklare att skicka ljud till OpenAI Whisper API än att paketera och distribuera en lokal modell. Men det innebär att ditt ljud lämnar din Mac—något många professionella hellre undviker.

Modellerna tar plats. KB-Whisper Small är ~150 MB. Large är ~1,5 GB. Det kräver att man designar för lokal exekvering från start, inte som ett eftertanke. App Store har dessutom storleksbegränsningar som gör det svårt att bunta större modeller.

Hur Saega använder KB-Whisper och NB-Whisper

Saega inkluderar KB-Whisper (svenska) och NB-Whisper (norska) som primära transkriptionsmodeller. Allt körs lokalt på din Mac—ingen molnserver, inga API-anrop för ljud. Du väljer modellstorlek efter din situation. Se hur sæga jämförs mot Apple Diktering och MacWhisper →

KB/NB-Small (~150 MB): Snabb, bra för de flesta situationer. Gratis.
KB/NB-Medium (~600 MB): Högre precision, lite långsammare. Pro.
KB/NB-Large (~1,5 GB): Högsta möjliga precision. Pro.

Modellerna laddas ner vid första användningen och sparas lokalt. Ingen prenumeration för grundtranskriberingen. Inga löpande API-kostnader för att ditt ljud ska transkriberas.

Sammanfattning

Vill du se hur apparna jämförs i praktiken? Se vår fullständiga jämförelse av dikteringsappar för Mac 2026 →

Diktering på svenska har länge skett på engelsktalande appars villkor—med en teknik som är okänslig men inte optimal för hur svenska faktiskt låter och ser ut.

KB-Whisper och NB-Whisper existerar för att lösa det här problemet på rätt nivå—i själva modellen, inte som ett filter efter. Det är den skillnad Saega är byggd kring.

Testa KB-Whisper på din Mac

Saega laddar ner och kör KB-Whisper lokalt. Ingen prenumeration för grundfunktionaliteten. Inget ljud lämnar din Mac.

Ladda ner saega — gratis att börja

macOS 13 Ventura eller senare · Apple Silicon

Eller jämför Free och Pro →