Teknik · Taligenkänning
KB-Whisper vs generisk Whisper — varför det spelar roll för svenska
Det finns ett problem med hur de flesta dikteringsappar hanterar svenska. De transkriberar—men de är inte byggda för svenska. Det är en viktig skillnad, och det är skälet till att Saega använder en annan modell än alla andra.
Vad är generisk Whisper, och varför är den bra?
Whisper är OpenAIs taligenkänningsmodell, publicerad 2022. Den är tränad på 680 000 timmar ljud från internet och stödjer 96 språk. För en generisk modell är den remarkabelt kapabel på svenska—den känner igen röster, accenter och vardagstal bättre än något som kom före den.
Men "förvånansvärt bra på svenska" är inte samma sak som "byggd för svenska". Whispers träningsdata är kraftigt sned mot engelska—det är det språk som dominerar på internet. Svenska är ett av 96 språk, vilket i teorin innebär ~1% av träningsdatan. I praktiken är det antagligen lägre.
Det här syns på specifika sätt i den faktiska transkriptionen:
- Sammansatta ord: Svenska bygger lätt ihop långa sammansatta ord. Ord som landstingsfullmäktige, skatteverksutbetalning och trotsålder är enskilda ord—inte fraser. Generisk Whisper delar ofta upp dem i separata delar, vilket är fel och kräver manuell korrigering.
- Ortnamn och personnamn: Luleå, Björklund, Östergötland, Åkerberg—nordiska namn med ä/å/ö och konsonantkombinationer som saknas i engelska. En modell tränad främst på engelska sett dessa själlan, och misstar dem.
- Långa facktermer: samhällsutvecklingen, näringsliv, infrastrukturpropositionen—ord som är vanliga i svenska formella sammanhang men nästan aldrig förekommer i engelskdominerad träningsdata.
- Dialektord: Göteborgska, skånska och nordnorska dialektord exponerar bristerna ytterligare.
Vad är KB-Whisper?
KB-Whisper skapades av KBLab—Kungliga Bibliotekets AI-laboratorium i Stockholm. De tog Whisper som grund och fine-tunade den på över 50 000 timmar svenska ljud: SVT-nyheter, Sveriges Radio, riksdagsdebatter, podcaster och transkriberat arkivmaterial.
Resultatet är en modell som fortfarande är Whisper under huven—men specialiserad på svenska. Den har sett de ord, namn och meningsstrukturer som faktiskt förekommer när svenska talare dikterar. Den känner igen sammansatta ord. Den klarar nordiska personnamn.
NB-Whisper gör motsvarande för norska—tränad på norska sändningar, riksdagsdebatter och litteratur av Nasjonalbiblioteket. Båda modellerna är öppen källkod och fritt tillgängliga.
Hur stor är skillnaden?
Word Error Rate (WER) är standardmåttet för taligenkänning—hur stor andel av orden i en transkription som är fel. Lägre är bättre.
I KBLabs publicerade benchmarks presterar KB-Whisper i genomsnitt 47% bättre än generisk Whisper av samma storlek mätt i Word Error Rate på svenska tal. Det är inte en marginell förbättring—det är skillnaden mellan ett verktyg du litar på och ett du hela tiden korrigerar.
I en typisk 200-ords mejldiktering på svenska kan generisk Whisper göra 30–40 fel. KB-Whisper gör kanske 15–20. För en professionell som dikterar dagligen summerar det till timmar av rädigningstid per månad.
| Egenskap | Generisk Whisper | KB-Whisper |
|---|---|---|
| Träningsdata | 680 000 h, 96 språk, engelskdominerat | ~50 000 h svenska ljud (SVT, SR, riksdagen) |
| Sammansatta ord | Delar ofta upp dem | Hanterar dem korrekt |
| Svenska person- och ortnamn | Frekventa fel | Avsevärt bättre |
| Svenska facktermer | Ofta fragmenterade | Igenkänns som helord |
| WER på svenska tal | Högre | I genomsnitt 47% lägre |
| Licens | MIT | Apache 2.0 |
Varför använder ingen annan dikteringsapp KB-Whisper?
KB-Whisper är inte hemlig. Den är öppen källkod, väldokumenterad och gratis att använda. Men de flesta dikteringsappar väljer den inte, av tre skäl.
De bygger för engelska först. SuperWhisper, Wispr Flow, MacWhisper—alla är nordamerikanska produkter som stödjer svenska som ett av många språk. Skandinavien är inte primärmarknaden. Ingen i teamet dikterar på svenska varje dag, så ingen märker felen.
Molnbaserade appar föredrar OpenAI API. Det är enklare att skicka ljud till OpenAI Whisper API än att paketera och distribuera en lokal modell. Men det innebär att ditt ljud lämnar din Mac—något många professionella hellre undviker.
Modellerna tar plats. KB-Whisper Small är ~150 MB. Large är ~1,5 GB. Det kräver att man designar för lokal exekvering från start, inte som ett eftertanke. App Store har dessutom storleksbegränsningar som gör det svårt att bunta större modeller.
Hur Saega använder KB-Whisper och NB-Whisper
Saega inkluderar KB-Whisper (svenska) och NB-Whisper (norska) som primära transkriptionsmodeller. Allt körs lokalt på din Mac—ingen molnserver, inga API-anrop för ljud. Du väljer modellstorlek efter din situation. Se hur sæga jämförs mot Apple Diktering och MacWhisper →
- KB/NB-Small (~150 MB): Snabb, bra för de flesta situationer. Gratis.
- KB/NB-Medium (~600 MB): Högre precision, lite långsammare. Pro.
- KB/NB-Large (~1,5 GB): Högsta möjliga precision. Pro.
Modellerna laddas ner vid första användningen och sparas lokalt. Ingen prenumeration för grundtranskriberingen. Inga löpande API-kostnader för att ditt ljud ska transkriberas.
Sammanfattning
Vill du se hur apparna jämförs i praktiken? Se vår fullständiga jämförelse av dikteringsappar för Mac 2026 →
Diktering på svenska har länge skett på engelsktalande appars villkor—med en teknik som är okänslig men inte optimal för hur svenska faktiskt låter och ser ut.
KB-Whisper och NB-Whisper existerar för att lösa det här problemet på rätt nivå—i själva modellen, inte som ett filter efter. Det är den skillnad Saega är byggd kring.
Saega laddar ner och kör KB-Whisper lokalt. Ingen prenumeration för grundfunktionaliteten. Inget ljud lämnar din Mac.
Ladda ner saega — gratis att börja