Re: Bokstavsfrekvenser i svenskan

Författare: Tommy Pettersson (ptp_at_lysator.liu.se)
Datum: 2004-02-23 00:58:09

Bokstavsfrekvenserna varierar påtagligt mellan olika typer av
texter, så om man vill ha dem för "svenska" så blir det ett
omfattande arbete att samla alla sorters texter och räkna ut
hur relativt vanlig varje sorts text är.

Den jag har hittat för bokstäverna på någon språkforskarsida
ser ut såhär, och jag tror mig minnas att det är
tidningsartiklar från massor av år som är källan till den:

  eantrs
  ildomk
  gväfhu
  påöbcy
  jxwzq

Om det kan hjälpa så har jag en corpus av dagböcker rippade
från internet innehållandes drygt fem miljoner ord, vilket ger
ok frekvenser ner till wzq.  Ordet 'jag' är mycket vanligare än
i t.ex. tidningsartiklar och tekniska skrifter.  Det förekommer
även en del IRC-fasoner, så '.' är överrepresenterat.
Eftersom jag från början bara var intresserad av bokstäver
brydde jag mig inte om att formatet jag samlade dem på
innehöll ascii-ramar runt tabellrutor, så statistiken för
'-', '+' och '|' blir väldigt fel.  Siffror är naturligtvis
även överrepresenterade och frekvensfördelade efter hur man
skriver datum.

  aetnrs
  ildogm
  k-hvä.
  åfupjc
  bö,|y"
  !0?1):
  2x*(93
  5+w4/8
  67;z&'
  _é~>=q

Kuriosa: Den genomsnittligaste bokstaven är 'm'.  'a' är
nästan tre gånger så vanlig som 'm' och 'q' förekommer ungefär
en gång på tusen 'm'.  'z' är fyra gånger vanligare än 'q'
och förekommer således en gång på 250 genomsnittliga bokstäver.

En tillhyfsad variant för interpunktionerna (med lite
dator-magi-AI) ser ut som:

  .,"-!:?()*;+/'

Jag har även 1700-talsvarianten av bibeln (med kraftigt
överrepresenterat 'h' som i "herren") och ett par noveller
från 1800-talet, om du vill ha statistik för dem.  ;-)


-- 
Tommy Pettersson <ptp@lysator.liu.se>

_______________________________________________
sv mailing list
sv@li.org
http://lists.alt.org/mailman/listinfo/sv

Arkiv genererat av hypermail pre-2.1.8.