Sortering

From: Göran Uddeborg (goeran_at_uddeborg.pp.se)
Date: 2000-10-11 23:28:33

> Det är det enda som står om sorteringen av tecken som inte är bokstäver,

Inte riktigt. Kommentaren om siffror avser nog mer "uttalade" tecken,
som siffror, inte skiljetecken som punkter. Men punkt 266 tar upp hur
flerordiga uttryck skall hanteras:

 Flerordiga uttryck kan ordnas alfabetiskt antingen bokstav för
 bokstav utan hänsyn till ordmellanrum (bokstavsprincipen), eller ord
 för ord (ordprincipen) med mellanrum räknat som ett tecken, som då
 placeras alfabetiskt allra först, före a.

Ett exempel som jag inte orkar skriva av, sedan står det även

 Med bokstavsprincipen behöver den som söker efter exempelvis "a
 priori" i ovanstående förteckning inte veta att uttrycket skrivs som
 två ord. Många ordböckeer och uppslagsböcker har den ordningen,
 dedan telefonkataloger och bibliotekskataloger är ordnade efter
 ordprincipen. Den principen medger i ovanstående fall att en läsare
 i en följd får fraserna med "a" ("a conto", "a priori", "a vista")
 som första ord.

Den principen kan nog överföras på skiljetecken också, så vi har ett
val här.

SAOL skriver "abandon", "A-barn", "abbé" i den ordningen,
d.v.s. bokstavsprincipen.

Om jag läser definitionsfilerna (localedata/locales/sv_SE och
localedata/locales/iso14651_t1) rätt så sorteras
siffror och en del liknande tecken före bokstäverna, medan
skiljetecken som mellanslag och punkt ignoreras tills alla andra
möjligheter är provade. Detta följer en generalisering av
bokstavsprincipen.

Svensk sortering är i glibc definierad som en begränsad skillnad till
en standardsortering. Detta i likhet med alla andra språk. De utgår
alla utgår ifrån den standardfilen, och gör sedan ändringar. Jag ser
en viss poäng i att inte avvika i onödan (bra om man byter lokal
ibland). Och eftersom det som nu gäller följer en av de
rekommenderade principerna har jag kommit fram till att jag tycker att
det är bra som det är.

> Jag ska återöppna buggen i glibc och se om det kan fixas (gäller då även
> andra "icke-bokstavstecken").

Om du öppnar en bugg trots allt så öppna en ny. Den gamla handlade om
hur bokstäver skulle sorteras. Det blir bara jobbigt om detta blir en
fortsättning på den.

Fast jag tycker alltså inte att du skall röra i det alls.

Arkiv genererat av hypermail 2.1.1.