Diakritika? Dekuji radeji ne…
January 22, 2007 on 10:19 pm | In Glosy |Počítač není nic jiného než notně vylepšená kalkulačka. Z toho logicky vyplývá, že jediné co PC umí je počítat (sčítat, násobit, dělit, etc…) a “semotamo” přesunout nějaká data z jedné části paměti do druhé. Tedy i písmenka jsou interně reprezentovaná čísly. Třeba znak ‘a’ je 97, ‘A’ je zase 65. Navíc se takto kódují i všechny další znaky - čárka, tečka, středník či třeba číslice - ano číslice jako znak (to jak má vypadat). Pokud všechny tyto různé “tvary” spočítáme, tak nepřekročíme stovku. To je důvodem proč se jeden znak ukládá do nejmenší adresovatelné velikosti - do jednoho byte (do osmi bitů). Jinými slovy jsme takto schopni rozlišit 255 různých znaků.
Takto vznikla takzvaná ASCII tabulka (měla i své předchůdce, ale ty opomeňme). Prvních 127 pozic je pevně označeno číslicemi, písmenky a dalšími znaky (anglické abecedy). Dalé byly původně různe tvary používané na rámečky v textovém režimu. Dnes v době Windows Vista už asi není moc lidí, kteří si pamatují na textový režim a třeba velice známou knihovnu ncurses. Podle mě je to škoda, leckdy je práce v tomto režimu rychlejší, i když postrádá “komfort” grafiky.
S postupným rozšiřováním počítačů do neanglických zemí přisel problém - jak zobrazit specifické znaky národních abeced? U nás se jedná typicky o háčky a čárky nad písmenky. Pár chytrých hlav si sedlo dohromady a jali se řešit tento palčivý problém. Nakonec se dohodli na smazání různých tvarů používaných v textovém režimu a jejich nahrazením za národně důležité znaky. Prvních 127 znaků je tedy vždy a všude stejných, ale těch dalších 127 (od 128 do 255) už má každý stát jinak.
Bohužel fakt, že jen prvních 127 znaků je neměnných, je to jediné co je jisté. Další znaky podléhají nečemu co Vám určitě příjde povědomé - kódování. Kódování je vlastně zase nějaký předpis, podle ktérého se různým číslům přiřazují různá písmenka. Problém je, že těchto předpisů existuje více i pro jeden národ. Třeba my (češi) máme hned 3 různé často používané - iso-8859-2 (používá se hlavně na unix-like systémech), UTF-8 (což je relativně nový standard, který se snaží mít specifické znaky úplně všech států) a windows-1250 (jak název napovída, používá se pouze na windows). Tyto sady jsou navzájem nekompatibilní, což znamená další problémy. Pokud nějakou větu napíšete v iso-8859-2 a zobrazíte na windows-1250, tak všechny znaky, které leží nad 127 v ASCII (tedy diakritika - háčky, čárky), budou zobrazeny nějak jinak a věta jako celek bude nečitelná. Dostanete z ní takzvaný “rozsypaný čaj”.
Určitě mě chcete nařknou, že se s těmito problémy nemůžete setkat. Omyl. Můžete. A co je horší, tak se s nimi setkáváme denně. Problémy jsou u věcí či protokolů, které zárověn s textem neposílají i informace o kódování. Asi největší problém je v e-mailu a na webu. Jeden nejmenovaný e-mailový klient od firmy Microsoft třeba úplně ignoruje kódování a nikdy ho neposíla, takže když si čtete email poslaný z Outlooku, tak z něho máte tak akorát rozsypaný čaj. Proto radím, pokud si nejste jisti, tak diakritiku raději nepoužívejte. V emailu je to běžná věc!
4 Comments »
RSS feed for comments on this post. TrackBack URI
Leave a comment
Powered by WordPress with Pool theme design by Borja Fernandez.
Entries and comments feeds.
Valid XHTML and CSS. ^Top^
Pokud je správně nastavený e-mailový klient (desktopový i webový), který posílá správné kódování v hlavičce (Content-Type), není žádný problém. s potížemi s maily z Outlooku jsem se zatím nesetkal a to do mé vlastní a firemní pošty chodí dost outlookovských e-mailů denně. Já radím diakritiky se nebát, píše se přece rok 2007
. Používám ji všude, i v ICQ, i když druhá strana může mít jakéhokoliv klienta. Až když si někdo stěžuje, háčky a čárky vypnu
.
Comment by MiPol — 2007-01-22 #
Heh tak ICQ je na tom asi nejhure ze vseho
Ty mas stesti - tve vychozi kodovani je windows-1250, takze pokud hlavicka zchazi, tak to ani nepostrehnes. Ja mam jako default UTF-8 a absenci bohuzel postrehnu
Outlook moc casto kodovani neposila - tedy aspon ne ty verze, od kterych mi chodi maily
Comment by jarcec — 2007-01-23 #
Ne-e, výchozí kódování mám ISO-8859-2 jak pro odchozí, tak i příchozí poštu. Pokud se už někdy stane, že mi přijde rozsypaný čaj (kódování v hlavičce schází nebo je jiné, než je ve skutečnost použito), tak jej stačí v menu Thunderbirdu ručně přepnout a je to
. U ICQ (klient QiP) používám UTF-8.
Comment by MiPol — 2007-01-23 #
aha, tak v tom pripade se omlouvam
Comment by jarcec — 2007-01-23 #