do góry         o książce


3.4 Ponumerować litery (ASCII)

...i jeszcze upewnić się, że różne komputery używają tej samej numeracji. Niewątpliwym standardem jest ASCII -- American Standard Code for Information Interchange. Poza literami i cyframi jest w nim jeszcze kilka przydatnych znaczków:


Tablica: Znaki i numery odpowiadające im w kodzie ASCII
\begin{table}
\begin{verbatim}32 ! 33 '' 34  ...


Jedna litera to w ASCII jeden bajt. Bajt to osiem bitów, czyli liczba między 0 a 255. Tablica ASCII (3.2) kończy się przed numerem 127. Za to brak tam ąćęłń... Nawet jeśli pominiemy pierwsze 32 znaki (są tam różne dziwne kody), pozostaje nam jeszcze druga połowa3.3. Niestety, znaki wszystkich alfabetów narodowych nie zmieszczą się tam (tj. między 128 a 255) ,,za jednym razem''. Dlatego dla różnych języków istnieją różne kodowania, czyli numeracje liter spoza ASCII. Dla języka polskiego obowiązującym w Internecie standardem jest ISO3.4 8859-2. Zawiera on litery wystarczające do pisania (poza angielskim) w językach: Albanii, Bośni, Chorwacji, Czech, Finlandii, Węgier, Polski, Rumunii, Serbii, Słowacji i Słowenii. Wystarczają do tego (poza znakami z tablicy 3.2) następujące znaki:

\includegraphics [width=9.5cm]{figures/8859-2.eps}

Jako ciekawostkę zanotować warto, że w pionierskim okresie ,,polonizacji'' komputerów mieliśmy ok. 10 różnych ,,standardów'' kodowania polskich liter, co jest chyba swego rodzaju rekordem. Aktualnie poza ISO 8859-2 spotkać można jeszcze kodowanie używane w produktach firmy Microsoft -- Windows-1250.

Tak więc, aby prawidłowo wyświetlać tekst napisany w języku innym niż angielski, musimy:

Właśnie wtedy, gdy nie jest spełniony któryś z tych warunków -- czasem po przeniesieniu tekstu do innego komputera -- w miejsce ąćęł... pojawiają się czasami dziwne ,,krzaczki'' albo znaki z zupełnie innych alfabetów.

Pomysł na globalne i ostateczne rozwiązanie tego problemu jest prosty: jeśli 255 to za mało, zarezerwujmy tyle miejsca, aby starczyło na litery wszystkich alfabetów naraz i ustalmy jeden globalny standard!

Ten standard już isnieje -- nazywa się UNICODE. Litery zapisujemy w nim na 16 bitach, co daje miejsce na ponad 65 tysięcy znaków3.5. Niestety, zanim ten standard uratuje cyfrową wieżę Babel, komputery (a tak naprawdę systemy operacyjne i programy) muszą ,,zmienić swój sposób myślenia'' o literach -- wszak dotychczas jedna litera to był jeden bajt, a nie dwa! No i dopiero powstają czcionki ze znakami wszystkich alfabetów naraz: cyrylicy, hebrajskiego, chińskiego...


do góry o książce
Dalej: 3.5 Korekcja błędów Do góry: 3. Maszyny cyfrowe Wstecz: 3.3 Zera i jedynki