Расширенная таблица ASCII Кодировка русских букв Недостатки кодировки ASCII • Как легко заметить, в этой кодировке представлены только латинские буквы, причём те, которые используются в английском языке. • Есть также арифметические и другие служебные символы. Но нет ни русских букв, ни даже специальных латинских для немецкого или французского языка. • Это легко объяснить – кодировка разрабатывалась именно как американский стандарт. • Когда компьютеры стали применяться во всём мире, потребовалось кодировать и другие символы. Таблица ASCII • Как видно из таблицы, код каждого символа начинается с 0. Это значит, что используется только 7 бит из байта. Но если использовать все 8 бит … Расширенная таблица ASCII • … мы получим расширенную таблицу, где можно разместить 256 символов. • Мы видим здесь символы, которые используются в европейских языках: Å Æ Ñ ß ä æ ç ð Ǿ Δ Ξ Ψ Ω ₤; • а также символы псевдографики ─ │ ┌ ┐ ╩ ╬, которые использовались в текстовых редакторах для рисования таблиц. • ┌───┬───┐ │ │ │ ├───┼───┤ ╘═══╧═══╛ Псевдографика • Псевдографические символы позволяют, выводя на экран только текстовые символы, обеспечивать некоторое подобие графики. При помощи псевдографики можно даже создавать некое подобие рисунков. Шедевры псевдографики • И даже копировать всемирно известное произведение Леонардо да Винчи. • (Джоконда, Лувр) КОИ-8 • Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете. Широко применяется также в операционных системах семейства Unix, включая Linux. Вариант КОИ-8, рассчитанный на русский язык, называется КОИ-8R. KOI-8R •В КОИ-8R порядок русских букв кажется случайным. Но на самом деле это не так. • Русские буквы поставлены в чёткое соответствие с латинскими. Если убрать восьмой бит, строчные русские буквы превращаются в заглавные латинские, а заглавные русские – в строчные латинские. • КОИ-8 позволяет сохранять читаемость русского текста при потере 8-го бита. “Привет всем” превращается в “pRIWET WSEM”. Кодировка CP1251 • Как можно заметить, в таблице кодировки CP1251 русские буквы расположены в алфавитном порядке (за исключением, правда, буквы Ё). Благодаря такому расположению компьютерным программам очень просто осуществлять сортировку по алфавиту. Сюрпризы кодировки • Из-за того, что распространённых кодировок оказалось две, при работе с Интернетом (почта, просмотр Web-сайтов) иногда можно вместо русского текста увидеть бессмысленный набор букв. Например, “Я СБЮФЕМХЕЛ”. Это всего лишь слова “с уважением”; но они были закодированы в кодировке CP1251, а компьютер декодировал текст по таблице КОИ-8. • Если те же слова были, наоборот, закодированы в КОИ-8, а компьютер декодировал текст по таблице CP1251, результатом будет “У ХЧБЦЕОЙЕН”. • Иногда бывает, что компьютер расшифровывает русскоязычные письма и вовсе по таблице, не предназначенной для русского языка. Тогда вместо русских букв появляются бессмысленный набор символов. • В большинстве случаев современные программы справляются с определением кодировок документов Интернета (электронных писем и Web-страниц) самостоятельно. Но иногда они “дают осечку”, и тогда можно увидеть странные последовательности русских букв. Как правило, чтобы в такой ситуации вывести на экран настоящий текст, достаточно выбрать кодировку вручную в меню программы.