НОУ ИНТУИТ | Лекция | Кодировка букв русского алфавита
< Дополнительный материал 2 || Дополнительный материал 3 || Дополнительный материал 4 >
Ключевые слова: KOI8-R, UCS, CHARACTER SET, UTF-16, таблица, cyrillic, letter, capital, таблица кодировки, ASCII, mic
В настоящее время наиболее широко используются пять (!) различных таблиц кодировки для формального представления русских букв:
- I. ISO 8859-5 — международный стандарт;
- II. Кодовая страница 866 (Microsoft CP866) — используется в MS-DOS;
- III. Кодовая страница 1251 (Microsoft CP1251) для Microsoft Windows;
- IV. На базе ГОСТ КОИ-8, koi8-r — применяется в мире Unix;
- V. Unicode — используется в Microsoft Windows, Unix и клонах Unix.
Основная кодировка ГОСТ (государственный стандарт СССР) от 1987 года создана на основе рекомендаций ISO и в дальнейшем стала основой для представления знаков русских букв в Unicode. В ней и в кодировках II, III и V все буквы кроме ё и Ё расположены в алфавитном порядке. На практике эту кодировку можно встретить только на старых IBM PC совместимых компьютерах ЕС-1840 и в некоторых принтерах. Internet браузеры обычно поддерживают ее наряду с кодировками II-IV.
Кодировка CP866, разработанная на основе альтернативной кодировки ГОСТ, создана специально для ОС MS-DOS, в которой часто используются символы псевдографики. В этой кодировке эти символы имеют те же коды, что и в стандартном IBM PC совместимом компьютере.
Альтернативная кодировка ГОСТ, которая имеет два варианта, совпадает с CP866 по позициям для букв русского алфавита и знакам псевдографики. Основная кодировка ГОСТ совпадает с ISO 8859-5 только по всем знакам русских букв, кроме заглавной буквы Ё.
Использование CP1251 обусловлено почти исключительно влиянием на компьютерные технологии разработок фирмы Microsoft. В ней наиболее полно по сравнению с I, II, IV представлены такие символы как , , №, различные виды кавычек и тире и т. п.
Кодировка koi8-r основана на стандартах по обмену информацией, используемых на компьютерах под управлением ОС Unix, CP/M и некоторых других с середины 1970-х. В 1993 она стандартизирована в Internet документом RFC1489.
Кодировка Unicode опирается на каталог символов UCS (Universal Character Set) стандарта ISO 10646. UCS может содержать до 2
Достаточно широко используется кодирование на основе ASCII:
В кодировке VI нет видимого символа для Ъ.
Далее следует таблица, в которой представлены все перечисленные способы кодирования букв русского алфавита. В этой таблице в колонке 1 находятся символы букв, в колонке 2 часть названия букв в Unicode 3.2 (названия строчных кириллических букв начинается словами CYRILLIC SMALL LETTER, а заглавных — CYRILLIC CAPITAL LETTER, т. о., полное название буквы Д — CYRILLIC CAPITAL LETTER DE), в колонках с I по V коды десятичные и шестнадцатеричные соответствующих таблиц кодировки, а в колонке VI — символ ASCII для КОИ-7.
Кроме перечисленных можно встретить еще используемую до введения кодировок ГОСТ болгарскую кодировку, называемую также MIC, Interprog или «старый вариант ВЦ АН СССР». На компьютерах под управлением Macintosh OS используется также своя собственная таблица кодировки для русских букв, по своему набору знаков почти совпадающая с CP1251.
< Дополнительный материал 2 || Дополнительный материал 3 || Дополнительный материал 4 >
Как устроен Юникод и зачем он нужен (в том числе и вам)
Это статья о том, что помогает нам выводить буквы на экран почти во всех компьютерах и смартфонах мира. Чисто для кругозора и понимания мира информационных технологий.
7-битная кодировка: первая таблица символов
Так-то компьютеры понятия не имеют про буквы и цифры. Они знают только единицы и нули.
Чтобы компьютер мог вывести на экран буквы, цифры и другие символы, ему их нужно две вещи:
- Знать, как эти символы выглядят, — какие пиксели зажигать, какие нет.
- Знать, какой символ какому коду соответствует, — чтобы выводить нужные символы.
Когда компьютеры только появлялись, для решения этой задачи придумали таблицу символов: в ней хранились рисунки символов и их код. Компьютер получал команды «выведи символ номер такой-то», он находит такой-то номер, запоминал рисунок символа, выводил его на экран и повторял это быстро-быстро, чтобы символов на экране было много.
В 1960-х годах, когда персональные компьютеры только появляться в США, в таблицах была только латиница и математические символы. Ещё были управляющие коды — они сообщали компьютеру, что делать с данными дальше. Всего таких символов набралось 127, а такая таблица называлась ASCII (Американский стандарт представления информации):
Таблица ASCIIКаждый символ в этой таблице можно закодировать в семи битах (нолях и единицах), что в сумме давало 2⁷ = 128 символов:
Кодирование и шифрование — в чём разница?
000 0000 ← самый первый символ в таблице
…
111 1111 ← последний символ в таблице
Например, если считать с нуля, то заглавная буква A стоит на 65-м месте в таблице. Число 65 в десятичной системе — это 1000001 в двоичной, и это занимает как раз 7 бит.
Проблема этой таблицы в том, что с ней не получится закодировать русский текст — в таблице ASCII нет русских букв. И болгарский тоже не получится, как и китайский, арабский и прочие языки, где есть свои начертания букв.
8-битная кодировка: добавляются национальные символы
Чтобы компьютер мог выводить символы из других языков, семибитную таблицу кодировки расширили до восьмибитной. Это значит, что каждый символ в ней кодировался уже восемью битами, а в таблице могло поместиться 2⁸ = 256 символов.
В СССР такой восьмибитной таблицей стала КОИ-8 — в ней добавились символы русского алфавита и элементы псевдографики. В международном формате эта кодировка известна как KOI8-R. Для сохранения обратной совместимости первые 128 символов совпадают с кодировкой ASCII:
Что такое обратная совместимость
Кодировка КОИ-8, символы 129—256Хитрость этой кодировки в том, что если отбросить первый бит и превратить её в семибитную, то все почти все русские буквы превратятся в такие же латинские:
А → A
Б → B
Ц →C и так далее
Это было сделано для сохранения максимальной совместимости текстов: если его открыть на компьютере, где нет КОИ-8, то текст всё равно получится прочитать, пусть и на латинице. Это прямо хардкорная обратная совместимость, но тогда это было необходимо: памяти было мало.
Проблема символьных языков
Восьмибитная кодировка решила проблему многих языков: дополнительные 128 ячеек позволили разместить много национальных букв алфавита. Но осталась проблема с другими языками, где дополнительных символов нужно гораздо больше, например:
- китайский,
- корейский,
- японский,
- тамильский,
- язык чероки,
- эфиопский.
В итоге каждая страна с такой письменностью делала свои таблицы кодировок. Это неудобно для всех, у кого нет таких таблиц: при открытии файла получался бессмысленный набор символов из той кодировки, что была под рукой.
Интернетные байки
В конце девяностых и начале двухтысячных в русскоязычном интернете была проблема с кодировками русских символов. В ходу было несколько восьмибитных кодировок: KOI-8R, Windows 1251 и ещё отдельная для MacOS. На главных страницах сайтов можно было прямо выбрать, в какой вам кодировке отобразить сайт. Не все браузеры поддерживали все эти кодировки, приходилось выкручиваться. Админы делали разные версии сайтов в разной кодировке — буквально клали на сервер разные файлы для разных кодировок.
По мере распространения компьютеров с Windows сайты стали делать в кодировке Win-1251, а потом все переползли на Юникод.
Юникод
Чтобы решить все проблемы с кодировками во всех странах, придумали Unicode — это сокращение от слов universal code (универсальный код). Идея в том, чтобы собрать все кодировки в одном месте — это позволит прочитать любой текст в любой стране, набранный на любом языке мира.
В Юникоде можно закодировать 1 112 064 символов — букв, знаков, иерогрифов, эмодзи, пиктограмм, глифов и других элементов письменности. Сейчас в Юникоде занято примерно 150 тысяч символов, но этого уже достаточно, чтобы охватить почти всю письменность мира. И, соответственно, ещё миллион символов ждёт, когда мы их придумаем.
Все современные операционные системы поддерживают Юникод, поэтому сейчас мы можем спокойно открыть любые файлы с китайскими иероглифами или арабской вязью.
Вот несколько примеров таблиц с разными символами Юникода. Числа под каждым символом — это порядковый номер символа в общей таблице.
КириллицаСамое начало таблицы общих иероглифов CJK — Китая, Японии и КореиОсновной набор эмодзиЭмодзи про дорогу и знакиПринципы Юникода
Гарантии стабильности — каждый символ всегда остаётся на своём месте. Даже если несколько лет спустя выяснится, что в таблицу забыли добавить важный для языка символ, он появится не рядом со своим языком, а на новой пустой позиции. Чтобы сгруппировать элементы языка в одном месте, используют национальные порядки сортировки, а не меняют записи в таблице. Это значит, что каждая новая версия Юникода полностью обратно совместима со всеми предыдущими.
Динамическая компоновка. Многие символы в Юникоде получаются соединением двух других, например A + ¨ = Ä. Есть исключения, но на общем фоне их немного.
Без оформления. Задача Юникода — передать смысл текста, а не его внешний вид. Это значит, что в кодировке нет правил оформления или выделения слов цветом.
Юникод кодирует простой текст без оформления. Считается, что простой текст должен хранить достаточно данных, чтобы читаемо отобразить его, и больше ничего.
Что не входит в Юникод
Кажется, что в Юникоде достаточно места, чтобы не фильтровать символы, а добавлять всё подряд. Но на деле есть свои ограничения:
- малоизвестная письменность, про которую пока мало данных;
- языки и письменности, где нет устоявшихся стандартов;
- нетекстовая письменность, например иератика и демотика — часть египетской клинописи (египетские иероглифы, кстати, в Юникоде есть).
Что дальше
В следующей части разберём, как символы Юникода кодируются и хранятся в виде наборов битов. Это не так просто, как кажется: нужно учесть технические ограничения при передаче данных и уметь переводить одни символы в другие.
Текст:
Михаил Полянин
Редактор:
Максим Ильяхов
Художник:
Алексей Сухов
Корректор:
Ирина Михеева
Вёрстка:
Кирилл Климентьев
Соцсети:
Виталий Вебер
RFC 2319: набор украинских символов KOI8-U
RFC 2319: набор украинских символов KOI8-U [RFC Home] [TEXT|PDF|HTML] [Tracker] [IPR] [Errata] [Информационная страница] INFORMATIONAL
Errata Exist
Сетевая рабочая группа KOI8-U Рабочая группа Запрос комментариев: 23–19 апреля 1998 г. Категория: Информационная Украинский набор символов KOI8-U Статус этого меморандума В этом меморандуме содержится информация для интернет-сообщества. Оно делает не указывать какой-либо стандарт Интернета. Распространение этого Памятка не ограничена. Уведомление об авторских правах Авторское право (C) Интернет-сообщество (1998). Все права защищены. Абстрактный В этом документе представлена информация о кодировке символов KOI8-U. (KOI8 украинский), который является стандартом де-факто в украинском Интернете сообщество. KOI8-U совместим с KOI8-R (RFC 1489) во всех русскими буквами и дополняется четырьмя украинскими буквами, которые местоположения соответствуют ISO-IR-111. Официальный сайт КОИ8-У Рабочая группа http://www.net.ua. Введение В этом документе представлена информация о кодировке символов KOI8-U. (KOI8 украинский) широко используется в украинском интернет-сообществе для почты и обмена новостями, а также для представления WWW-информации ресурсы на украинском языке.Первоначально спецификация предложенного стандарта koi8-u была официально принято конференцией Почтмейстеров Украинского Интернета Провайдеры услуг в Славске осенью 1992 представил Игорь Свиридов из Киева и Стас Вороний из Харькова. Позднее в июне 1995 г. данная спецификация была дополнена УКРАИНСКИМ ГТО С ВВЕРХОМ. KOI8-U (украинский KOI8) является стандартом де-факто, поддерживаемым во многих операционные системы и пользовательские интернет-приложения, включая кодирование таблицы, шрифты, поддержка локали для многих операционных систем и среды. Имя набора символов MIME: koi8-u Информационная рабочая группа КОИ8-У [Страница 1]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Отношение к другим RFC Этот стандарт основан на нескольких опубликованных стандартах: RFC1489 (он полностью совместим по всем русским буквам), RFC-1345, ISO-IR-111, ИСО 10646. Совместимость с другими наборами символов Нижняя часть Украинского набора символов КОИ8-У представляет собой полный копия ASCII, как она используется в KOI8-R и других не-ASCII кодовые страницы. Верхняя часть набора символов КОИ8-У содержит все русские буквы, определенные в КОИ8-Р, и четыре украинские буквы (#164, #180 - укр. т.е. #166, #182 - укр. i, #167, #183 - укр. йи, #173, #189- укр. ghe с переворотом), расположение которых соответствует ISO-IR-111. элементы BOX DRAWINGS в других позициях (которые не используются украинские буквы) такие же, как в кодировке KOI8-R. Список все отличия КОИ8-Р от предлагаемого КОИ8-У приведены в ПРИЛОЖЕНИЕ. Спецификация верхней части кодовой страницы KOI8-U Описание всех знаков верхней половинки КОИ8-У кодовая страница указана в соответствии с набором символов Unicode ISO 10646 (UCS). Таблица кодировок KOI8-U в формате RFC1345 приведена в Приложении Б. <десятичный> <шестнадцатеричный код><описание> 128 80 U2500 КОРОБКИ ЧЕРТЕЖИ СВЕТЛЫЕ ГОРИЗОНТАЛЬНЫЕ 12981 U2502 КОРОБОЧНЫЕ ЧЕРТЕЖИ СВЕТ ВЕРТИКАЛЬНЫЙ 130 82 U250C КОРОБКИ ЧЕРТЕЖИ СВЕТ ВНИЗ И СПРАВА 131 83 U2510 КОРОБКА ЧЕРТЕЖИ ПОДСВЕТКА ВНИЗ И ВЛЕВО 132 84 U2514 КОРОБКИ ЧЕРТЕЖИ ЗАЖИГАЮТСЯ ВВЕРХ И СПРАВА 133 85 U2518 КОРОБКИ ЧЕРТЕЖИ ЗАЖИГАЮТСЯ ВВЕРХ И ВЛЕВО 134 86 U251C КОРОБОЧНЫЕ ЧЕРТЕЖИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И СПРАВА 135 87 U2524 КОРОБКИ ЧЕРТЕЖИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И СЛЕВА 136 88 U252C КОРОБКИ ЧЕРТЕЖИ ВНИЗ И ГОРИЗОНТАЛЬНО 137 89U2534 КОРОБКИ ЧЕРТЕЖИ ПОДСВЕТКА И ГОРИЗОНТАЛЬНО 138 8A U253C КОРОБОЧНЫЕ ЧЕРТЕЖИ СВЕТИЛЬНЫЕ ВЕРТИКАЛЬНЫЕ И ГОРИЗОНТАЛЬНЫЙ 139 8B U2580 ВЕРХНЯЯ ПОЛОВИНА БЛОКА 140 8C U2584 НИЖНЯЯ ПОЛУБЛОК 141 8D U2588 ПОЛНЫЙ БЛОК 142 8E U258C ЛЕВАЯ ПОЛОВИНА БЛОКА 143 8F U2590 ПРАВАЯ ПОЛУБЛОК Информационная рабочая группа КОИ8-У [Страница 2]
RFC 2319Украинский набор символов KOI8-U, апрель 1998 г. 144 90 U2591 СВЕТЛЫЙ ОТТЕНОК 145 91 U2592 СРЕДНИЙ ОТТЕНОК 146 92 U2593 ТЕМНЫЙ ОТТЕНОК 147 93 U2320 ВЕРХНЯЯ ПОЛОВИНА ЦЕЛАЯ 148 94 U25A0 ЧЕРНЫЙ КВАДРАТ 149 95 U2219 ПУЛЯ ОПЕРАТОР 150 96 U221A КВАДРАТНЫЙ КОРЕНЬ 151 97 U2248 ПОЧТИ РАВНО 152 98 U2264 МЕНЬШЕ ИЛИ РАВНО 153 99U2265 БОЛЬШЕ ИЛИ РАВНО 154 9A U00A0 НЕРАЗРЫВНЫЙ ПРОБЕЛ 155 9B U2321 НИЖНЯЯ ПОЛОВИНА ИНТЕГРАЛЬНАЯ 156 9C U00B0 ЗНАК СТЕПЕНИ 157 9D U00B2 НАДПИСЬ ДВА 158 9E U00B7 СРЕДНЯЯ ТОЧКА 159 9F U00F7 ЗНАК ОТДЕЛЕНИЯ 160 A0 U2550 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ГОРИЗОНТАЛЬНЫЙ 161 A1 U2551 ЧЕРТЕЖИ В КОРОБКЕ ДВОЙНАЯ ВЕРТИКАЛЬНАЯ 162 A2 U2552 КОРОБКИ ЧЕРТЕЖИ ВНИЗ ОДИНОЧНЫЙ И СПРАВА ДВОЙНОЙ 163 A3 U0451 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IO 164 A4 U0454 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ БУКВА IE 165 A5 U2554 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ВПРАВО 166 A6 U0456 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА БЕЛОРУССКИЙ- УКРАИНСКИЙ I 167 A7 U0457 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 168 A8 U2557 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ВЛЕВО 169A9 U2558 ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНОЧНАЯ И ДВОЙНАЯ СПРАВА 170 AA U2559 КОРОБКА ЧЕРТЕЖИ ДВОЙНАЯ И ПРАВАЯ ОДИНАРНАЯ 171 AB U255A КОРОБОЧНЫЕ ЧЕРТЕЖИ ДВОЙНАЯ ВВЕРХ И ВПРАВО 172 AC U255B ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНАРНАЯ И СЛЕВА ДВОЙНАЯ 173 AD U0491 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GHE С ВВЕРХОМ 174 AE U255D КОРОБОЧНЫЕ ЧЕРТЕЖИ УДВОИТЬ ВВЕРХ И ВЛЕВО 175 AF U255E КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНАЯ ОДИНОЧНАЯ И ПРАВЫЙ ДВОЙНОЙ 176 B0 U255F ЧЕРТЕЖИ КОРОБКИ ВЕРТИКАЛЬНАЯ ДВОЙНАЯ И ПРАВИЛЬНЫЙ ОДИН 177 B1 U2560 ЧЕРТЕЖИ В КОРОБКЕ ДВОЙНАЯ ВЕРТИКАЛЬНАЯ И ПРАВАЯ 178 B2 U2561 КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНАЯ ОДИНОЧНАЯ И ЛЕВЫЙ ДВОЙНОЙ 179B3 U0401 ЗАГЛАВНАЯ БУКВА IO 180 B4 U0404 ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ ИП 181 B5 U2563 ЧЕРТЕЖИ КОРОБКИ ДВОЙНОЙ ВЕРТИКАЛЬНЫЙ И ЛЕВЫЙ 182 B6 U0406 ЗАГЛАВНАЯ БУКВА КИРИЛЛИЦЫ БЕЛОРУССКИЙ-УКРАИНСКИЙ I 183 B7 U0407 ЗАГЛАВНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 184 B8 U2566 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ГОРИЗОНТАЛЬНО 185 B9 U2567 ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНОЧНЫЕ И Информационная рабочая группа КОИ8-У [Страница 3]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ГОРИЗОНТАЛЬНЫЙ ДВОЙНОЙ 186 BA U2568 КОРОБКИ ЧЕРТЕЖИ UP ДВОЙНЫЕ И ГОРИЗОНТАЛЬНЫЙ ОДИНАРНЫЙ 187 BB U2569 ЧЕРТЕЖИ КОРОБКИ ДВОЙНОЙ И ГОРИЗОНТАЛЬНЫЙ 188 BC U256A КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНЫЕ ОДИНОЧНЫЕ И ГОРИЗОНТАЛЬНЫЙ ДВОЙНОЙ 189 BD U0490 ЗАГЛАВНАЯ БУКВА GHE С ВВЕРХОМ 190 BE U256C КОРОБОЧНЫЕ ЧЕРТЕЖИ ДВОЙНОЙ ВЕРТИКАЛЬНЫЙ И ГОРИЗОНТАЛЬНЫЙ 191 BF U00A9 ЗНАК АВТОРСКОГО ПРАВА 192 C0 U044E СТРОЧНАЯ БУКВА Ю 193 C1 U0430 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА A 194 C2 U0431 СТРОЧНАЯ БУКВА BE 195 C3 U0446 СТРОЧНАЯ БУКВА ТСЕ 196 C4 U0434 СТРОЧНАЯ БУКВА DE 197 C5 U0435 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IE 198 C6 U0444 СТРОЧНАЯ БУКВА EF 199 C7 U0433 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GHE 200 C8 U0445 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ХА 201 C9 U0438 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА I 202 CA U0439 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КОРОТКАЯ I 203 CB U043A СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КА 204 CC U043B СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EL 205 CD U043C СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EM 206 CE U043D СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EN 207 CF U043E СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА O 208 D0 U043F СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА PE 209D1 U044F СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА Я 210 D2 U0440 СТРОЧНАЯ БУКВА ER 211 D3 U0441 СТРОЧНАЯ БУКВА ES 212 D4 U0442 СТРОЧНАЯ БУКВА TE 213 D5 U0443 СТРОЧНАЯ БУКВА U в кириллице 214 D6 U0436 СТРОЧНАЯ БУКВА ЖЕ 215 D7 U0432 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА VE 216 D8 U044C СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА МЯГКИЙ ЗНАК 217 D9 U044B СТРОЧНАЯ БУКВА ЙЕРУ 218 DA U0437 СТРОЧНАЯ БУКВА ZE 219DB U0448 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ША 220 DC U044D СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА E 221 DD U0449 СТРОЧНАЯ БУКВА ЩА 222 DE U0447 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЧЕ 223 DF U044A СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК 224 E0 U042E ЗАГЛАВНАЯ БУКВА Ю 225 E1 U0410 ЗАГЛАВНАЯ БУКВА A 226 E2 U0411 ЗАГЛАВНАЯ БУКВА BE 227 E3 U0426 ЗАГЛАВНАЯ БУКВА ТСЕ 228 E4 U0414 ЗАГЛАВНАЯ БУКВА DE 229E5 U0415 ЗАГЛАВНАЯ БУКВА IE Информационная рабочая группа КОИ8-У [Страница 4]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. 230 E6 U0424 ЗАГЛАВНАЯ БУКВА EF 231 E7 U0413 ЗАГЛАВНАЯ БУКВА GHE 232 E8 U0425 ЗАГЛАВНАЯ БУКВА ХА 233 E9 U0418 ЗАГЛАВНАЯ БУКВА I 234 EA U0419 ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I 235 EB U041A ЗАГЛАВНАЯ БУКВА КА 236 EC U041B ЗАГЛАВНАЯ БУКВА EL 237 ED U041C ЗАГЛАВНАЯ БУКВА EM 238 EE U041D ЗАГЛАВНАЯ БУКВА EN 239EF U041E ЗАГЛАВНАЯ БУКВА О 240 F0 U041F ЗАГЛАВНАЯ БУКВА PE 241 F1 U042F ЗАГЛАВНАЯ БУКВА Я 242 F2 U0420 ЗАГЛАВНАЯ БУКВА ER 243 F3 U0421 ЗАГЛАВНАЯ БУКВА ES 244 F4 U0422 ЗАГЛАВНАЯ БУКВА TE 245 F5 U0423 ЗАГЛАВНАЯ БУКВА U 246 F6 U0416 ЗАГЛАВНАЯ БУКВА ЖЕ 247 F7 U0412 ЗАГЛАВНАЯ БУКВА VE 248 F8 U042C ЗАГЛАВНАЯ КИРИЛЛИЧНАЯ БУКВА МЯГКИЙ ЗНАК 249F9 U042B ЗАГЛАВНАЯ БУКВА ЕРУ 250 FA U0417 ЗАГЛАВНАЯ БУКВА ZE 251 FB U0428 ЗАГЛАВНАЯ БУКВА ША 252 FC U042D ЗАГЛАВНАЯ БУКВА Е 253 FD U0429 ЗАГЛАВНАЯ БУКВА ЩА 254 FE U0427 ЗАГЛАВНАЯ БУКВА ЧЕ 255 FF U042A КИРИЛЛИЧНАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК Вопросы безопасности Этот меморандум не вызывает никаких известных проблем с безопасностью. Благодарности Настоящая редакция этого документа подготовлена совместными усилиями Рабочей группы КОИ8-У и является результатом широкого обсуждения в Украинская группа новостей USENET ukr.nodes и консенсус, достигнутый среди большинство украинских интернет-провайдеров. Особая признательность: Андрей Чернов, автор первого в Интернете RFC 1489описание набора русских символов KOI8-R; Игорю Свиридову за первоначальную работу по созданию и поддержка набора символов KOI8-U и его реализация в первой электронной версии. почтовые продукты. Информационная рабочая группа КОИ8-У [Страница 5]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Многие люди внесли свой вклад в раннюю работу над кодировкой koi8-u: Станислав Владимирович ВороныйСергей Вакуленко Лена Савченко Игорь Романенко kiev.ua> Руслан Белкин Андрей Блохинцев Рекомендации [1] Чернов А., "Регистрация кириллического набора символов", RFC 1489, июль 1993 г. [2] БАЗА СИМВОЛОВ UNICODE 2.0. - ftp://unicode.org/pub/2.0- Обновление/UnicodeData-2.0.14.txt [3] Украинские буквы в koi8-u и других наборах символов ftp://ftp.ua.net/pub/info/encodings/koi8-u/ukr_chars_in_koi8- u_and_others.txt, июнь 1995 г. [4] ECMA-кириллица. - ftp://dkuug.dk/i18n/charmaps.all/ECMA- кириллица [5] Симонсен, К., «Мнемоника символов и наборы символов» RFC 1345, июнь 1992 г. Список рабочей группы КОИ8-У Координатор: Александр Еременко Юрий Демченко Виктор Форсюк Тарас Гейченко Павел Гульчук Дмитрий Кохманюк Борис Мостовой Елена Панченко Игорь Романенко net> Евгений Шерстобитов Андрей Стесин Игорь Свиридов Роман Александрович Ткачук Информационная рабочая группа КОИ8-У [Страница 6]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ПРИЛОЖЕНИЕ ОТЛИЧИЕ KOI8-U от KOI8-R (RFC 1489) KOI8-U совместим с KOI8-R во всех кириллических буквах и завершает его четырьмя украинскими буквами УКРАИНСКИЙ ИЭ №164, №180, КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БЕЛОРУССКАЯ-УКРАИНСКАЯ I #166, #182, УКРАИНСКАЯ ЙИ №167, №183, УКРАИНСКОЕ ГХЕ С ВВЕРХОМ №173, №189. <десятичный> <шестнадцатеричный код><описание> 164 A4 U0454 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ БУКВА IE 166 A6 U0456 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА БЕЛОРУССКИЙ-УКРАИНСКИЙ I 167 A7 U0457 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 173 г. н.э. U0491 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ ГЕ С ПОДЪЕМОМ 180 B4 U0403 ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ ИП 182 B6 U0406 ЗАГЛАВНАЯ БУКВА КИРИЛЛИЦЫ БЕЛОРУССКИЙ-УКРАИНСКИЙ I 183 B7 U0407 ЗАГЛАВНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 189 BD U0490 ЗАГЛАВНАЯ БУКВА УКРАИНСКОЕ GHE С ПОДЪЕМОМ Информационная рабочая группа КОИ8-У [Страница 7]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ПРИЛОЖЕНИЕ Б Таблица кодировки KOI8-U в формате RFC1345 &кодировка KOI8-U &rem источник: RFC 2319 &рем Мибенум: 2088 &rem источник: http://www.net.ua/KOI8-U/ &биты 8 &код 0 NU SH SX EX ET EQ AK BL BS HT LF VT FF CR SO SI DL D1 D2 D3 D4 NK SY EB CN EM SB EC FS GS RS US СП! " Nb DO % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? А Б В Г Д Е Ж Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ы Z <( // )> '> _ '! АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЭЮЯ (! !! !) '? ДТ hh vv dr dl ur ul vr vl dh uh vh TB LB FB lB RB .S :S ?S Iu fS Sb RT ?2 =< >= NS Il DG 2S .M -: HH VV dR io ie DR II yi LD ur Ur UR uL g3 UL vR Vr VR vL IO IE VL II YI DH uH Uh UH vH G3 VH Co ju a= b= c= d= e= f= g= h= i= j= k= l= m= n= o= p= ja r= s= t= u= z% v= %' y= z= s% je sc c% =' JU A= B= C= D= E= F= G= H= I= J= K= L= M= N= O= P= JA R= S= T= U= Z% V= %" Y= Z= S% JE Sc C% =" Информационная рабочая группа КОИ8-У [Страница 8]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Полное заявление об авторских правах Авторское право (C) Общество Интернета (1998 г.). Все права защищены. Этот документ и его переводы могут быть скопированы и предоставлены другие и производные работы, которые комментируют или иным образом объясняют это или содействовать в его реализации, могут быть подготовлены, скопированы, опубликованы и распространяется полностью или частично без ограничения каких-либо вид, при условии, что приведенное выше уведомление об авторских правах и этот параграф включены во все такие копии и производные работы. Однако это сам документ не может быть изменен каким-либо образом, например, путем удаления уведомление об авторских правах или ссылки на Internet Society или другие Интернет-организациям, за исключением случаев, когда это необходимо для целей разработка интернет-стандартов, и в этом случае процедуры для авторские права, определенные в процессе Интернет-стандартов, должны быть следовала или по мере необходимости переводила его на языки, отличные от Английский. Ограниченные разрешения, предоставленные выше, являются бессрочными и не будут отозвано Internet Society или его правопреемниками или правопреемниками. Настоящий документ и информация, содержащаяся в нем, предоставлены на Основа «КАК ЕСТЬ» и ИНТЕРНЕТ-ОБЩЕСТВО И ИНТЕРНЕТ-ИНЖИНИРИНГ TASK FORCE ОТКАЗЫВАЕТСЯ ОТ ВСЕХ ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВКЛЮЧАЯ НО НЕ ОГРАНИЧИВАЯСЯ ЛЮБОЙ ГАРАНТИЕЙ ТОГО, ЧТО ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИИ ЗДЕСЬ НЕ БУДЕТ НАРУШАТЬ НИКАКИХ ПРАВ ИЛИ ЛЮБЫХ ПОДРАЗУМЕВАЕМЫХ ГАРАНТИЙ КОММЕРЧЕСКАЯ ПРИГОДНОСТЬ ИЛИ ПРИГОДНОСТЬ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ. Информационная рабочая группа КОИ8-У [Страница 9]
Набор символов KOI-7 (Short KOI)
Набор символов KOI-7 (Short KOI) Используется в бывшем Советском Союзе для кодирования как латиницы, так и кириллицы. (Русские) алфавиты в 7-битном пространстве ASCII G0, со строчной латиницей буквы (и некоторые символы) в столбцах 6 и 7 заменены кириллицей в верхнем регистре буквы «по звучанию». Таким образом, русский текст КОИ-7 все еще читается на Отображение только в формате ASCII и возможность ввода на клавиатуре ASCII. Обычно используется в электронная почта. ПРИМЕЧАНИЕ: Эта страница НЕ закодирована в KOI-7, так как ни один известный веб-браузер будет отображать его правильно; вместо этого он кодируется в UTF-8. Легенда:
char 8) код символа
Hex Шестнадцатеричный (с основанием 16) код символа
Символ Dec Col/Row Oct Hex Имя и описание
( ) 32 02/00 40 20 ПРОБЕЛ (!) 33 01.02.41 21 ВОСКЛИЦАТЕЛЬНЫЙ ЗНАК ("") 34 02/02 42 22 КАвычки (#) 35 02/03 43 23 ЗНАК ЦИФРЫ ($) 36 02/04 44 24 ЗНАК ДОЛЛАРА (%) 37 02/05 45 25 ЗНАК ПРОЦЕНТА (&) 38 02/06 46 26 АМПЕРСАНД (') 39 02/07 47 27 АПОСТРОФ (() 40 02/08 50 28 ЛЕВАЯ СКОБКА ()) 41 02/09 51 29 ПРАВАЯ СКОБКА (*) 42 02/10 52 2A ЗВЕЗДОЧКА (+) 43 02/11 53 2B ЗНАК ПЛЮС (,) 44 02/12 54 2С ЗАПЯТАЯ (-) 45 02/13 55 2D ДЕФИС, МИНУС (.) 46 02/14 56 2E ПЕРИОД, ПОЛНАЯ ОСТАНОВКА (/) 47 15.02 57 2Э СОЛИДУС, СЛЕШ (0) 48 03/00 60 30 ЗНАЧНЫЙ НОЛЬ (1) 4903/01 61 31 ЦИФРА ЕДИНИЦА (2) 50 03/02 62 32 ЦИФРА ДВА (3) 51 03/03 63 33 ЦИФРА ТРИ (4) 52 03/04 64 34 ЦИФРА ЧЕТЫРЕ (5) 53 03/05 65 35 ЦИФРА ПЯТЬ (6) 54 03/06 66 36 ЦИФРА ШЕСТЬ (7) 55 03/07 67 37 ЦИФРА СЕДЬМАЯ (8) 56 03/08 70 38 ЦИФРА ВОСЕМЬ (9) 57 03/09 71 39 ЦИФРА ДЕВЯТЬ (:) 58 03/10 72 3A ТОЛСТАЯ КИШКА (;) 59 03/11 73 3B ТОЧКА С ЗАПЯТОЙ (<) 60 03/12 74 3C ЗНАК "МЕНЬШЕ", ЛЕВАЯ УГЛОВАЯ СКОБКА (=) 61 03/13 75 3D ЗНАК РАВНО (>) 62 03/14 76 3E ЗНАК БОЛЬШЕ, ПРЯМАЯ СКОБКА (?) 63 03/15 77 3F ВОПРОСИТЕЛЬНЫЙ ЗНАК (@) 64 04/00 100 40 КОММЕРЧЕСКОЕ ОБЪЯВЛЕНИЕ НА ЗНАКЕ (A) 65 04/01 101 41 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A (B) 66 04/02 102 42 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА B (C) 67 04/03 103 43 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА C (D) 68 04/04 104 44 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА D (Э) 6905/04 105 45 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E (F) 70 04/06 106 46 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА F (G) 71 04/07 107 47 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА G (H) 72 04/08 110 48 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА H (I) 73 04/09 111 49 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА I (J) 74 04/10 112 4A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА J (K) 75 04/11 113 4B ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА K (L) 76 04/12 114 4C ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА L (M) 77 04/13 115 4D ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА M (N) 78 04/14 116 4E ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА N (O) 79 04/15 117 4F ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O (P) 80 05/00 120 50 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА P (Q) 81 05/01 121 51 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Q (R) 82 05/02 122 52 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА R (S) 83 05/03 123 53 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА S (T) 84 05/04 124 54 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА T (U) 85 05/05 125 55 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U (V) 86 05/06 126 56 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА V (W) 87 05/07 127 57 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА W (X) 88 05/08 130 58 ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА X (Д) 89) 94 05/14 136 5E CIRCUMFLEX АКЦЕНТ (_) 95 05/15 137 5F НИЖНЯЯ ЛИНИЯ, ПОДЧИНКА (Ю) 96 06/00 140 60 (`) ЗАГЛАВНАЯ БУКВА Ю (А) 97 06/01 141 61 (а) ЗАГЛАВНАЯ БУКВА А (Б) 98 02/06 142 62 (б) ЗАГЛАВНАЯ БУКВА ВЕ (Ц) 99 03/06 143 63 (c) ЗАГЛАВНАЯ БУКВА ЦЭ (Д) 100 06/04 144 64 (г) ЗАГЛАВНАЯ БУКВА DE (Е) 101 05/06 145 65 (e) ЗАГЛАВНАЯ БУКВА IE (Ф) 102 06/06 146 66 (f) ЗАГЛАВНАЯ БУКВА EF (Г) 103 07/06 147 67 (ж) ЗАГЛАВНАЯ БУКВА ГЕ (Х) 104 08/06 150 68 (h) ЗАГЛАВНАЯ БУКВА HA (И) 105 06/09151 69 (i) ЗАГЛАВНАЯ БУКВА I (Й) 106 06/10 152 6A (j) ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I (К) 107 06/11 153 6Б (к) ЗАГЛАВНАЯ БУКВА КА (Л) 108 06/12 154 6C (л) ЗАГЛАВНАЯ БУКВА EL (М) 109 06/13 155 6D (м) ЗАГЛАВНАЯ БУКВА ЭМ (Н) 110 06/14 156 6E (н) ЗАГЛАВНАЯ БУКВА EN (О) 111 06/15 157 6F (o) ЗАГЛАВНАЯ БУКВА O (П) 112 07/00 160 70 (р) ЗАГЛАВНАЯ БУКВА PE (Я) 113 01.