Таблица кодов символов Windows-1251
Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Данная кодировка пользуется довольно большой популярностью в восточно-европейских странах. Windows-1251 выгодно отличается от других 8-битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в традиционной русской типографике для обычного текста (отсутствует только знак ударения). Кириллические символы идут в алфавитном порядке.
Windows-1251 также содержит все символы для близких к русскому языку языков: белорусского, украинского, сербского, македонского и болгарского.
На практике этого оказалось достаточно, чтобы кодировка Windows-1251 закрепилась в интернете вплоть до распространения UTF-8.
Dec | Hex | Символ | Dec | Hex | Символ | |
---|---|---|---|---|---|---|
000 | 00 | NOP | 128 | 80 | Ђ | |
001 | 01 | SOH | 129 | 81 | Ѓ | |
002 | 02 | STX | 130 | 82 | ‚ | |
003 | 03 | ETX | 131 | 83 | ѓ | |
004 | 04 | EOT | 132 | 84 | „ | |
005 | 05 | ENQ | 133 | 85 | … | |
006 | 06 | ACK | 134 | 86 | † | |
007 | 07 | BEL | 135 | 87 | ‡ | |
008 | 08 | BS | 136 | 88 | € | |
009 | 09 | TAB | 137 | 89 | ‰ | |
010 | 0A | LF | 138 | 8A | Љ | |
011 | 0B | VT | 139 | 8B | ‹ | |
012 | 0C | FF | 140 | 8C | Њ | |
013 | 0D | CR | 141 | 8D | Ќ | |
014 | 0E | SO | 142 | 8E | Ћ | |
015 | 0F | SI | 143 | 8F | Џ | |
016 | 10 | DLE | 144 | 90 | ђ | |
017 | 11 | DC1 | 145 | 91 | ‘ | |
018 | 12 | DC2 | 146 | 92 | ’ | |
019 | 13 | DC3 | 147 | 93 | “ | |
020 | 14 | DC4 | 148 | 94 | ” | |
021 | 15 | NAK | 149 | 95 | • | |
022 | 16 | SYN | 150 | 96 | – | |
023 | 17 | ETB | 151 | 97 | — | |
024 | 18 | CAN | 152 | 98 | ||
025 | 19 | EM | 153 | 99 | ™ | |
026 | 1A | SUB | 154 | 9A | љ | |
027 | 1B | ESC | 155 | 9B | › | |
028 | 1C | FS | 156 | 9C | њ | |
029 | 1D | GS | 157 | 9D | ќ | |
030 | 1E | RS | 158 | 9E | ћ | |
031 | 1F | US | 159 | 9F | џ | |
032 | 20 | SP | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | « | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | ‘ | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Ё | |
041 | 29 | ) | A9 | © | ||
042 | 2A | * | 170 | AA | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | AC | ¬ | |
045 | 2D | — | 173 | AD | | |
046 | 2E | . | 174 | AE | ® | |
047 | 2F | / | 175 | AF | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | ё | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | BA | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | BC | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | BE | ѕ | |
063 | 3F | ? | 191 | BF | ї | |
064 | 40 | @ | 192 | C0 | А | |
065 | 41 | A | 193 | C1 | Б | |
066 | 42 | B | 194 | C2 | ||
067 | 43 | C | 195 | C3 | Г | |
068 | 44 | D | 196 | C4 | Д | |
069 | 45 | E | 197 | C5 | Е | |
070 | 46 | F | 198 | C6 | Ж | |
071 | 47 | G | 199 | З | ||
072 | 48 | H | 200 | C8 | И | |
073 | 49 | I | 201 | C9 | Й | |
074 | 4A | J | 202 | CA | К | |
075 | 4B | K | 203 | CB | Л | |
076 | 4C | L | 204 | CC | М | |
077 | 4D | M | 205 | CD | Н | |
078 | 4E | N | 206 | CE | О | |
079 | 4F | O | 207 | CF | П | |
080 | 50 | P | 208 | D0 | Р | |
081 | 51 | Q | 209 | D1 | С | |
082 | 52 | R | 210 | D2 | Т | |
083 | 53 | S | 211 | D3 | У | |
084 | 54 | T | 212 | D4 | Ф | |
085 | 55 | U | 213 | D5 | Х | |
086 | 56 | V | 214 | D6 | Ц | |
087 | 57 | W | 215 | D7 | Ч | |
088 | 58 | X | 216 | D8 | Ш | |
089 | 59 | Y | 217 | D9 | Щ | |
090 | 5A | Z | 218 | DA | Ъ | |
091 | 5B | [ | 219 | DB | Ы | |
092 | 5C | \ | 220 | DC | Ь | |
093 | 5D | ] | 221 | DD | Э | |
094 | 5E | ^ | 222 | DE | Ю | |
095 | 5F | _ | 223 | DF | Я | |
096 | 60 | ` | 224 | E0 | а | |
097 | 61 | a | 225 | E1 | б | |
098 | 62 | b | 226 | E2 | в | |
099 | 63 | c | 227 | E3 | г | |
100 | 64 | d | 228 | E4 | д | |
101 | 65 | e | 229 | E5 | е | |
102 | 66 | f | 230 | E6 | ж | |
103 | 67 | g | 231 | E7 | з | |
104 | 68 | h | 232 | E8 | и | |
105 | 69 | i | 233 | E9 | й | |
106 | 6A | j | 234 | EA | к | |
107 | 6B | k | 235 | EB | л | |
108 | 6C | l | 236 | EC | м | |
109 | 6D | m | 237 | ED | н | |
110 | 6E | n | 238 | EE | о | |
111 | 6F | o | 239 | EF | п | |
112 | 70 | p | 240 | F0 | р | |
113 | 71 | q | 241 | F1 | с | |
114 | 72 | r | 242 | F2 | т | |
115 | 73 | s | 243 | F3 | у | |
116 | 74 | t | 244 | F4 | ф | |
117 | 75 | u | 245 | F5 | х | |
118 | 76 | v | 246 | F6 | ц | |
119 | 77 | w | 247 | F7 | ч | |
120 | 78 | x | 248 | F8 | ш | |
121 | 79 | y | 249 | F9 | щ | |
122 | 7A | z | 250 | FA | ъ | |
123 | 7B | { | 251 | FB | ы | |
124 | 7C | | | 252 | FC | ь | |
125 | 7D | } | 253 | FD | э | |
126 | 7E | ~ | 254 | FE | ю | |
127 | 7F | DEL | 255 | FF | я |
Описание специальных (управляющих) символов
Первоначально управляющие символы таблицы ASCII (диапазон 00-31, плюс 127) были разработаны для того, чтобы управлять устройствами аппаратных средств, таких как телетайп, ввод данных на перфоленту и др.
Управляющие символы (кроме горизонтальной табуляции, перевода строки и возврата каретки) не используются в HTML-документах.
Код | Описание |
---|---|
NUL, 00 | Null, пустой |
SOH, 01 | Start Of Heading, начало заголовка |
STX, 02 | Start of TeXt, начало текста |
ETX, 03 | End of TeXt, конец текста |
EOT, 04 | End of Transmission, конец передачи |
ENQ, 05 | Enquire. Прошу подтверждения |
ACK, 06 | Acknowledgement. Подтверждаю |
BEL, 07 | Bell, звонок |
BS, 08 | Backspace, возврат на один символ назад |
TAB, 09 | Tab, горизонтальная табуляция |
LF, 0A | Line Feed, перевод строки Сейчас в большинстве языков программирования обозначается как \n |
VT, 0B | Vertical Tab, вертикальная табуляция |
FF, 0C | Form Feed, прогон страницы, новая страница |
CR, 0D | Carriage Return, возврат каретки Сейчас в большинстве языков программирования обозначается как \r |
SO, 0E | Shift Out, изменить цвет красящей ленты в печатающем устройстве |
SI, 0F | Shift In, вернуть цвет красящей ленты в печатающем устройстве обратно |
DLE, 10 | Data Link Escape, переключение канала на передачу данных |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Device Control, символы управления устройствами |
NAK, 15 | Negative Acknowledgment, не подтверждаю |
SYN, 16 | Synchronization. Символ синхронизации |
ETB, 17 | End of Text Block, конец текстового блока |
CAN, 18 | Cancel, отмена переданного ранее |
EM, 19 | End of Medium, конец носителя данных |
SUB, 1A | Substitute, подставить. Ставится на месте символа, значение которого было потеряно или испорчено при передаче |
ESC, 1B | Escape Управляющая последовательность |
FS, 1C | File Separator, разделитель файлов |
GS, 1D | Group Separator, разделитель групп |
RS, 1E | Record Separator, разделитель записей |
US, 1F | Unit Separator, разделитель юнитов |
DEL, 7F | Delete, стереть последний символ. |
Смотрите также:
URL коды символов ACSII
URL коды символов UTF-8 диапазон от U+0400 до U+04FF
HTML Кодирование URL
Таблица кодов символов кирилицы UTF-8
Таблица Windows-1251
Windows-1251 (cp1251) — это стандартная 8-битная кодировка, разработанная компанией Microsoft. Она содержит практически все символы, которые Вы можете встретить на стандартной русской клавиатуре. Также 1251 имеет символы для таких языков, как белорусский, украинский, болгарский и сербский.
DEC | HEX | СИМВ | DEC | HEX | СИМВ | DEC | HEX | СИМВ |
000 | 00 | NOP | 086 | 56 | V | 171 | AB | « |
001 | 01 | SOH | 087 | 57 | W | 172 | AC | ¬ |
002 | 02 | STX | 088 | 58 | X | 173 | AD | |
003 | 03 | ETX | 089 | 59 | Y | 174 | AE | ® |
004 | 04 | EOT | 090 | 5A | Z | 175 | AF | Ї |
005 | 05 | ENQ | 091 | 5B | [ | 176 | B0 | ° |
006 | 06 | ACK | 092 | 5C | \ | 177 | B1 | ± |
007 | 07 | BEL | 093 | 5D | ] | 178 | B2 | І |
008 | 08 | BS | 094 | 5E | ^ | 179 | B3 | і |
009 | 09 | Табуляция | 095 | 5F | _ | 180 | B4 | ґ |
010 | 0A | LF | 096 | 60 | ` | 181 | B5 | µ |
011 | 0B | VT | 097 | 61 | a | 182 | B6 | ¶ |
012 | 0C | FF | 098 | 62 | b | 183 | B7 | · |
013 | 0D | CR | 099 | 63 | c | 184 | B8 | Ё |
014 | 0E | SO | 100 | 64 | d | 185 | B9 | № |
015 | 0F | SI | 101 | 65 | e | 186 | BA | Є |
016 | 10 | DLE | 102 | 66 | f | 187 | BB | » |
017 | 11 | DC1 | 103 | 67 | g | 188 | BC | ј |
018 | 12 | DC2 | 104 | 68 | h | 189 | BD | Ѕ |
019 | 13 | DC3 | 105 | 69 | i | 190 | BE | Ѕ |
020 | 14 | DC4 | 106 | 6A | j | 191 | BF | Ї |
021 | 15 | NAK | 107 | 6B | k | 192 | C0 | А |
022 | 16 | SYN | 108 | 6C | l | 193 | C1 | Б |
023 | 17 | ETB | 109 | 6D | m | 194 | C2 | В |
024 | 18 | CAN | 110 | 6E | n | 195 | C3 | Г |
025 | 19 | EM | 111 | 6F | o | 196 | C4 | Д |
026 | 1A | SUB | 112 | 70 | p | 197 | C5 | Е |
027 | 1B | ESC | 113 | 71 | q | 198 | C6 | Ж |
028 | 1C | FS | 114 | 72 | r | 199 | C7 | З |
029 | 1D | GS | 115 | 73 | s | 200 | C8 | И |
030 | 1E | RS | 116 | 74 | t | 201 | C9 | Й |
031 | 1F | US | 117 | 75 | u | 202 | CA | К |
032 | 20 | Пробел | 118 | 76 | v | 203 | CB | Л |
033 | 21 | ! | 119 | 77 | w | 204 | CC | М |
034 | 22 | « | 120 | 78 | x | 205 | CD | Н |
035 | 23 | # | 121 | 79 | y | 206 | CE | О |
036 | 24 | $ | 122 | 7A | z | 207 | CF | П |
037 | 25 | % | 123 | 7B | { | 208 | D0 | Р |
038 | 26 | & | 124 | 7C | | | 209 | D1 | С |
039 | 27 | ‘ | 125 | 7D | } | 210 | D2 | Т |
040 | 28 | ( | 126 | 7E | ~ | 211 | D3 | У |
041 | 29 | ) | 127 | 7F | | 212 | D4 | Ф |
042 | 2A | * | 128 | 80 | Ђ | 213 | D5 | Х |
043 | 2B | + | 129 | 81 | Ѓ | 214 | D6 | Ц |
044 | 2C | , | 130 | 82 | ‚ | 215 | D7 | Ч |
045 | 2D | — | 131 | 83 | ѓ | 216 | D8 | Ш |
046 | 2E | . | 132 | 84 | „ | 217 | D9 | Щ |
047 | 2F | / | 133 | 85 | … | 218 | DA | Ъ |
048 | 30 | 0 | 134 | 86 | † | 219 | DB | Ы |
049 | 31 | 1 | 135 | 87 | ‡ | 220 | DC | Ь |
050 | 32 | 2 | 136 | 88 | € | 221 | DD | Э |
051 | 33 | 3 | 137 | 89 | ‰ | 222 | DE | Ю |
052 | 34 | 4 | 138 | 8A | Љ | 223 | DF | Я |
053 | 35 | 5 | 139 | 8B | ‹ | 224 | E0 | а |
054 | 36 | 6 | 140 | 8C | Њ | 225 | E1 | б |
055 | 37 | 7 | 141 | 8D | Ќ | 226 | E2 | в |
056 | 38 | 8 | 142 | 8E | Ћ | 227 | E3 | г |
057 | 39 | 9 | 143 | 8F | Џ | 228 | E4 | д |
058 | 3A | : | 144 | 90 | Ђ | 229 | E5 | е |
059 | 3B | ; | 145 | 91 | ‘ | 230 | E6 | ж |
060 | 3C | < | 146 | 92 | ’ | 231 | E7 | з |
061 | 3D | = | 147 | 93 | “ | 232 | E8 | и |
062 | 3E | > | 148 | 94 | ” | 233 | E9 | й |
063 | 3F | ? | 149 | 95 | • | 234 | EA | к |
064 | 40 | @ | 150 | 96 | – | 235 | EB | л |
065 | 41 | A | 151 | 97 | — | 236 | EC | м |
066 | 42 | B | 152 | 98 | 237 | ED | н | |
067 | 43 | C | 153 | 99 | ™ | 238 | EE | о |
068 | 44 | D | 154 | 9A | љ | 239 | EF | п |
069 | 45 | E | 155 | 9B | › | 240 | F0 | р |
070 | 46 | F | 156 | 9C | њ | 241 | F1 | с |
071 | 47 | G | 157 | 9D | ќ | 242 | F2 | т |
072 | 48 | H | 158 | 9E | ћ | 243 | F3 | у |
073 | 49 | I | 159 | 9F | џ | 244 | F4 | ф |
074 | 4A | J | 160 | A0 | 245 | F5 | х | |
075 | 4B | K | 161 | A1 | Ў | 246 | F6 | ц |
076 | 4C | L | 162 | A2 | ў | 247 | F7 | ч |
077 | 4D | M | 163 | A3 | Ј | 248 | F8 | ш |
078 | 4E | N | 164 | A4 | ¤ | 249 | F9 | щ |
079 | 4F | O | 165 | A5 | Ґ | 250 | FA | ъ |
080 | 50 | P | 166 | A6 | ¦ | 251 | FB | ы |
081 | 51 | Q | 167 | A7 | § | 252 | FC | ь |
082 | 52 | R | 168 | A8 | Ё | 253 | FD | э |
083 | 53 | S | 169 | A9 | © | 254 | FE | ю |
084 | 54 | T | 170 | AA | Є | 255 | FF | я |
085 | 55 | U |
Похожие записи:
Таблица ASCII (кодировка Windows-1251)
Таблица ASCII (кодировка Windows-1251)(0) | (1) | (2) | (3) | (4) | (5) | (6) | (7) | (8) | (9) | (10) | (11) | (12) | (13) | (14) | (15) | (16) |
(17) | (18) | (19) | (20) | (21) | (22) | (23) | (24) | (25) | (26) | (27) | (28) | (29) | (30) | (31) | (32) | !(33) |
«(34) | #(35) | $(36) | %(37) | &(38) | ‘(39) | ((40) | )(41) | *(42) | +(43) | ,(44) | —(45) | . (46) | /(47) | 0(48) | 1(49) | 2(50) |
3(51) | 4(52) | 5(53) | 6(54) | 7(55) | 8(56) | 9(57) | :(58) | ;(59) | (60) | =(61) | >(62) | ?(63) | @(64) | A(65) | B(66) | C(67) |
D(68) | E(69) | F(70) | G(71) | H(72) | I(73) | J(74) | K(75) | L(76) | M(77) | N(78) | O(79) | P(80) | Q(81) | R(82) | S(83) | T(84) |
U(85) | V(86) | W(87) | X(88) | Y(89) | Z(90) | [(91) | \ (92) | ](93) | ^(94) | _(95) | `(96) | a(97) | b(98) | c(99) | d(100) | e(101) |
f(102) | g(103) | h(104) | i(105) | j(106) | k(107) | l(108) | m(109) | n(110) | o(111) | p(112) | q(113) | r(114) | s(115) | t(116) | u(117) | v(118) |
w(119) | x(120) | y(121) | z(122) | {(123) | |(124) | }(125) | ~(126) | (127) | Ђ(128) | Ѓ(129) | ‚(130) | ѓ(131) | „(132) | …(133) | †(134) | ‡(135) |
€(136) | ‰(137) | Љ(138) | ‹(139) | Њ(140) | Ќ(141) | Ћ(142) | Џ(143) | ђ(144) | ‘(145) | ’(146) | “(147) | ”(148) | •(149) | –(150) | —(151) | (152) |
™(153) | љ(154) | ›(155) | њ(156) | ќ(157) | ћ(158) | џ(159) | (160) | Ў(161) | ў(162) | Ј(163) | ¤(164) | Ґ(165) | ¦(166) | §(167) | Ё(168) | ©(169) |
Є(170) | «(171) | ¬(172) | (173) | ®(174) | Ї(175) | °(176) | ±(177) | І(178) | і(179) | ґ(180) | µ(181) | ¶(182) | ·(183) | ё(184) | №(185) | є(186) |
»(187) | ј(188) | Ѕ(189) | ѕ(190) | ї(191) | А(192) | Б(193) | В(194) | Г(195) | Д(196) | Е(197) | Ж(198) | З(199) | И(200) | Й(201) | К(202) | Л(203) |
М(204) | Н(205) | О(206) | П(207) | Р(208) | С(209) | Т(210) | У(211) | Ф(212) | Х(213) | Ц(214) | Ч(215) | Ш(216) | Щ(217) | Ъ(218) | Ы(219) | Ь(220) |
Э(221) | Ю(222) | Я(223) | а(224) | б(225) | в(226) | г(227) | д(228) | е(229) | ж(230) | з(231) | и(232) | й(233) | к(234) | л(235) | м(236) | н(237) |
о(238) | п(239) | р(240) | с(241) | т(242) | у(243) | ф(244) | х(245) | ц(246) | ч(247) | ш(248) | щ(249) | ъ(250) | ы(251) | ь(252) | э(253) | ю(254) |
я(255) | (256) | (257) | (258) | (259) | (260) | (261) | (262) | (263) | (264) | (265) | (266) | (267) | (268) | (269) | (270) | (271) |
— версия для печати
- Определение
- ASCII (англ. American Standard Code for Information Interchange) — американская стандартная таблица для кодирования печатных символов и некоторых специальных кодов.
Если у вас есть мысли по поводу данной страницы или предложение по созданию математической (см. раздел «Математика») вспомогательной памятки, мы обязательно рассмотрим ваше предложение. Просто воспользуйтесь обратной связью. |
© Школяр. Математика (при поддержке «Ветвистого древа») 2009—2016
Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5 — Микроконтроллеры для всех
Таблица ASCII
Таблица ASCII (American standard code for information interchange) является мировым стандартом для кодирования букв английского алфавита, популярных спец символов (! $ # % & и т.д.) и некоторых непечатных символов (например, возврат каретки 0x0D и перенос строки 0х0А).
Таблица создавалась те времена, когда возникла необходимость связать символы и числа. А такое соответствие необходимо было для того что бы с помощью чисел можно было передать текстовое сообщение между разными устройствами с цифровой связью.
Таблица CP1251 (windows-1251)
Эта кодировочная таблица может называться или CP1251 или Windows-1251 Это стандарт кодирования кириллических символов в операционных системах windows с русскоязычным интерфейсом.
Первая часть этой таблицы (до байта 0x7F) повторяет таблицу ASCII, а вторая часть (от 0x80 до 0xFF) кодирует кириллические символы в алфавитном порядке.
CP1251 (windows-1251)Таблица IS0-8859-5
Эта кодировка применяется в дисплеях Nextion для кодирования кириллических символов.
Стоит обратить внимание, что в данной таблице кириллические символы расположены в алфавитном порядке и сдвинуты ровно на 16 байт по сравнению с кодировочной таблицей windows-1251.
Кодировка UTF-8
(Unicode Transformation Format)
Очень распространенный формат кодирования символов, позволяющий кодировать символы переменным количеством байт.
Например, если для кодирования номера символа требуется 21 бит, то используется 4 байта для кодировки. Если для кодирования достаточно 11 бит, то используют 2 байта. А если номер символа может быть закодирован 7 битами, то используется один байт.
Кодировка UTF-8Все ASCII символы в кодировке UTF8 закодированы без изменений, то есть 1 байтом, как в стандартной таблице ASCII.
А вот остальные символы закодированы количеством байт от 2 до 4.
Кириллические символы закодированы двумя байтами.
Основные кодировки символов текста веб-страниц.
Из предыдущей заметки вы уже имеете определенное представление о том, что такое кодировка веб-страниц.
Сейчас давайте остановимся на вопросе какие бывают кодировки.
На заре развития компьютерной техники, когда компьютеры были слабые и не было большого объема памяти, кодировки представляли собой таблицу все символы, которой могли быть представлены всеми возможными комбинациями числа в 16-ричной системе счисления (это 1 байт информации) или 256 возможных символов.
По этой причине не было возможности создать единую кодировку для всех языков в мире. Каждая кодировка содержала в себе символы своего национального алфавита.
Для символов латиницы, как правило, использовалась кодировка ASCII.
Вот, как эта таблица выглядит:
Для символов кириллицы были созданы кодировки windows-1251 и KOI8-R. Это произошло из-за того, что этими кодировками занимались сразу несколько фирм, чтобы обеспечить поддержку русского языка для своих компьютеров.
Вот таблица с кодировкой Windows-1251
Кодировка KOI8-R:
При таком разнообразии кодировок, была одна проблема: если текст, который написан кириллицей воспроизвести с помощью кодировки ASCII или любой другой кодировкой, которая не содержит символов кириллицы, появляются кракозябры.
Стоило даже текст на кириллице, который сохранен в кодировке windows-1251 открыть в кодировке KOI8-R, как тут же появлялись проблемы.
Нужно было искать какое-то решение.
С развитием вычислительной мощности компьютеров, стало возможным для кодирования различным символов использовать намного больше единиц информации и решено было создать универсальную кодировку для всех языков в мире. Такой кодировкой стала кодировка UTF (Юникод).
Это огромная таблица, которая содержит более 1 миллиона закодированных символов.
Вот небольшая часть этой таблицы:
В настоящее время эта кодировка стала стандартом для всех компьютеров в мире. Юникод содержит не только символы мировых алфавитов, но и различные значки, смайлики и др. символы.
При создании современных веб-страниц, желательно пользоваться именно ей. В этом случае, ваши документы будут более универсальными и будут открываться практически во всех случаях.
А сейчас приступаем к конкретным методам, которые будут позволять менять кодировку наших веб-страниц.
Ко всем урокам курса «Быстрый старт в HTML для начинающих»
Кодировки русского текста | Практическая информатика
Исторически сложилось так, что для представления печатных символов (кодирования текста) в первых ЭВМ отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (американский стандартный код для обмена информацией), подробную информацию о которой вы можете получить при помощи команды man ascii операционной системы Linux.
Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы, т. е. содержали единицу в старшем разряде байта, отведенного для кодирования символа. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.
Среди них была и одна из первых таблиц для кодировки русских букв — ISO 8859-5 (воспользуйтесь командой man iso_8859_1 для получения кодов русских букв в этой таблице).
Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.
К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.
Так как из всех операционных систем, распространенных в то время, самыми удобными средствами работы с сетью обладали различные клоны операционной системы Unix, то эта кодировка стала фактическим стандартом в этих системах. Таковой она является и сейчас в ОС Linux. И именно эта кодировка чаще всего применяется для обмена почтой и новостями в Интернет.
Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы «обтекали» со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту — кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.
После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице (появилась возможность — ведь псевдографика в Windows не требуется), получили кодировку Windows 1251 (Win-1251).
Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли.
Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.). Мы для перекодировки файлов будем использовать ряд утилит в ОС Linux, назначение которых ясно из названия: alt2koi, win2koi, koi2win, alt2win, win2alt, koi2alt (откуда, куда, цифра 2 (two) схожа по звучанию с предлогом to, указывающим направление). Эти команды имеют одинаковый синтаксис: команда <входной_файл >выходной_файл.
Пример
Перекодируем текст, набранный в редакторе Edit в среде MS DOS, в кодировку Koi8-R. Для этого выполним команду
alt2koi file1.txt > filenew
Так как в MS DOS и Linux по разному кодируется перевод строки, рекомендуется выполнить еще команду «fromdos»:
fromdos filenew > file2.txt
Команда с обратным действием называется «todos» и имеет такой же синтаксис.
Пример
Отсортируем файл List. txt, содержащий список фамилий и подготовленный в кодировке Koi8-R, в алфавитном порядке. Воспользуемся командой sort, которая сортирует текстовый файл по возрастанию или убыванию кодов символов. Если применить ее сразу, то, например, буква В окажется в конце списка, аналогично соответствующей ей букве латинского алфавита V. Вспомнив, что в альтернативной кодировке русские буквы расположены строго по алфавиту, выполним ряд операций: перекодируем текст в альтернативную кодировку, отсортируем его и снова вернем в кодировку Koi8-R. С использованием конвейера команд получаем
koi2alt List.txt | sort | alt2koi > List_Sort.txt
В современных дистрибутивах ОС Linux решены многие проблемы, связанные с локализацией программного обеспечения. В частности утилита sort теперь учитывает особенности кодировки Koi8-R и для сортировки файла в алфавитном порядке достаточно выполнить команду
sort List.txt > List_Sort.txt
Виды кодировок символов [АйТи бубен]
В общем случае кодировка или кодовая таблица — это однозначное соответствие между подмножеством целых чисел (как правило, идущих подряд) и некоторым набором символов. Ключевым здесь является понятие символа. Символ может быть буквой (а может и не быть), может соответствовать звуку речи (а может и не соответствовать) и может быть представлен графическим знаком (но может обходиться и без какого бы то ни было видимого образа). Символ — это атом смысла, мельчайшая неделимая частица информации.
Так, латинское «А» и кириллическое «А» — это разные символы, потому что они употребляются в разных контекстах и несут в себе разную информацию.
Определяющим для любой кодировки является количество охватываемых ею кодов и, соответственно, символов. Поскольку тексты в компьютере хранятся в виде последовательности байтов, большинство кодировок естественным образом распадаются на однобайтовые, или восьмибитные, способные закодировать не больше 256 символов, и двухбайтовые, или шестнадцатибитные, чья емкость может достигать 65636 знакомест.
Если кодировка ISO 8859-5 для кириллицы так и не прижилась, первая из этой серии — кодировка ISO 8859-1, известная также под именем Latin-1, — сумела стать общепринятым стандартом для кодирования «расширенной» латиницы. В эту кодировку включены почти все символы, употребляющиеся в письменностях западноевропейских языков — французского, немецкого, испанского и т.д.
Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.
В 1991 году была предпринята попытка создать единую универсальную двухбайтовую кодировку, охватывающую все алфавиты и иероглифические системы мира. Результатом стал стандарт под названием Unicode, покрывающий не только системы письменности всех живых и большинства мертвых языков мира, но и множество музыкальных, математических, химических и прочих символов. Массовое применение Unicode в документах и программах остается делом будущего, для web- дизайнера эта кодировка имеет особое значение, так как именно она объявлена «стандартной кодировкой документа» в HTML начиная с версии 4.
В ближайшее время все более важную роль будет играть особый формат Unicode (и ISO 10646) под названием UTF-8. Эта «производная» кодировка пользуется для записи символов цепочками байтов различной длины (от одного до шести), которые с помощью несложного алгоритма преобразуются в Unicode- коды, причем более употребительным символам соответствуют более короткие цепочки. Главное достоинство этого формата — совместимость с ASCII не только по значениям кодов, но и по количеству бит на символ, так как для кодирования любого из первых 128 символов в UTF-8 достаточно одного байта (хотя, например, для букв кириллицы нужно уже по два байта).
Для указания кодировки символов web-страницы используются следующие обозначения кодовых таблиц:
На web- странице указать кодировку документа можно двумя cпособами:
Элемент meta является дочерним по отношению к разделу заголовка документа (head) и служит для указания типа и кодировки содержимого страницы. Типом содержимого является структурированный текст в формате html (text/html), используемая кодировка кириллица windows (charset=windows-1251).
Обычно используют оба способа одновременно. Например, для указания кодировки КОИ8 для украинского языка на web-странице, используют следующую структуру документа:
<?xml version="1.0" encoding="KOI8-U"?> <!DOCTYPE html PUBLIC ... > <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>Моя перша сторiнка</title> <meta http-equiv="Content-Type" content="text/html; charset=KOI8-U" /> </head> ... </html>
При сохранении текста выбирайте ту же кодировку, что указали на web-странице.
Поэкспериментируйте с различными кодировками, и вы убедитесь, что символы латинского алфавита, цифры и знаки пунктуации передаются без изменений в подавляющем большинстве из них.
Кодовая страница Windows 1251
Кодовая страница Windows 1251 Эта страница содержит таблицу кодовой страницы Microsoft Windows 1251 для русского и некоторые другие языки, написанные кириллицей. CP1251 символы включены буквально в скобки слева от каждой строки. Если вы сохраните эту страницу, у вас будет таблица CP1251, которую вы можете использовать для тестирования вашего конфигурация набора символов эмулятора терминала.Кодовая страница Microsoft Windows 1251 char dec col / row oct hex описание [] 128 08/00 200 80 КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE [] 129 08/01 201 81 Кирилическая прописная буква GJE [] 130 08/02 202 82 НИЗКАЯ 9 ОДИНОЧНАЯ ЦИТАТА [] 131 08/03 203 83 Кирилическая строчная буква GJE [] 132 08/04 204 84 НИЗКАЯ 9 ДВОЙНАЯ ЦИТАТА [] 133 08/05 205 85 ЭЛЛИПСИС [] 134 08/06 206 86 КИНЖАЛ [] 135 08/07 207 87 ДВОЙНОЙ КИНЖАЛ [] 136 08/08 210 88 ЕВРО ЗНАК [] 137 08/09 211 89 ЗА МИЛ ЗНАК [] 138 08/10 212 8A ЗАГЛАВНАЯ БУКВА LJE [] 139 08/11 213 8B ЛЕВЫЙ КРОНШТЕЙН ОДИНОЧНОЙ ЦИТАТЫ [] 140 08/12 214 8C КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE [] 141 08/13 215 8D КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE [] 142 08/14 216 8E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE [] 143 15. 08 217 8F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ [] 144 09/00 220 90 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА DJE [] 145 09/01 221 91 ВЫСОКАЯ 6 ОДИНОЧНАЯ ЦИТАТА [] 146 09/02 222 92 ВЫСОКАЯ 9 ЕДИНАЯ ЦИТАТА [] 147 09/03 223 93 ВЫСОКАЯ 6 ДВОЙНАЯ ЦИТАТА [] 148 09/04 224 94 ВЫСОКАЯ 9 ДВОЙНАЯ ЦИТАТА [] 149 09/05 225 95 БОЛЬШАЯ ЦЕНТРАЛЬНАЯ ТОЧКА [] 150 09/06 226 96 RU ТИП [] 151 07.09 227 97 EM DASH [] 152 09/08 230 98 (НЕ ОПРЕДЕЛЕННО) [] 153 09/09 231 99 ТОВАРНЫЙ ЗНАК [] 154 09/10 232 9A СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE [] 155 09/11 233 9B ПРАВЫЙ КРОНШТЕЙН ДЛЯ ОДИНОЧНОЙ ЦИТАТЫ [] 156 09/12 234 9C КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА NJE [] 157 09/13 235 9D КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА KJE [] 158 14.09 236 9E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE [] 159 15.09 237 9F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ [] 160 10/00 240 A0 НЕПРЕРЫВНОЕ ПРОСТРАНСТВО [] 161 10/01 241 A1 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U [] 162 10/02 242 A2 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ U [] 163 10/03 243 A3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE [] 164 10/04 244 ЗНАК ВАЛЮТЫ A4 [] 165 10/05 245 A5 ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ [] 166 10/06 246 A6 СЛОМАННЫЙ БАР [] 167 10/07 247 A7 ЗНАК ПАРАГРАФА [] 168 10/08 250 A8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO [] 169 10/09 251 A9 ЗНАК АВТОРСКОГО ПРАВА [] 170 10/10 252 AA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE [] 171 10/11 253 AB ЛЕВЫЙ УГОЛ ЦИТАТЫ [] 172 10/12 254 AC NOT SIGN [] 173 10/13 255 AD МЯГКИЙ ДЕФИС [] 174 10/14 256 AE ЗНАК ЗАРЕГИСТРИРОВАННОЙ ТОРГОВОЙ МАРКИ [] 175 10/15 257 AF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI [] 176 11/00 260 B0 ЗНАК, КОЛЬЦО ВЫШЕ [] 177 11/01 261 B1 ЗНАК ПЛЮС-МИНУС [] 178 11/02 262 B2 Кирилическая прописная буква БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I [] 179 11/03 263 B3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I [] 180 11/04 264 B4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE С ПОВОРОТОМ [] 181 05. 11 265 B5 МИКРОЗНАК [] 182 06/11 266 B6 ЗНАК ПИЛКРОУ [] 183 07/11 267 B7 СРЕДНЯЯ ТОЧКА [] 184 08/11 270 B8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IO [] 185 11/09 271 B9 ЗНАК NUMERO [] 186 11/10 272 BA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА УКРАИНСКИЙ IE [] 187 11/11 273 BB ЦИТАТНЫЙ ЗНАК ПРАВЫЙ УГОЛ [] 188 11/12 274 до н.э. Кирилическая строчная буква JE. [] 189 11/13 275 BD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE [] 190 14/11 276 БЫТЬ СТРОЧНОЙ КИРИЛИЧЕСКОЙ БУКВОЙ DZE [] 191 15/11 277 BF Кирилическая строчная буква YI [] 192 12/00 300 C0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A [] 193 01/12 301 C1 Кирилическая прописная буква BE [] 194 12/02 302 C2 ЗАГЛАВНАЯ БУКВА VE [] 195 12/03 303 C3 ЗАГЛАВНАЯ БУКВА GHE [] 196 12/04 304 C4 ЗАГЛАВНАЯ БУКВА DE [] 197 12/05 305 C5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE [] 198 12/06 306 C6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE [] 199 12/07 307 C7 ЗАГЛАВНАЯ БУКВА ZE [] 200 12/08 310 C8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА I [] 201 12/09 311 C9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I [] 202 12/10 312 CA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA [] 203 12/11 313 CB КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL [] 204 12/12 314 CC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM [] 205 12/13 315 CD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN [] 206 12/14 316 CE КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O [] 207 15/12 317 CF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE [] 208 13/00 320 D0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER [] 209 13/01 321 D1 ЗАГЛАВНАЯ БУКВА ES [] 210 13/02 322 D2 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE [] 211 13/03 323 D3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U [] 212 13/04 324 D4 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF [] 213 13/05 325 D5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA [] 214 13/06 326 D6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSE [] 215 13/07 327 D7 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE [] 216 13/08 330 D8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA [] 217 13/09 331 D9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА [] 218 13/10 332 DA КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК [] 219 13/11 333 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДБ ЕРУ [] 220 13/12 334 DC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК [] 221 13/13 335 DD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E [] 222 13/14 336 Кириллическая прописная буква YU [] 223 13/15 337 DF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA [] 224 14/00 340 E0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A [] 225 14/01 341 E1 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА BE [] 226 14/02 342 E2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА VE [] 227 14/03 343 E3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE [] 228 14/04 344 E4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE [] 229 14/05 345 E5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IE [] 230 14/06 346 E6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE [] 231 14/07 347 E7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE [] 232 14/08 350 E8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I [] 233 14/09 351 E9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА КОРОТКАЯ I [] 234 14/10 352 EA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA [] 235 14/11 353 EB КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EL [] 236 14/12 354 EC КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EM [] 237 14/13 355 ED Кирилическая строчная буква EN [] 238 14/14 356 EE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O [] 239 14/15 357 EF Кирилическая строчная буква PE [] 240 15/00 360 F0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ER [] 241 15/01 361 F1 Кирилическая строчная буква ES [] 242 15/02 362 F2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE [] 243 15/03 363 F3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U [] 244 15/04 364 F4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EF [] 245 15/05 365 F5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA [] 246 15/06 366 F6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSE [] 247 15/07 367 F7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE [] 248 15/08 370 F8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHA [] 249 15/09 371 F9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА [] 250 15/10 372 FA КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК [] 251 15/11 373 FB Кирилическая строчная буква YERU [] 252 15/12 374 FC Кирилическая строчная буква МЯГКИЙ ЗНАК [] 253 15/13 375 FD Кирилическая строчная буква E [] 254 15/14 376 FE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU [] 255 15/15 377 FF Кирилическая строчная буква YA
Франк да Круз, Проект Кермит, Колумбийский университет, Март 2003 г.
Каноническое имя для java.nio API | Каноническое имя для API java.io и API java.lang | Псевдоним или псевдоним | Описание |
---|---|---|---|
ЦЭСУ-8 | CESU8 | CESU8 CSCESU-8 | Юникод CESU-8 |
IBM00858 | Cp858 | cp858 858 PC-Multilingual-850 + евро cp00858 ccsid00858 | Вариант CP850 с символом евро |
IBM437 | Cp437 | ibm437 437 ibm-437 cspc8codepage437 cp437 windows-437 | MS-DOS США, Австралия, Новая Зеландия, Южная Африка |
IBM775 | Cp775 | ibm-775 ibm775 775 cp775 | ПК Балтика |
IBM850 | CP850 | cp850 cspc850 многоязычный ibm850 850 ibm-850 | MS-DOS Latin-1 |
IBM852 | Cp852 | csPCp852 ibm-852 ibm852 852 cp852 | MS-DOS Latin-2 |
IBM855 | Cp855 | ibm855 855 IBM-855 cp855 cspcp855 | IBM Кириллица |
IBM857 | Cp857 | ibm857 857 cp857 csIBM857 ibm-857 | IBM Турецкий |
IBM862 | Cp862 | csIBM862 cp862 ibm862 862 cspc862latinhebrew ibm-862 | PC Еврейский |
IBM866 | Cp866 | ibm866 866 ibm-866 csIBM866 cp866 | MS-DOS Русский |
ISO-8859-1 | ISO8859_1 | 819 ISO8859-1 l1 ISO_8859-1: 1987 ISO_8859-1 8859_1 iso-ir-100 latin1 cp819 ISO8859_1 IBM819 ISO_8859_1 IBM-819 csISOLatin1 | ISO-8859-1, латинский алфавит No. 1 |
ISO-8859-2 | ISO8859_2 | ISO8859-2 ibm912 l2 ISO_8859-2 8859_2 cp912 ISO_8859-2: 1987 iso8859_2 iso-ir-101 latin2 912 csISOLatin2 ibm-912 | Латинский алфавит № 2 |
ISO-8859-4 | ISO8859_4 | 8859_4 латинский4 l4 cp914 ISO_8859-4: 1988 ibm914 ISO_8859-4 iso-ir-110 iso8859_4 csISOLatin4 iso8859-4 914 ibm-914 | Латинский алфавит № 4 |
ISO-8859-5 | ISO8859_5 | ISO_8859-5: 1988 csISOLatinCyrillic iso-ir-144 iso8859_5 cp915 8859_5 ibm-915 ISO_8859-5 ibm915 915 кириллица ISO8859-5 | Латинский алфавит / кириллица |
ISO-8859-7 | ISO8859_7 | греческий 8859_7 греческий8 ibm813 ISO_8859-7 iso8859_7 ELOT_928 cp813 ISO_8859-7: 1987 sun_eu_greek csISOLatinGreek iso-ir-126813 iso8859-7 ECMA-118 ibm-813 | Латинский / греческий алфавит (ISO-8859-7: 2003) |
ISO-8859-9 | ISO8859_9 | ibm-920 ISO_8859-9 8859_9 ISO_8859-9: 1989 ibm920 latin5 l5 iso8859_9 cp920 920 iso-ir-148 ISO8859-9 csISOLatin5 | Латинский алфавит No. 5 |
ISO-8859-13 | ISO8859_13 | iso_8859-13 ISO8859-13 iso8859_13 8859_13 | Латинский алфавит № 7 |
ISO-8859-15 | ISO8859_15 | ISO8859-15 LATIN0 ISO8859_15_FDIS ISO8859_15 cp923 8859_15 L9 ISO-8859-15 IBM923 csISOlatin9 ISO_8859-15 IBM-923 csISOlatin0 923 LATIN9 | Латинский алфавит № 9 |
КОИ8-Р | KOI8_R | koi8_r koi8 cskoi8r | КОИ8-Р, Россия |
КОИ8-У | КОИ8_У | koi8_u | КОИ8-У, Украинский |
US-ASCII | ASCII | ANSI_X3.4-1968 cp367 csASCII iso-ir-6 ASCII iso_646.irv: 1983 ANSI_X3. 4-1986 ascii7 по умолчанию ISO_646.irv: 1991 ISO646-US IBM367 646 us | Американский стандартный код для обмена информацией |
UTF-8 | UTF8 | юникод-1-1-utf-8 UTF8 | Восьмибитный формат преобразования Unicode (или UCS) |
UTF-16 | UTF-16 | UTF_16 юникод utf16 UnicodeBig | Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов определяется необязательной меткой порядка байтов |
UTF-16BE | UnicodeBigUnmarked | X-UTF-16BE UTF_16BE ISO-10646-UCS-2 UnicodeBigUnmarked | Шестнадцатибитный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов |
UTF-16LE | UnicodeLittleБез маркировки | UnicodeLittleUnmarked UTF_16LE X-UTF-16LE | Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов с прямым порядком байтов |
UTF-32 | UTF_32 | UTF_32 UTF32 | 32-битный формат преобразования Unicode (или UCS), порядок байтов определяется необязательной меткой порядка байтов |
UTF-32BE | UTF_32BE | X-UTF-32BE UTF_32BE | 32-битный формат преобразования Unicode (или UCS), с прямым порядком байтов заказ |
UTF-32LE | UTF_32LE | X-UTF-32LE UTF_32LE | 32-битный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов |
x-UTF-32BE-BOM | UTF_32BE_BOM | UTF_32BE_BOM UTF-32BE-BOM | 32-битный формат преобразования Unicode (или UCS), с прямым порядком байтов порядок, с пометкой порядка байтов |
x-UTF-32LE-BOM | UTF_32LE_BOM | UTF_32LE_BOM UTF-32LE-BOM | 32-битный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов с отметкой порядка байтов |
окна-1250 | Cp1250 | CP1250 CP5346 | Окна Восточноевропейская |
окна-1251 | Cp1251 | cp5347 ansi-1251 cp1251 | Окна Кириллица |
окна-1252 | Cp1252 | cp5348 cp1252 | Окна Latin-1 |
окна-1253 | Cp1253 | cp1253 cp5349 | Окна Греческий |
окна-1254 | Cp1254 | cp1254 cp5350 | Окна Турецкая |
окна-1257 | Cp1257 | cp1257 cp5353 | Окна Балтика |
Не доступен | UnicodeBig | Не доступен | Шестнадцатибитный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов с отметкой порядка байтов |
x-IBM737 | Cp737 | cp737 ibm737 737 ibm-737 | PC Греческий |
x-IBM874 | Cp874 | ibm-874 ibm874 874 cp874 | IBM Тайский |
x-UTF-16LE-BOM | Юникод Литтл | Юникод, Литтл | Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов с прямым порядком байтов, с меткой порядка байтов |
Каноническое имя для java. nio API | Каноническое имя для API java.io и API java.lang | Псевдоним или псевдоним | Описание |
Большой5 | Большой5 | csBig5 | Big5, традиционный китайский |
Big5-HKSCS | Большой5_HKSCS | big5-hkscs big5hk Big5_HKSCS big5hkscs | Big5 с расширениями Гонконга, традиционный китайский (включая редакцию 2001 г.) |
EUC-JP | EUC_JP | csEUCPkdFmtяпонский x-euc-jp eucjis Extended_UNIX_Code_Packed_Format_for_Японский euc_jp eucjp x-eucjp | JISX 0201, 0208 и 0212, кодировка EUC, японская |
EUC-KR | EUC_KR | ksc5601-1987 csEUCKR ksc5601_1987 ksc5601 5601 euc_kr ksc_5601 ks_c_5601-1987 euckr | KS C 5601, кодировка EUC, корейский язык |
ГБ18030 | ГБ18030 | гб18030-2000 | Китайский упрощенный, стандарт КНР |
ГБ2312 | EUC_CN | GB2312 euc-cn x-EUC-CN euccn EUC_CN GB2312-80 GB2312-1980 | GB2312, кодировка EUC, упрощенный китайский |
ГБК | ГБК | CP936 окна-936 | ГБК, упрощенный китайский |
IBM-Thai | Cp838 | ibm-838 ibm838 838 cp838 | IBM Thailand расширенный SBCS |
IBM01140 | Cp1140 | cp1140 1140 cp01140 ebcdic-us-037 + евро ccsid01140 | Вариант Cp037 с символом евро |
IBM01141 | Cp1141 | 1141 cp1141 cp01141 ccsid01141 ebcdic-de-273 + евро | Вариант Cp273 с символом евро |
IBM01142 | Cp1142 | 1142 cp1142 cp01142 ccsid01142 ebcdic-no-277 + евро ebcdic-dk-277 + евро | Вариант Cp277 с символом евро |
IBM01143 | Cp1143 | 1143 cp01143 ccsid01143 cp1143 ebcdic-fi-278 + евро ebcdic-se-278 + евро | Вариант Cp278 с символом евро |
IBM01144 | Cp1144 | cp01144 ccsid01144 ebcdic-it-280 + евро cp1144 1144 | Вариант Cp280 с символом евро |
IBM01145 | Cp1145 | ccsid01145 ebcdic-es-284 + евро 1145 cp1145 cp01145 | Вариант CP284 с символом евро |
IBM01146 | Cp1146 | ebcdic-gb-285 + евро 1146 cp1146 cp01146 ccsid01146 | Вариант CP285 с символом евро |
IBM01147 | Cp1147 | cp1147 1147 cp01147 ccsid01147 ebcdic-fr-277 + евро | Вариант Cp297 с символом евро |
IBM01148 | Cp1148 | cp1148 ebcdic-international-500 + евро 1148 cp01148 ccsid01148 | Вариант Cp500 с символом евро |
IBM01149 | Cp1149 | ebcdic-s-871 + евро 1149 cp1149 cp01149 ccsid01149 | Вариант Cp871 с символом евро |
IBM037 | Cp037 | cp037 ibm037 ibm-037 csIBM037 ebcdic-cp-us ebcdic-cp-ca ebcdic-cp-nl ebcdic-cp-wt 037 cpibm37 cs-ebcdic-cp-wt ibm-37 cs-ebcdic-cp-us cs-ebcdic-cp-ca cs-ebcdic-cp-nl | США, Канада (двуязычный, французский), Нидерланды, Португалия, Бразилия, Австралия |
IBM1026 | Cp1026 | cp1026 ibm-1026 1026 ibm1026 | IBM Latin-5, Турция |
IBM1047 | Cp1047 | ibm-1047 1047 cp1047 | Набор символов Latin-1 для хостов EBCDIC |
IBM273 | Cp273 | ibm-273 ibm273 273 cp273 | IBM Австрия, Германия |
IBM277 | Cp277 | ibm277 277 cp277 ibm-277 | IBM Дания, Норвегия |
IBM278 | Cp278 | cp278 278 ibm-278 ebcdic-cp-se csIBM278 ibm278 ebcdic-sv | IBM Финляндия, Швеция |
IBM280 | Cp280 | ibm280 280 cp280 ibm-280 | IBM Италия |
IBM284 | Cp284 | csIBM284 ibm-284 cpibm284 ibm284 284 cp284 | IBM Каталонский / Испания, испанский Латинская Америка |
IBM285 | Cp285 | csIBM285 cp285 ebcdic-gb ibm-285 cpibm285 ibm285 285 ebcdic-cp-gb | IBM Великобритания, Ирландия |
IBM290 | Cp290 | ibm290 290 cp290 EBCDIC-JP-кана csIBM290 ibm-290 | IBM Japanese Katakana Host Extended SBCS |
IBM297 | Cp297 | 297 csIBM297 cp297 ibm297 ibm-297 cpibm297 ebcdic-cp-fr | IBM Франция |
IBM420 | Cp420 | ibm420 420 cp420 csIBM420 ibm-420 ebcdic-cp-ar1 | IBM арабский |
IBM424 | Cp424 | ebcdic-cp-he csIBM424 ibm-424 ibm424 424 cp424 | IBM Иврит |
IBM500 | Cp500 | ibm-500 ibm500 500 ebcdic-cp-bh ebcdic-cp-ch csIBM500 cp500 | EBCDIC 500V1 |
IBM860 | Cp860 | ibm860 860 cp860 csIBM860 ibm-860 | MS-DOS Португальский |
IBM861 | Cp861 | cp861 ibm861 861 ibm-861 cp-is csIBM861 | MS-DOS Исландский |
IBM863 | Cp863 | csIBM863 ibm-863 ibm863 863 cp863 | MS-DOS Канадский французский |
IBM864 | Cp864 | csIBM864 ibm-864 ibm864 864 cp864 | ПК Арабский |
IBM865 | Cp865 | ibm-865 csIBM865 cp865 ibm865 865 | MS-DOS Nordic |
IBM868 | Cp868 | ibm868 868 cp868 csIBM868 ibm-868 cp-ar | MS-DOS Пакистан |
IBM869 | Cp869 | cp869 ibm869 869 ibm-869 cp-gr csIBM869 | IBM Новогреческий |
IBM870 | Cp870 | 870 cp870 csIBM870 ibm-870 ibm870 ebcdic-cp-roece ebcdic-cp-yu | IBM Multilingual Latin-2 |
IBM871 | Cp871 | ibm871 871 cp871 ebcdic-cp-is csIBM871 ibm-871 | IBM Исландия |
IBM918 | Cp918 | 918 ibm-918 ebcdic-cp-ar2 cp918 | IBM, Пакистан (урду) |
ISO-2022-CN | ISO2022CN | csISO2022CN ISO2022CN | GB2312 и CNS11643 в форме ISO 2022 CN, упрощенной и Традиционный китайский (только преобразование в Unicode) |
ISO-2022-JP | ISO2022JP | csjisencoding iso2022jp jis_encoding jis csISO2022JP | JIS X 0201, 0208, в форме ISO 2022, японский |
ISO-2022-JP-2 | ISO2022JP2 | csISO2022JP2 iso2022jp2 | JIS X 0201, 0208, 0212 в форме ISO 2022, японский |
ISO-2022-KR | ISO2022KR | csISO2022KR ISO2022KR | ISO 2022 KR, корейский |
ISO-8859-3 | ISO8859_3 | ISO8859-3 ibm913 8859_3 l3 cp913 ISO_8859-3 iso8859_3 latin3 csISOLatin3 913 ISO_8859-3: 1988 ibm-913 iso-ir-109 | Латинский алфавит No. 3 |
ISO-8859-6 | ISO8859_6 | ASMO-708 8859_6 iso8859_6 ISO_8859-6 csISOLatinArabic ibm1089 арабский ibm-1089 1089 ECMA-114 iso-ir-127 ISO_8859-6: 1987 ISO8859-6 cp1089 | Латинский / арабский алфавит |
ISO-8859-8 | ISO8859_8 | 8859_8 ISO_8859-8 ISO_8859-8: 1988 cp916 iso-ir-138 ISO8859-8 иврит iso8859_8 ibm-916 csISOLatinHebrew 916 ibm916 | Латинский / еврейский алфавит |
JIS_X0201 | JIS_X0201 | JIS0201 csHalfWidthKatakana X0201 JIS_X0201 | JIS X 0201 |
JIS_X0212-1990 | JIS_X0212-1990 | JIS0212 iso-ir-159 x0212 jis_x0212-1990 csISO159JISX02121990 | JIS X 0212 |
Shift_JIS | SJIS | shift_jis x-sjis sjis shift-jis ms_kanji csShiftJIS | Shift-JIS, японский |
ТИС-620 | TIS620 | тис620 тис620. 2533 | TIS620, тайский |
окна-1255 | Cp1255 | cp1255 | Windows Иврит |
окна-1256 | Cp1256 | cp1256 | Windows Арабский |
окна-1258 | Cp1258 | cp1258 | Windows Вьетнамский |
окна-31j | MS932 | MS932 Windows-932 CSWindows31J | Windows Японский |
x-Big5-Solaris | Big5_Solaris | Big5_Solaris | Big5 с семью дополнительными отображениями идеограмм Ханзи для Solaris zh_TW.BIG5 язык |
x-euc-jp-Linux | EUC_JP_LINUX | euc_jp_linux euc-jp-linux | JISX 0201, 0208, кодировка EUC, японская |
x-EUC-TW | EUC_TW | euctw cns11643 EUC-TW euc_tw | CNS11643 (плоскость 1-7,15), кодировка EUC, традиционный китайский |
x-eucJP-Open | EUC_JP_Solaris | eucJP-open EUC_JP_Solaris | JISX 0201, 0208, 0212, кодировка EUC, японская |
x-IBM1006 | Cp1006 | ibm1006 ibm-1006 1006 cp1006 | IBM AIX Пакистан (урду) |
x-IBM1025 | Cp1025 | ibm-1025 1025 cp1025 ibm1025 | IBM Multilingual Cyrillic: Болгария, Босния, Герцеговина, Македония (БЮР) |
x-IBM1046 | Cp1046 | ibm1046 ibm-1046 1046 cp1046 | IBM Arabic — Windows |
x-IBM1097 | Cp1097 | ibm1097 ibm-1097 1097 cp1097 | IBM Иран (фарси) / персидский |
x-IBM1098 | Cp1098 | ibm-1098 1098 cp1098 ibm1098 | IBM, Иран (фарси) / персидский (ПК) |
x-IBM1112 | Cp1112 | ibm1112 ibm-1112 1112 cp1112 | IBM Латвия, Литва |
x-IBM1122 | Cp1122 | cp1122 ibm1122 ibm-1122 1122 | IBM Эстония |
x-IBM1123 | Cp1123 | ibm1123 ibm-1123 1123 cp1123 | IBM Украина |
x-IBM1124 | Cp1124 | ibm-1124 1124 cp1124 ibm1124 | IBM AIX Украина |
x-IBM1166 | Cp1166 | cp1166 ibm1166 ibm-1166 1166 | IBM Cyrillic Multilingual с евро для Казахстана |
x-IBM1364 | Cp 1364 | cp1364 ibm1364 ibm-1364 1364 | IBM EBCDIC KS X 1005-1 |
x-IBM1381 | Cp 1381 | cp1381 ibm-1381 1381 ibm1381 | IBM OS / 2, DOS Китайская Народная Республика (КНР) |
x-IBM1383 | Cp 1383 | ibm1383 ibm-1383 1383 cp1383 | IBM AIX Китайская Народная Республика (КНР) |
x-IBM300 | CP300 | cp300 ibm300 300 ibm-300 | IBM Японский двухбайтовый латинский хост |
x-IBM33722 | Cp33722 | 33722 ibm-33722 cp33722 ibm33722 ibm-5050 ibm-33722_vascii_vpua | IBM-eucJP — японский (расширенный набор 5050) |
x-IBM833 | Cp833 | ibm833 cp833 ibm-833 | IBM Korean Host Extended SBCS |
x-IBM834 | Cp834 | ibm834 834 cp834 ibm-834 | IBM EBCDIC DBCS-only Korean |
x-IBM856 | Cp856 | ibm856 856 cp856 ibm-856 | IBM Иврит |
x-IBM875 | Cp875 | ibm-875 ibm875 875 cp875 | IBM Греческий |
x-IBM921 | Cp921 | ibm921 921 ibm-921 cp921 | IBM Латвия, Литва (AIX, DOS) |
x-IBM922 | Cp922 | ibm922 922 cp922 ibm-922 | IBM Эстония (AIX, DOS) |
x-IBM930 | Cp930 | ibm-930 ibm930 930 cp930 | Японские катакана и кандзи смешанные с 4370 УДК, расширенный набор из 5026 |
x-IBM933 | Cp933 | ibm933 933 cp933 ibm-933 | Корейский смешанный с 1880 УДК, расширенный набор 5029 |
x-IBM935 | Cp935 | cp935 ibm935 935 ibm-935 | Узел на упрощенном китайском, смешанный с 1880 UDC, расширенный набор из 5031 |
x-IBM937 | Cp937 | ibm-937 ibm937 937 cp937 | Традиционный китайский хост, соединенный с 6204 UDC, расширенный набор 5033 |
x-IBM939 | Cp939 | ibm-939 cp939 ibm939 939 | Японские латинские кандзи смешанные с 4370 УДК, расширенный набор 5035 |
x-IBM942 | Cp942 | ibm-942 cp942 ibm942 942 | IBM OS / 2 Японский, расширенный набор Cp932 |
x-IBM942C | Cp942C | ibm942C cp942C ibm-942C 942C | Вариант Cp942 |
x-IBM943 | Cp943 | ibm943 943 ibm-943 cp943 | IBM OS / 2 Японский, расширенный набор Cp932 и Shift-JIS |
x-IBM943C | Cp943C | 943C cp943C ibm943C ibm-943C | Вариант Cp943 |
x-IBM948 | CP948 | ibm-948 ibm948 948 cp948 | OS / 2 Китайский (Тайвань) расширенный набор 938 |
x-IBM949 | CP949 | ibm-949 ibm949 949 cp949 | ПК Корейский |
x-IBM949C | Cp949C | ibm949C ibm-949C cp949C 949C | Вариант Cp949 |
x-IBM950 | CP950 | cp950 ibm950 950 ibm-950 | ПК Китайский (Гонконг, Тайвань) |
x-IBM964 | Cp964 | ibm-964 cp964 ibm964 964 | AIX китайский (Тайвань) |
x-IBM970 | CP970 | ibm970 ibm-eucKR 970 cp970 ibm-970 | AIX корейский |
x-ISCII91 | ISCII91 | ISCII91 iso-ir-153 iscii ST_SEV_358-88 csISO153GOST1976874 | ISCII91 кодировка индийских скриптов |
х-ISO2022-CN-CNS | ISO2022_CN_CNS | Не доступен | CNS11643 в форме ISO 2022 CN, традиционный китайский (преобразование только из Unicode) |
х-ISO2022-CN-ГБ | ISO2022_CN_GB | Не доступен | GB2312 в форме ISO 2022 CN, упрощенный китайский (преобразование из Только Unicode) |
x-iso-8859-11 | х-iso-8859-11 | iso-8859-11 iso8859_11 | Латинский / тайский алфавит |
х-JIS0208 | х-JIS0208 | JIS0208 JIS_C6226-1983 iso-ir-87 x0208 JIS_X0208-1983 csISO87JISX0208 | JIS X 0208 |
x-JISAutoDetect | JISAutoDetect | JISAutoDetect | Обнаруживает и преобразует Shift-JIS, EUC-JP, ISO 2022 JP (преобразование только в Unicode) |
x-Johab | x-Johab | ms1361 ksc5601_1992 johab ksc5601-1992 | Корейский, набор символов Джохаб |
x-MacArabic | Макарабский | Макарабский | Macintosh Арабский |
x-MacCentralEurope | MacCentralEurope | MacCentralEurope | Macintosh Latin-2 |
x-MacCroatian | МакКроат | МакКроат | Macintosh Хорватский |
х-MacCyrillic | Макцирилловый | маккирилловый | Macintosh Кириллица |
х-MacDingbat | MacDingbat | MacDingbat | Macintosh Dingbat |
x-MacGreek | MacGreek | MacGreek | Греческий Macintosh |
x-Mac Иврит | MacHebrew | MacHebrew | Macintosh Иврит |
x-MacIceland | MacIceland | MacIceland | Macintosh Исландия |
x-MacRoman | MacRoman | MacRoman | Macintosh Roman |
x-Mac Румыния | MacRomania | MacRomania | Macintosh Румыния |
x-MacSymbol | MacSymbol | MacSymbol | Символ Macintosh |
x-MacThai | MacThai | MacThai | Тайский Macintosh |
x-Mac Турецкий | MacTurkish | MacTurkish | Macintosh Турецкий |
x-Mac Украина | Mac Украина | MacUkraine | Macintosh Украина |
x-MS932_0213 | х-MS950-HKSCS MS950_HKSCS | Не доступен | Shift_JISX0213 Windows MS932 вариант |
х-MS950-HKSCS | MS950_HKSCS | MS950_HKSCS | Windows Традиционный китайский с расширениями для Гонконга |
х-MS950-HKSCS-XP | x-mswin-936 MS936 | MS950_HKSCS_XP | HKSCS Windows XP вариант |
x-mswin-936 | MS936 | мс936 мс_936 | Windows (упрощенный китайский) |
x-PCK | PCK | уп | Версия Shift_JIS для Solaris |
x-SJIS_0213 | x-SJIS_0213 | Не доступен | Shift_JISX0213 |
x-окна-50220 | Cp50220 | cp50220 мс50220 | Кодовая страница Windows 50220 (7-разрядная реализация) |
x-windows-50221 | Cp50221 | cp50221 ms50221 | Кодовая страница Windows 50221 (7-разрядная реализация) |
x-окна-874 | MS874 | мс-874 мс874 окна-874 | Windows тайский |
x-окна-949 | MS949 | windows949 ms949 windows-949 ms_949 | Windows Корейский |
x-окна-950 | MS950 | ms950 окна-950 | Windows Традиционный китайский |
x-windows-iso2022jp | x-windows-iso2022jp | окна-iso2022jp | Вариант ISO-2022-JP (на основе MS932) |
Таблица сравнения символов в Windows-1252, ISO-8859-1, ISO-8859-15
Кодировки символов ISO-8859-1, ISO-8859-15 и Windows-1252 очень похожи, и их легко спутать. Это приводит к нескольким типичным проблемам. В следующей таблице показаны различия между этими кодировками, которые полезны для отладки связанных проблем.
ISO-8859-1 по сравнению с Windows-1252
ISO-8859-1 (также называемый Latin-1) идентичен Windows-1252 (также называемый CP1252), за исключением кодовых точек 128-159 (0x80-0x9F). ISO-8859-1 назначает несколько управляющих кодов в этом диапазоне. Windows-1252 имеет несколько символов, пунктуацию, арифметику и бизнес. символы, присвоенные этим кодовым точкам.
Типичные проблемы
- Неверная маркировка текста, закодированного в Windows-1252 как ISO-8859-1, а затем преобразование из ISO-8859-1 в Unicode или другие кодировки приводит к появлению символов в диапазоне 128-159 теряться. Они преобразуются, как если бы они были управляющими кодами, и обычно отображаются в виде белого пространства, специального вопросительного знака, или квадрат, показывающий 4 шестнадцатеричных цифры кодовой точки. Использование шрифта ISO-8859-1, который не имеет правильных глифов для символов Windows-1252 приведет к неправильному отображению символов.
- HTML и XML используют кодовые точки Unicode в качестве значений в ссылках на числовые символы (NCR). Ссылки на числовые символы — это escape-символы записывается как & # dddd; или & # xhhhh; где десятичные или шестнадцатеричные значения являются кодовыми точками Unicode. Поскольку первые 256 символов в Юникоде идентичны символам в ISO-8859-1, люди приобретают привычку использовать знакомый им кодовый знак для создания NCR. Однако для символов в диапазоне 128–159 в Windows-1252 это неправильные значения.Например, евро (€) в кодовой точке 0x80 в Windows-1252, но в Unicode это U + 20AC. & # x80; является NCR для контрольного кода и не будет отображаться как евро. Правильный NCR — & # x20AC ;.
В сравнительной таблице ниже показаны кодовые точки Unicode, связанные с Windows-1252. символы в диапазоне 128-159.
ISO-8859-1 в сравнении с ISO-8859-15
Эти 2 кодировки идентичны, за исключением 8 кодовых точек, что вызывает путаницу между ними, а также с Windows-1252. Для получения дополнительных сведений об ISO-8859-15, см. Сравнение ISO-8859-1 и ISO-8859-15.
Таблица сравнения
Вот символы в диапазоне 128-159 в Windows 1252 с их кодовыми точками Unicode, Значения байтов UTF-8 и кодовые точки ISO-8859-15, если они отличаются от ISO-8859-1.
Примечание по терминологии:
- NCR = Ссылка на цифровые символы
- CER = Ссылка на сущность символа
- CP1252 = Windows-1252
Кодовый пункт | UTF-8 байт | NCR * | Персонаж | CER * или NCR * | Имя персонажа | |||||
---|---|---|---|---|---|---|---|---|---|---|
CP1252 * | ISO 8859-15 | Юникод | ||||||||
(декабрь) | (шестигранник) | (шестигранник) | (шестигранник) | # 1 | # 2 | # 3 | (декабрь) | (шестигранник) | ||
128 | 80 | A4 | 20AC | E2 | 82 | AC | & # 8364; | € | евро; | Знак евро |
129 | 81 | НЕПРЕДНАЗНАЧЕН | ||||||||
130 | 82 | 201A | E2 | 80 | 9A | & # 8218; | ‚ | & sbquo; | Одиночный малый 9 кавычки | |
131 | 83 | 192 | C6 | 92 | & # 402; | ƒ | & # x192; | Строчная латинская буква F с крючком | ||
132 | 84 | 201E | E2 | 80 | 9E | & # 8222; | „ | & bdquo; | Двойной низкий 9 котировальный знак | |
133 | 85 | 2026 | E2 | 80 | A6 | & # 8230; | … | и hellip; | Эллипс по горизонтали | |
134 | 86 | 2020 | E2 | 80 | A0 | & # 8224; | † | & кинжал; | Кинжал | |
135 | 87 | 2021 | E2 | 80 | A1 | & # 8225; | ‡ | и кинжал; | Двойной кинжал | |
136 | 88 | 2C6 | CB | 86 | & # 710; | ˆ | & circ; | Буква-модификатор Circumflex Accent | ||
137 | 89 | 2030 | E2 | 80 | B0 | & # 8240; | ‰ | & permil; | Знак промилле | |
138 | 8A | A6 | 160 | C5 | A0 | & # 352; | Š | и Scaron; | Латинская заглавная буква S с кароном | |
139 | 8Б | 2039 | E2 | 80 | В9 | & # 8249; | ‹ | & lsaquo; | Кавычка с одинарным левым углом | |
140 | 8C | г. до н.э. | г.152 | C5 | 92 | & # 338; | Œ | и OElig; | Латинская заглавная лигатура OE | |
141 | 8D | НЕПРЕДНАЗНАЧЕН | ||||||||
142 | 8E | В4 | 17D | C5 | BD | & # 381; | Ž | & # x17D; | Латинская заглавная буква Z с кароном | |
143 | 8F | НЕПРЕДНАЗНАЧЕН | ||||||||
144 | 90 | НЕПРЕДНАЗНАЧЕН | ||||||||
145 | 91 | 2018 | E2 | 80 | 98 | & # 8216; | ‘ | & lsquo; | Одинарный кавычка левый | |
146 | 92 | 2019 | E2 | 80 | 99 | & # 8217; | ’ | & rsquo; | Одинарный кавычочный знак правый | |
147 | 93 | 201C | E2 | 80 | 9C | & # 8220; | “ | & ldquo; | Двойные кавычки слева | |
148 | 94 | 201D | E2 | 80 | 9D | & # 8221; | ” | & rdquo; | Двойные кавычки, правые | |
149 | 95 | 2022 | E2 | 80 | A2 | & # 8226; | • | и бык; | Пуля | |
150 | 96 | 2013 | E2 | 80 | 93 | & # 8211; | – | & ndash; | En Dash | |
151 | 97 | 2014 | E2 | 80 | 94 | & # 8212; | – | & mdash; | Em Dash | |
152 | 98 | 2DC | CB | 9C | & # 732; | ~ | & тильда; | Маленькая тильда | ||
153 | 99 | 2122 | E2 | 84 | A2 | & # 8482; | ™ | и торговля; | Знак товарного знака | |
154 | 9A | A8 | 161 | C5 | A1 | & # 353; | š | & scaron; | Строчная латинская буква S с кароном | |
155 | 9Б | 203A | E2 | 80 | BA | & # 8250; | › | & rsaquo; | Одинарный кавычочный знак, указывающий вправо | |
156 | 9C | BD | 153 | C5 | 93 | & # 339; | – | & oelig; | Маленькая латинская лигатура OE | |
157 | 9D | НЕПРЕДНАЗНАЧЕН | ||||||||
158 | 9E | В8 | 17E | C5 | BE | & # 382; | х | & # x17E; | Строчная латинская буква Z с кароном | |
159 | 9F | BE | 178 | C5 | В8 | & # 376; | Ÿ | и Yuml; | Латинская заглавная буква Y с диэрезисом |
Дополнительные ссылки
Авторские права © 2010, 2011 Tex Texin. Все права защищены.вернуться наверх
Преобразование кодировки символов — ABAP Development
SAP предоставляет программу конвертера CCC для преобразования символов из одной кодировки в другую.
Оглавление
Кодировка символов — это имя («utf-8», «iso-8859-1» и т. Д.) И таблица эквивалентности с набором символов и значений октетов для каждого из них. символы.
Кодовая страница — это имя, которое SAP использует вместо кодировки символов.Кодовые страницы имеют 4-значное число вместо имени символа.
Эквивалентность международного имени кодировки символов и номера кодовой страницы SAP.
Некоторые программы SAP ожидают:
- либо четырехзначный код: затем вам необходимо ввести номер кодовой страницы SAP
- Номер кодовой страницы SAP можно найти в имя международной кодировки символов путем вызова функционального модуля SCP_CODEPAGE_BY_EXTERNAL_NAME. Или вы можете посмотреть таблицу базы данных TCP00A.
- или код из 20 символов: обычно вы можете ввести кодировку символов или кодовую страницу SAP.Обычно регистр кодировки символов игнорируется.
Примеры нескольких эквивалентов:
Кодовая страница SAP | Кодировка символов международное название |
---|---|
124 | IBM EBCDIC 00697/00297 |
1100 | iso-8859-1 |
1105 | US-ASCII (7 бит) |
1160 | windows-1252 |
4102 | utf-16be |
4103 | utf-16le |
4110 | utf-8 |
8000 | 918 Сдвиг J|
8300 | BIG5 |
- Преобразование одной кодовой страницы в другую может оказаться невозможным для всех символов исходной кодовой страницы, поскольку они не существуют в целевой кодовой странице.
- Например, конвертировать big5 (китайский) в us-ascii нет смысла. Если вы думаете, что это должно быть возможно, то вы, вероятно, сделали неправильный выбор.
- В этом случае мы должны предоставить символ замены преобразователю CCC.
- Последовательность байтов не распознается как символ на исходной кодовой странице. Это означает, что:
- либо программа-отправитель не соблюдает кодовую страницу (затем попросите программу-отправитель исправить ошибку)
- , либо вам следует выбрать другую кодовую страницу (иногда различия между кодовыми страницами очень малы)
- или ваша программа ошибочно сократила входные байты, последний входной байт (а) ничего не значит.
- Например, 2 единственных байта D8 00 ничего не значат в utf-16le: ожидается, что 2 следующих байта смогут идентифицировать символ (здесь закодированы 4 байтами).
Конвертер CCC — это программа ядра, к которой могут обращаться несколько программ:
- Класс CL_ABAP_CODEPAGE, доступный с 7. 02. Кодовая страница не может быть номером SAP, это должно быть либо «международное имя кодировки символов», либо имя, используемое в языке java.
- CL_ABAP_CONV_ * классы, начиная с 6.10, где CL_ABAP_CONV_OBJ — это мастер-класс, предоставляющий полный доступ к конвертеру CCC. Существуют также эти классы, которые вызывают конвертер CCC со значениями по умолчанию:
- CL_ABAP_CONV_IN_CE: преобразует байты, представляющие символы в данной кодовой странице, в символьную или строковую переменную
- CL_ABAP_CONV_OUT_CE: преобразует символьную или строковую переменную в байты, представляющие символы в данной кодовой странице
- CL_ABAP_CONV_X2X_CE: преобразует байты, представляющие символы в данной кодовой странице, в байты, представляющие символы в другой заданной кодовой странице
- Функциональный модуль SCP_TRANSLATE_CHARS, работает со всеми выпусками
Примечание: CCC означает Кэш преобразования набора символов, область памяти, в которой хранит кодовые страницы, необходимые для преобразований.
32 | 20 | ПРОСТРАНСТВО | |
33 | 21 | ! | восклицательный знак |
34 | 22 | « | ЦЕНА |
35 | 23 | # | НОМЕРНЫЙ ЗНАК |
36 | 24 | $ | ДОЛЛАРНЫЙ ЗНАК |
37 | 25 | % | ЗНАК ПРОЦЕНТА |
38 | 26 | и | АМПЕРСАНД |
39 | 27 | \ ‘ | АПОСТРОФ |
40 | 28 | ( | ЛЕВЫЙ ПАРЕНТЕЗ |
41 | 29 | ) | ПРАВЫЙ ПАРЕНТЕЗ |
42 | 2А | * | ASTERISK |
43 | 2Б | + | ЗНАК ПЛЮС |
44 | 2C | , | ЗАПЯТАЯ |
45 | 2Д | – | ДЕФИС-МИНУС |
46 | 2E | . | ПОЛНАЯ ОСТАНОВКА |
47 | 2F | / | SOLIDUS |
48 | 30 | 0 | ЦИФРОВОЙ НОЛЬ |
49 | 31 | 1 | DIGIT ONE |
50 | 32 | 2 | ЦИФРА ДВА |
51 | 33 | 3 | ТРИ ЦИФРА |
52 | 34 | 4 | ЦИФРА ЧЕТЫРЕ |
53 | 35 | 5 | ЦИФРА ПЯТЬ |
54 | 36 | 6 | ШЕСТЬ ЦИФРОВ |
55 | 37 | 7 | СЕМЬ ЦИФРОВ |
56 | 38 | 8 | ВОСЕМЬ ЦИФРА |
57 | 39 | 9 | ДЕВЯТЬ ЦИФРОВ |
58 | 3A | : | КОЛОНА |
59 | 3Б | ; | СЕМИКОЛОН |
60 | 3C | МЕНЬШЕ ЗНАКА | |
61 | 3D | = | ЗНАК РАВНО |
62 | 3E | > | ЗНАК БОЛЬШЕ, ЧЕМ |
63 | 3F | ? | ВОПРОСНИК |
64 | 40 | @ | КОММЕРЧЕСКИЙ НАБОР |
65 | 41 | А | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A |
66 | 42 | Б | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА B |
67 | 43 | К | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА C |
68 | 44 | Д | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА D |
69 | 45 | E | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E |
70 | 46 | Факс | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА F |
71 | 47 | г | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА G |
72 | 48 | H | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА H |
73 | 49 | Я | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I |
74 | 4A | Дж | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА J |
75 | 4Б | К | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА K |
76 | 4C | л | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА L |
77 | 4D | М | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА M |
78 | 4E | N | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА N |
79 | 4F | О | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O |
80 | 50 | п | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА P |
81 | 51 | К | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Q |
82 | 52 | р | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА R |
83 | 53 | S | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА S |
84 | 54 | Т | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА T |
85 | 55 | U | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА U |
86 | 56 | В | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА V |
87 | 57 | Вт | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА W |
88 | 58 | Х | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА X |
89 | 59 | Y | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Y |
90 | 5A | Z | ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Z |
91 | 5Б | [ | КРОНШТЕЙН КВАДРАТНЫЙ ЛЕВЫЙ |
92 | 5C | \ | ОБРАТНЫЙ SOLIDUS |
93 | 5D | ] | КРОНШТЕЙН ПРАВЫЙ КВАДРАТНЫЙ |
94 | 5E | ^ | CIRCUMFLEX ACCENT |
95 | 5F | _ | НИЗКАЯ ЛИНИЯ |
96 | 60 | ` | МОЩНЫЙ АКЦЕНТ |
97 | 61 | а | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A |
98 | 62 | б | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B |
99 | 63 | с | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C |
100 | 64 | д | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D |
101 | 65 | e | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E |
102 | 66 | ф | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА F |
103 | 67 | г | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G |
104 | 68 | ч | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H |
105 | 69 | и | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I |
106 | 6A | к | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА J |
107 | 6Б | к | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K |
108 | 6C | л | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L |
109 | 6D | м | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА M |
110 | 6E | n | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N |
111 | 6F | или | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O |
112 | 70 | п | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА P |
113 | 71 | кв | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q |
114 | 72 | р | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА R |
115 | 73 | с | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S |
116 | 74 | т | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T |
117 | 75 | u | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U |
118 | 76 | v | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V |
119 | 77 | w | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W |
120 | 78 | x | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X |
121 | 79 | y | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y |
122 | 7A | z | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Z |
123 | 7Б | { | КРОНШТЕЙН ЛЕВЫЙ ИЗГОЛЬНЫЙ |
124 | 7C | | | ВЕРТИКАЛЬНАЯ ЛИНИЯ |
125 | 7D | } | КРОНШТЕЙН ПРАВИЛЬНЫЙ |
126 | 7E | ~ | ТИЛЬДА |
128 | 80 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE |
129 | 81 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GJE |
130 | 82 | ОДИНОЧНЫЙ ЦИФРОВОЙ ЗНАК НИЗКОГО 9 | |
131 | 83 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА GJE |
132 | 84 | ДВОЙНОЙ НИЗКИЙ-9 ЦЕННЫЙ ЗНАК | |
133 | 85 | ГОРИЗОНТАЛЬНЫЙ ЭЛЛИПСИС | |
134 | 86 | КИНЖАЛ | |
135 | 87 | ДВОЙНОЙ КИНЖАЛ | |
136 | 88 | ЕВРО ЗНАК | |
137 | 89 | ЗНАК НА МЕЛЬНИЦУ | |
138 | 8A | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА LJE |
139 | 8Б | ОДИН ЛЕВЫЙ УГЛОВОЙ ЦИТАТНЫЙ МАРК | |
140 | 8C | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE |
141 | 8D | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE |
142 | 8E | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE |
143 | 8F | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ |
144 | 90 | ? | Кирилическая строчная буква DJE |
145 | 91 | ОДИНОЧНЫЙ ЗНАК ЛЕВЫЙ | |
146 | 92 | ОДИНОЧНЫЙ ЗНАК ПРАВЫЙ | |
147 | 93 | ЛЕВЫЙ ДВОЙНОЙ ЗНАК | |
148 | 94 | ДВОЙНОЙ ПРАВИЛЬНЫЙ МАРК | |
149 | 95 | ПУЛЯ | |
150 | 96 | EN DASH | |
151 | 97 | EM DASH | |
153 | 99 | ТОВАРНЫЙ ЗНАК | |
154 | 9A | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE |
155 | 9Б | ОДНОПРАВИЛЬНЫЙ УГЛОВОЙ МАРКЕТ | |
156 | 9C | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА NJE |
157 | 9D | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА KJE |
158 | 9E | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSHE |
159 | 9F | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ДЖЕ |
160 | A0 | ПРОСТРАНСТВО БЕЗ РАЗРЫВА | |
161 | A1 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U |
162 | A2 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ U |
163 | A3 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE |
164 | A4 | ЗНАК ВАЛЮТЫ | |
165 | A5 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ |
166 | A6 | СЛОМАННЫЙ БАР | |
167 | A7 | СЕКЦИОННЫЙ ЗНАК | |
168 | A8 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO |
169 | A9 | ЗНАК АВТОРСКОГО ПРАВА | |
170 | AA | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE |
171 | AB | ДВОЙНОЙ УГОЛ ЛЕВЫЙ ЦИАТОРНЫЙ МАРК | |
172 | AC | НЕ ЗНАК | |
173 | н. э. | МЯГКИЙ ДИФЕН | |
174 | AE | ЗАРЕГИСТРИРОВАННЫЙ ЗНАК | |
175 | AF | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI |
176 | B0 | ЗНАК | |
177 | B1 | ЗНАК ПЛЮС-МИНУС | |
178 | B2 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЕЛОРУССКО-УКРАИНСКОЕ I |
179 | B3 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССКО-УКРАИНСКАЯ I |
180 | B4 | ? | Кирилическая строчная буква GHE с переворотом |
181 | B5 | МИКРО ЗНАК | |
182 | B6 | ЗНАК ПИЛКРОВА | |
183 | B7 | СРЕДНЯЯ ТОЧКА | |
184 | В8 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IO |
185 | B9 | ? | ЗНАК НОМЕРО |
186 | BA | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА УКРАИНСКИЙ IE |
187 | BB | ДВОЙНОЙ УГЛОВОЙ ЦИАТОРНЫЙ МАРК ВПРАВО | |
188 | до н. э. | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА JE |
189 | BD | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE |
190 | BE | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DZE |
191 | BF | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YI |
192 | C0 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A |
193 | C1 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЫТЬ |
194 | C2 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА VE |
195 | C3 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE |
196 | C4 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DE |
197 | C5 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE |
198 | C6 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE |
199 | C7 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZE |
200 | C8 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА I |
201 | C9 | ? | КОРОТКАЯ ЗАГЛАВНАЯ БУКВА I |
202 | CA | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA |
203 | CB | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL |
204 | CC | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM |
205 | CD | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN |
206 | CE | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O |
207 | CF | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE |
208 | D0 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER |
209 | D1 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ES |
210 | D2 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE |
211 | D3 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U |
212 | D4 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF |
213 | D5 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA |
214 | D6 | ? | Кирилическая прописная буква TSE |
215 | D7 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE |
216 | D8 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA |
217 | D9 | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА |
218 | DA | ? | ЖЕСТКИЙ ЗНАК КИРИЛИЧЕСКОЙ ЗАГЛАВНОЙ БУКВЫ |
219 | DB | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЙЕРУ |
220 | DC | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК |
221 | DD | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E |
222 | DE | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YU |
223 | DF | ? | КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA |
224 | E0 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A |
225 | E1 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЫТЬ |
226 | E2 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА VE |
227 | E3 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE |
228 | E4 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE |
229 | E5 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IE |
230 | E6 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE |
231 | E7 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE |
232 | E8 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I |
233 | E9 | ? | Кирилическая строчная буква I |
234 | EA | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA |
235 | EB | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EL |
236 | EC | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EM |
237 | ED | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EN |
238 | EE | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O |
239 | EF | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА PE |
240 | F0 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ER |
241 | F1 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ES |
242 | F2 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE |
243 | F3 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U |
244 | F4 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EF |
245 | F5 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA |
246 | F6 | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА TSE |
247 | F7 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE |
248 | F8 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА SHA |
249 | F9 | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА |
250 | FA | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК |
251 | FB | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЙЕРУ |
252 | FC | ? | КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА МЯГКИЙ ЗНАК |
253 | FD | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА E |
254 | FE | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU |
255 | FF | ? | СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YA |
PostgreSQL: Документация: 8. 4: Поддержка набора символов
Поддержка набора символов в PostgreSQL позволяет хранить текст в множество наборов символов (также называемых кодировками), включая однобайтовые наборы символов, такие как серия ISO 8859 и многобайтовые наборы символов, такие как EUC (Extended Unix Code), UTF-8 и Mule внутренний код. Можно использовать все поддерживаемые наборы символов прозрачно для клиентов, но некоторые из них не поддерживаются для использования внутри сервера (то есть как кодирование на стороне сервера). В набор символов по умолчанию выбирается при инициализации вашего Кластер базы данных PostgreSQL используя initdb.Это может быть отменено, когда вы создаете базу данных, поэтому у вас может быть несколько баз данных каждая с другим набором символов.
Однако важным ограничением является то, что каждая база данных набор символов должен быть совместим с LC_CTYPE и LC_COLLATE базы данных настройки локали. Для локали C или POSIX разрешен любой набор символов, но для других языков существует только один набор символов, который будет работать правильно. (В Windows, однако, кодировка UTF-8 может использоваться с любой регион.)
Таблица 22-1 показывает наборы символов, доступные для использования в PostgreSQL.
Таблица 22-1. Наборы символов PostgreSQL
Имя | Описание | Язык | Сервер? | байт / символ | Псевдонимы |
---|---|---|---|---|---|
BIG5 | Большая пятерка | Китайский традиционный | № | 1-2 | WIN950, Windows950 |
EUC_CN | Расширенный код UNIX — CN | Китайский упрощенный | Есть | 1-3 | |
EUC_JP | Расширенный код UNIX-JP | Японский | Есть | 1-3 | |
EUC_JIS_2004 | Расширенный код UNIX-JP, JIS X 0213 | Японский | Есть | 1-3 | |
EUC_KR | Расширенный код UNIX-KR | Корейский | Есть | 1-3 | |
EUC_TW | Расширенный код UNIX-TW | Китайский традиционный, тайваньский | Есть | 1-3 | |
ГБ18030 | Национальный стандарт | Китайский | № | 1-2 | |
ГБК | Национальный стандарт расширенный | Китайский упрощенный | № | 1-2 | WIN936, Windows936 |
ISO_8859_5 | ISO 8859-5, ECMA 113 | Латиница / кириллица | Есть | 1 | |
ISO_8859_6 | ISO 8859-6, ECMA 114 | Латинский / арабский | Есть | 1 | |
ISO_8859_7 | ISO 8859-7, ECMA 118 | Латинский / греческий | Есть | 1 | |
ISO_8859_8 | ISO 8859-8, ECMA 121 | Латинский / Иврит | Есть | 1 | |
JOHAB | JOHAB | Корейский (хангыль) | № | 1-3 | |
КОИ8Р | КОИ8-Р | Кириллица (русская) | Есть | 1 | КОИ8 |
КОИ8У | КОИ8-У | Кириллица (украинская) | Есть | 1 | |
ЛАТИН 1 | ISO 8859-1, ECMA 94 | Западноевропейская | Есть | 1 | ISO88591 |
ЛАТИН 2 | ISO 8859-2, ECMA 94 | Центральноевропейская | Есть | 1 | ISO88592 |
ЛАТИН 3 | ISO 8859-3, ECMA 94 | Южноевропейский | Есть | 1 | ISO88593 |
ЛАТИН 4 | ISO 8859-4, ECMA 94 | Северная Европа | Есть | 1 | ISO88594 |
LATIN5 | ISO 8859-9, ECMA 128 | Турецкий | Есть | 1 | ISO88599 |
LATIN6 | ISO 8859-10, ECMA 144 | Северный | Есть | 1 | ISO885910 |
LATIN7 | ISO 8859-13 | Балтика | Есть | 1 | ISO885913 |
LATIN8 | ISO 8859-14 | кельтский | Есть | 1 | ISO885914 |
ЛАТИН 9 | ISO 8859-15 | LATIN1 с евро и акцентами | Есть | 1 | ISO885915 |
ЛАТИН 10 | ISO 8859-16, ASRO SR 14111 | Румынский | Есть | 1 | ISO885916 |
MULE_INTERNAL | Мул внутренний код | Многоязычный Emacs | Есть | 1–4 | |
SJIS | Сдвиг JIS | Японский | № | 1-2 | Мсканджи, ShiftJIS, WIN932, Windows 932 |
SHIFT_JIS_2004 | Сдвиг JIS, JIS X 0213 | Японский | № | 1-2 | |
SQL_ASCII | не указано (см. Текст) | любая | Есть | 1 | |
UHC | Единый код хангыль | Корейский | № | 1-2 | WIN949, Windows949 |
UTF8 | Unicode, 8-битный | все | Есть | 1–4 | Юникод |
WIN866 | Окна CP866 | Кириллица | Есть | 1 | ALT |
WIN874 | Окна CP874 | Тайский | Есть | 1 | |
WIN1250 | Окна CP1250 | Центральноевропейская | Есть | 1 | |
WIN1251 | Окна CP1251 | Кириллица | Есть | 1 | ВЫИГРАТЬ |
WIN1252 | Окна CP1252 | Западноевропейская | Есть | 1 | |
WIN1253 | Окна CP1253 | Греческий | Есть | 1 | |
WIN1254 | Окна CP1254 | Турецкий | Есть | 1 | |
WIN1255 | Окна CP1255 | Еврейский | Есть | 1 | |
WIN1256 | Окна CP1256 | Арабский | Есть | 1 | |
WIN1257 | Окна CP1257 | Балтика | Есть | 1 | |
WIN1258 | Окна CP1258 | Вьетнамский | Есть | 1 | ABC, TCVN, TCVN5712, VSCII |
Не все API поддерживают все перечисленные наборы символов. Например, драйвер PostgreSQL JDBC не поддерживает MULE_INTERNAL, LATIN6, LATIN8 и ЛАТИНСКИЙ 10.
Параметр SQL_ASCII ведет себя значительно отличается от других настроек. Когда набор символов сервера — SQL_ASCII, сервер интерпретирует байтовые значения 0-127 в соответствии с ASCII стандартные, а байтовые значения 128–255 считаются неинтерпретируемыми символы. Преобразование кодировки не будет выполнено, когда настройка — SQL_ASCII. Таким образом, это настройка — это не столько декларация, сколько конкретная кодировка используется как заявление о незнании кодировки.В в большинстве случаев, если вы работаете с любыми данными, отличными от ASCII, это неразумно использовать параметр SQL_ASCII, потому что PostgreSQL будет не может помочь вам преобразованием или проверкой не-ASCII символы.
initdb определяет значение по умолчанию набор символов для PostgreSQL кластер. Например,
initdb -E EUC_JP
устанавливает набор символов (кодировку) по умолчанию на EUC_JP (расширенный код Unix для японского языка). Ты можно использовать —encoding вместо -E, если вы предпочитаете вводить более длинный вариант струны.Если не задана опция -E или —encoding, initdb пытается определить соответствующий кодировка для использования на основе указанного языкового стандарта или языкового стандарта по умолчанию.
Вы можете указать нестандартную кодировку при создании базы данных время, при условии, что кодировка совместима с выбранный языковой стандарт:
createdb -E EUC_KR -T template0 --lc-collate = ko_KR.euckr --lc-ctype = ko_KR.euckr корейский
Это создаст базу данных с именем korean, которая использует набор символов EUC_KR и локаль ko_KR.Другой способ добиться этого — использовать эта команда SQL:
СОЗДАТЬ БАЗУ ДАННЫХ корейский С КОДИРОВАНИЕМ 'EUC_KR' LC_COLLATE = 'ko_KR.euckr' LC_CTYPE = 'ko_KR.euckr' TEMPLATE = template0;
Обратите внимание, что приведенные выше команды определяют копирование template0 база данных. При копировании любых другая база данных, настройки кодировки и локали не могут быть изменено по сравнению с исходной базой данных, потому что это может привести к повреждению данных. Для получения дополнительной информации см. Раздел 21.3.
Кодировка для базы данных хранится в системном каталоге pg_database. Вы можете увидеть это, используя параметр -l или команду \ l в psql.
$ psql -l Список баз данных Имя | Владелец | Кодирование | Сортировка | Ctype | Права доступа ----------- + ---------- + ----------- + ------------- + - ------------ + ------------------------------------- clocaledb | хлиннака | SQL_ASCII | C | C | englishdb | хлиннака | UTF8 | en_GB.UTF8 | en_GB.UTF8 | японский | хлиннака | UTF8 | ja_JP.UTF8 | ja_JP.UTF8 | корейский | хлиннака | EUC_KR | ko_KR.euckr | ko_KR.euckr | postgres | хлиннака | UTF8 | fi_FI.UTF8 | fi_FI.UTF8 | template0 | хлиннака | UTF8 | fi_FI. UTF8 | fi_FI.UTF8 | {= c / hlinnaka, hlinnaka = CTc / hlinnaka} template1 | хлиннака | UTF8 | fi_FI.UTF8 | fi_FI.UTF8 | {= c / hlinnaka, hlinnaka = CTc / hlinnaka} (7 рядов)
Важно: В большинстве современных операционных систем PostgreSQL может определить какой набор символов подразумевается параметром LC_CTYPE, и он будет обеспечивать выполнение этого используется только соответствующая кодировка базы данных.На более старых систем, вы несете ответственность за использование кодировка, ожидаемая выбранной вами локалью. А ошибка в этой области может привести к странным некорректное поведение операций, зависящих от локали, таких как сортировка.
PostgreSQL позволит суперпользователи для создания баз данных с кодировкой SQL_ASCII, даже если LC_CTYPE не C или POSIX. Как отмечалось выше, SQL_ASCII не требует, чтобы данные хранится в базе данных, имеет какую-либо конкретную кодировку, и поэтому такой выбор создает риск неправильного поведения в зависимости от региона. Использование этой комбинации настроек не рекомендуется и может когда-нибудь вообще запретят.
PostgreSQL поддерживает автоматическое преобразование набора символов между сервером и клиентом для определенных комбинаций набора символов. Преобразование информация хранится в системном каталоге pg_conversion. PostgreSQL поставляется с некоторыми предопределенными преобразования, как показано в Таблице 22-2. Вы можете создать новое преобразование с помощью команды SQL СОЗДАЙТЕ КОНВЕРСИЮ.
Таблица 22-2. Набор символов клиент / сервер Преобразования
Серверный набор символов | Доступные наборы символов клиента |
---|---|
BIG5 | не поддерживается как серверная кодировка |
EUC_CN | EUC_CN, MULE_INTERNAL, UTF8 |
EUC_JP | EUC_JP, MULE_INTERNAL, SJIS, UTF8 |
EUC_KR | EUC_KR, MULE_INTERNAL, UTF8 |
EUC_TW | EUC_TW, BIG5, MULE_INTERNAL, UTF8 |
ГБ18030 | не поддерживается как серверная кодировка |
ГБК | не поддерживается как серверная кодировка |
ISO_8859_5 | ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866, WIN1251 |
ISO_8859_6 | ISO_8859_6, UTF8 |
ISO_8859_7 | ISO_8859_7, UTF8 |
ISO_8859_8 | ISO_8859_8, UTF8 |
JOHAB | ИОХАБ, UTF8 |
КОИ8Р | КОИ8Р, ISO_8859_5, MULE_INTERNAL, UTF8, WIN866, WIN1251 |
КОИ8У | КОИ8У, UTF8 |
ЛАТИН 1 | LATIN1, MULE_INTERNAL, UTF8 |
ЛАТИН 2 | LATIN2, MULE_INTERNAL, UTF8, WIN1250 |
ЛАТИН 3 | LATIN3, MULE_INTERNAL, UTF8 |
ЛАТИН 4 | LATIN4, MULE_INTERNAL, UTF8 |
LATIN5 | LATIN5, UTF8 |
LATIN6 | LATIN6, UTF8 |
LATIN7 | LATIN7, UTF8 |
LATIN8 | LATIN8, UTF8 |
ЛАТИН 9 | LATIN9, UTF8 |
ЛАТИН 10 | LATIN10, UTF8 |
MULE_INTERNAL | MULE_INTERNAL, BIG5, EUC_CN, EUC_JP, EUC_KR, EUC_TW, ISO_8859_5, KOI8R, LATIN1 в LATIN4, SJIS, WIN866, WIN1250, WIN1251 |
SJIS | не поддерживается как серверная кодировка |
SQL_ASCII | любая (нет конверсия будет производиться) |
UHC | не поддерживается как серверная кодировка |
UTF8 | все поддерживаются кодировки |
WIN866 | WIN866, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN1251 |
WIN874 | WIN874, UTF8 |
WIN1250 | WIN1250, LATIN2, MULE_INTERNAL, UTF8 |
WIN1251 | WIN1251, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866 |
WIN1252 | WIN1252, UTF8 |
WIN1253 | WIN1253, UTF8 |
WIN1254 | WIN1254, UTF8 |
WIN1255 | WIN1255, UTF8 |
WIN1256 | WIN1256, UTF8 |
WIN1257 | WIN1257, UTF8 |
WIN1258 | WIN1258, UTF8 |
Чтобы включить автоматическое преобразование набора символов, необходимо сообщить PostgreSQL персонажа установить (кодировку), которую вы хотите использовать в клиенте. Есть несколько способов сделать это:
Использование команды \ encoding в psql. \ encoding позволяет вам изменить клиента кодирование на лету. Например, чтобы изменить кодировку на SJIS, тип:
\ кодирование SJIS
libpq (раздел 30.9) имеет функции для контролировать клиентскую кодировку.
Использование SET client_encoding TO.Установка клиентской кодировки может быть выполнена с помощью этого SQL команда:
УСТАНОВИТЕ CLIENT_ENCODING в 'значение';
Также для этой цели можно использовать стандартный синтаксис SQL SET NAMES:
УСТАНОВИТЬ ИМЕНА 'значение';
Для запроса текущей клиентской кодировки:
ПОКАЗАТЬ client_encoding;
Чтобы вернуться к кодировке по умолчанию:
СБРОС client_encoding;
Использование PGCLIENTENCODING. Если переменная среды PGCLIENTENCODING определяется в клиентской среда, эта клиентская кодировка выбирается автоматически при подключении к серверу. (Это может впоследствии можно переопределить с помощью любого из других методов упомянуто выше.)
Использование переменной конфигурации client_encoding. Если переменная client_encoding равна установить, эта клиентская кодировка автоматически выбирается, когда подключение к серверу произведено.(Впоследствии это может быть переопределить с помощью любого из других упомянутых методов выше.)
Если преобразование определенного символа невозможно — предположим, вы выбрали EUC_JP для сервер и LATIN1 для клиента, тогда некоторые японские иероглифы не представлены в LATIN1 — тогда ошибка сообщил.
Если набор символов клиента определен как SQL_ASCII, преобразование кодировки отключено, независимо от набора символов сервера. Так же, как и сервер, использование SQL_ASCII неразумно если вы не работаете с данными в формате ASCII.
Это хорошие источники, чтобы начать изучать различные виды систем кодирования.
« unicode-1-1-utf-8 «, « utf-8 «, « utf8 » | 'УТФ-8' |
« 866 «, « cp866 «, « csibm866 «,
« ibm866 » | 'ibm866' |
« цисолатин2 «, « iso-8859-2 «,
« iso-ir-101 », « iso8859-2 », « iso88592 »,
« iso_8859-2 », « iso_8859-2: 1987 », « l2 »,
« латин 2 » | 'iso-8859-2' |
« цисолатин3 «, « iso-8859-3 «,
« iso-ir-109 », « iso8859-3 », « iso88593 »,
« iso_8859-3 », « iso_8859-3: 1988 », « l3 »,
« латин3 » | 'iso-8859-3' |
« цисолатин4 «, « iso-8859-4 «,
« iso-ir-110 », « iso8859-4 », « iso88594 »,
« iso_8859-4 », « iso_8859-4: 1988 », « l4 »,
« латинское4 » | 'iso-8859-4' |
« кириллица «, « кириллица «,
« iso-8859-5 », « iso-ir-144 », « iso88595 »,
« iso_8859-5 », « iso_8859-5: 1988 » | 'iso-8859-5' |
« арабский », « asmo-708 », « csiso88596e »,
« csiso88596i «, « csisolatinarabic «,
« ecma-114 », « iso-8859-6 »,
« iso-8859-6-e », « iso-8859-6-i »,
« iso-ir-127 », « iso8859-6 », « iso88596 »,
« iso_8859-6 », « iso_8859-6: 1987 » | 'iso-8859-6' |
« csisolatingreek «, « ecma-118 «,
« elot_928 «, « greek «, « greek8 «,
« iso-8859-7 », « iso-ir-126 »,
« iso8859-7 », « iso88597 », « iso_8859-7 »,
« iso_8859-7: 1987 », « sun_eu_greek » | 'iso-8859-7' |
« csiso88598e «, « csisolatinhebrew «,
« иврит », « iso-8859-8 », « iso-8859-8-e »,
« iso-ir-138 », « iso8859-8 », « iso88598 »,
« iso_8859-8 », « iso_8859-8: 1988 »,
« визуал » | 'iso-8859-8' |
« csiso88598i «, « iso-8859-8-i «,
« логический » | 'iso-8859-8i' |
« цисолатин6 «, « iso-8859-10 «,
« iso-ir-157 », « iso8859-10 »,
« iso885910 », « l6 », « latin6 » | 'iso-8859-10' |
« iso-8859-13 «, « iso8859-13 «,
« iso885913 » | 'iso-8859-13' |
« iso-8859-14 «, « iso8859-14 «,
« iso885914 » | 'iso-8859-14' |
« цисолатин9 «, « iso-8859-15 «,
« iso8859-15 », « iso885915 », « l9 »,
« латин9 » | 'iso-8859-15' |
« iso-8859-16 » | 'iso-8859-16' |
« кои8р », « кои », « кои8 »,
« кои8-р », « кои8_р » | 'КОИ8-Р' |
« кои8-у » | 'КОИ8-У' |
« csmacintosh », « mac », « macintosh »,
« x-mac-roman » | "Macintosh" |
« дос-874 », « исо-8859-11 »,
« iso8859-11 », « iso885911 », « tis-620 »,
« окна-874 » | 'окна-874' |
« cp1250 «, « windows-1250 «, « x-cp1250 » | 'окна-1250' |
« cp1251 «, « windows-1251 «, « x-cp1251 » | 'окна-1251' |
« ansi_x3. 4-1968 «,» ascii «,» cp1252 «,
« cp819 », « csisolatin1 », « ibm819 »,
« iso-8859-1 », « iso-ir-100 »,
« iso8859-1 », « iso88591 », « iso_8859-1 »,
« iso_8859-1: 1987 », « l1 », « latin1 »,
« us-ascii », « windows-1252 », « x-cp1252 » | 'окна-1252' |
« cp1253 «, « windows-1253 «, « x-cp1253 » | 'окна-1253' |
« cp1254 «, « csisolatin5 «,
« iso-8859-9 », « iso-ir-148 »,
« iso8859-9 », « iso88599 », « iso_8859-9 »,
« iso_8859-9: 1989 », « l5 », « latin5 »,
« windows-1254 «, « x-cp1254 » | 'окна-1254' |
« cp1255 «, « windows-1255 «, « x-cp1255 » | 'окна-1255' |
« cp1256 «, « windows-1256 «, « x-cp1256 » | 'окна-1256' |
« cp1257 «, « windows-1257 «, « x-cp1257 » | 'окна-1257' |
« cp1258 «, « windows-1258 «, « x-cp1258 » | 'окна-1258' |
« x-mac-cyrillic «, « x-mac-ukrainian » | 'x-mac-cyrillic' |
« китайский «, « csgb2312 «,
« csiso58gb231280 », « gb2312 », « gb_2312 »,
« gb_2312-80 », « gbk », « iso-ir-58 »,
« x-gbk » | 'ГБК' |
« gb18030 » | 'gb18030' |
« hz-gb-2312 » | 'гц-гб-2312' |
« big5 «, « big5-hkscs «, « cn-big5 «,
« csbig5 », « x-x-big5 » | 'большой5' |
« cseucpkdfmtjapanese «, « euc-jp «,
« x-euc-jp » | 'euc-jp' |
« Примечание : Firefox использовал для принятия | 'iso-2022-jp' |
« csshiftjis «, « ms_kanji «,
« shift-jis », « shift_jis », « sjis »,
« windows-31j «, « x-sjis » | Shift-jis |
« cseuckr «, « csksc56011987 «, « euc-kr «,
« iso-ir-149 », « корейский »,
« ks_c_5601-1987 », « ks_c_5601-1989 »,
« ksc5601 », « ksc_5601 », « windows-949 » | 'euc-kr' |
« csiso2022kr «, « iso-2022-kr » | 'iso-2022-kr' |
« utf-16be » | «УТФ-16БЭ» |
« utf-16 », « utf-16le » | утф-16ле |
« x определяется пользователем » | 'пользовательский x' |
« iso-2022-cn «, « iso-2022-cn-ext » | 'замена' |