Содержание

Таблица кодов символов Windows-1251



Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Данная кодировка пользуется довольно большой популярностью в восточно-европейских странах. Windows-1251 выгодно отличается от других 8-битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в традиционной русской типографике для обычного текста (отсутствует только знак ударения). Кириллические символы идут в алфавитном порядке.
Windows-1251 также содержит все символы для близких к русскому языку языков: белорусского, украинского, сербского, македонского и болгарского.
На практике этого оказалось достаточно, чтобы кодировка Windows-1251 закрепилась в интернете вплоть до распространения UTF-8.

Таблица кодов символов Windows-1251

DecHexСимвол  DecHexСимвол
00000NOP  12880Ђ
001
01SOH  12981Ѓ
00202STX  13082
00303ETX  13183ѓ
00404EOT  13284
00505ENQ  13385
00606ACK  13486
00707BEL  13587
00808BS  13688
00909TAB  13789
0100ALF  1388AЉ
0110BVT  1398B
0120CFF  1408CЊ
0130DCR  1418DЌ
0140ESO  1428EЋ
0150FSI  1438FЏ
01610DLE  14490ђ
01711DC1  14591
01812DC2  14692
01913DC3  14793
02014DC4  14894
02115NAK  14995
02216SYN  15096
02317ETB  15197
02418CAN  15298
02519EM  15399
0261ASUB  1549Aљ
0271BESC  155
9B
0281CFS  1569Cњ
0291DGS  1579Dќ
0301ERS  1589Eћ
0311FUS  1599Fџ
03220SP  160A0 
03321!  161A1 Ў
03422«  162A2ў
03523#  163A3Ћ
03624$  164A4¤
03725%  165A5Ґ
03826&  166A6¦
03927  167A7§
04028(  168A8Ё
04129)  169A9©
0422A*  170AAЄ
0432B+  171AB«
0442C,  172AC¬
0452D
 
173AD­
0462E.  174AE®
0472F/  175AFЇ
048300  176B0°
049311  177B1±
050322  178B2І
051333  179B3і
052344  180B4ґ
053355  181B5µ
054366  182B6
055377  183B7·
056388  184B8ё
057399  185B9
0583A:  186BAє
0593B;  187BB»
0603C<  188BCј
0613D=  189BDЅ
0623E>  
190
BEѕ
0633F?  191BFї
06440@  192C0 А
06541 A  193C1 Б
06642B  194C2 В
06743C  195C3 Г
06844D  196C4
Д
06945E  197C5 Е
07046F  198C6 Ж
07147G  199C7 З
07248H  200C8 И
07349I  201C9 Й
0744AJ  202CA К
0754BK  203CB Л
0764CL  204CC М
0774DM  205CD Н
0784EN  206CE О
0794FO  207CF П
08050P  208D0 Р
08151Q  209D1 С
08252R  210D2 Т
08353S  211D3 У
08454T  212D4 Ф
08555U  213D5 Х
08656V  214D6
Ц
08757W  215D7 Ч
08858X  216D8 Ш
08959Y  217D9 Щ
0905AZ  218DA Ъ
0915B[  219DB Ы
0925C\  220DC
Ь
0935D]  221DD Э
0945E^  222DE Ю
0955F_  223DF Я
09660`  224E0 а
09761a  225E1 б
09862b  226E2 в
09963c  227E3 г
10064d  228E4 д
10165e  229E5 е
10266f  230E6 ж
10367g  231E7 з
10468h  232E8 и
10569i  233E9 й
1066Aj  234EA к
1076Bk  235EB л
1086Cl  236EC м
1096Dm  237ED н
1106En  238EE о
1116Fo  239EF п
11270p  240F0 р
11371q  241F1 с
11472r  242F2 т
11573s  243F3 у
11674t  244F4 ф
11775u  245F5 х
11876v  246F6 ц
11977w  247F7 ч
12078x  248F8 ш
12179y  249F9 щ
1227Az  250FA ъ
1237B{  251FB ы
1247C|  252FC ь
1257D}  253FD э
1267E~  254FE ю
1277FDEL  255FF я

Описание специальных (управляющих) символов

Первоначально управляющие символы таблицы ASCII (диапазон 00-31, плюс 127) были разработаны для того, чтобы управлять устройствами аппаратных средств, таких как телетайп, ввод данных на перфоленту и др.
Управляющие символы (кроме горизонтальной табуляции, перевода строки и возврата каретки) не используются в HTML-документах.

Cпециальные (управляющие) символы

КодОписание
NUL, 00Null, пустой
SOH, 01Start Of Heading, начало заголовка
STX, 02Start of TeXt, начало текста
ETX, 03End of TeXt, конец текста
EOT, 04End of Transmission, конец передачи
ENQ, 05Enquire. Прошу подтверждения
ACK, 06Acknowledgement. Подтверждаю
BEL, 07Bell, звонок
BS, 08Backspace, возврат на один символ назад
TAB, 09Tab, горизонтальная табуляция
LF, 0ALine Feed, перевод строки
Сейчас в большинстве языков программирования обозначается как \n
VT, 0BVertical Tab, вертикальная табуляция
FF, 0CForm Feed, прогон страницы, новая страница
CR, 0DCarriage Return, возврат каретки
Сейчас в большинстве языков программирования обозначается как \r
SO, 0EShift Out, изменить цвет красящей ленты в печатающем устройстве
SI, 0FShift In, вернуть цвет красящей ленты в печатающем устройстве обратно
DLE, 10Data Link Escape, переключение канала на передачу данных
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Device Control, символы управления устройствами
NAK, 15Negative Acknowledgment, не подтверждаю
SYN, 16Synchronization. Символ синхронизации
ETB, 17End of Text Block, конец текстового блока
CAN, 18Cancel, отмена переданного ранее
EM, 19End of Medium, конец носителя данных
SUB, 1ASubstitute, подставить. Ставится на месте символа, значение которого было потеряно или испорчено при передаче
ESC, 1BEscape Управляющая последовательность
FS, 1CFile Separator, разделитель файлов
GS, 1DGroup Separator, разделитель групп
RS, 1ERecord Separator, разделитель записей
US, 1FUnit Separator, разделитель юнитов
DEL, 7FDelete, стереть последний символ.

Смотрите также:

URL коды символов ACSII

URL коды символов UTF-8 диапазон от U+0400 до U+04FF

HTML Кодирование URL

Таблица кодов символов кирилицы UTF-8





Таблица Windows-1251

Windows-1251 (cp1251) — это стандартная 8-битная кодировка, разработанная компанией Microsoft. Она содержит практически все символы, которые Вы можете встретить на стандартной русской клавиатуре. Также 1251 имеет символы для таких языков, как белорусский, украинский, болгарский и сербский.

DEC

HEX

СИМВ

DEC

HEX

СИМВ

DEC

HEX

СИМВ

000

00

NOP

086

56

V

171

AB

«

001

01

SOH

087

57

W

172

AC

¬

002

02

STX

088

58

X

173

AD

003

03

ETX

089

59

Y

174

AE

®

004

04

EOT

090

5A

Z

175

AF

Ї

005

05

ENQ

091

5B

[

176

B0

°

006

06

ACK

092

5C

\

177

B1

±

007

07

BEL

093

5D

]

178

B2

І

008

08

BS

094

5E

^

179

B3

і

009

09

Табуляция

095

5F

_

180

B4

ґ

010

0A

LF

096

60

`

181

B5

µ

011

0B

VT

097

61

a

182

B6

012

0C

FF

098

62

b

183

B7

·

013

0D

CR

099

63

c

184

B8

Ё

014

0E

SO

100

64

d

185

B9

015

0F

SI

101

65

e

186

BA

Є

016

10

DLE

102

66

f

187

BB

»

017

11

DC1

103

67

g

188

BC

ј

018

12

DC2

104

68

h

189

BD

Ѕ

019

13

DC3

105

69

i

190

BE

Ѕ

020

14

DC4

106

6A

j

191

BF

Ї

021

15

NAK

107

6B

k

192

C0

А

022

16

SYN

108

6C

l

193

C1

Б

023

17

ETB

109

6D

m

194

C2

В

024

18

CAN

110

6E

n

195

C3

Г

025

19

EM

111

6F

o

196

C4

Д

026

1A

SUB

112

70

p

197

C5

Е

027

1B

ESC

113

71

q

198

C6

Ж

028

1C

FS

114

72

r

199

C7

З

029

1D

GS

115

73

s

200

C8

И

030

1E

RS

116

74

t

201

C9

Й

031

1F

US

117

75

u

202

CA

К

032

20

Пробел

118

76

v

203

CB

Л

033

21

!

119

77

w

204

CC

М

034

22

«

120

78

x

205

CD

Н

035

23

#

121

79

y

206

CE

О

036

24

$

122

7A

z

207

CF

П

037

25

%

123

7B

{

208

D0

Р

038

26

&

124

7C

|

209

D1

С

039

27

125

7D

}

210

D2

Т

040

28

(

126

7E

~

211

D3

У

041

29

)

127

7F



212

D4

Ф

042

2A

*

128

80

Ђ

213

D5

Х

043

2B

+

129

81

Ѓ

214

D6

Ц

044

2C

,

130

82

215

D7

Ч

045

2D

131

83

ѓ

216

D8

Ш

046

2E

.

132

84

217

D9

Щ

047

2F

/

133

85

218

DA

Ъ

048

30

0

134

86

219

DB

Ы

049

31

1

135

87

220

DC

Ь

050

32

2

136

88

221

DD

Э

051

33

3

137

89

222

DE

Ю

052

34

4

138

8A

Љ

223

DF

Я

053

35

5

139

8B

224

E0

а

054

36

6

140

8C

Њ

225

E1

б

055

37

7

141

8D

Ќ

226

E2

в

056

38

8

142

8E

Ћ

227

E3

г

057

39

9

143

8F

Џ

228

E4

д

058

3A

:

144

90

Ђ

229

E5

е

059

3B

;

145

91

230

E6

ж

060

3C

<

146

92

231

E7

з

061

3D

=

147

93

232

E8

и

062

3E

>

148

94

233

E9

й

063

3F

?

149

95

234

EA

к

064

40

@

150

96

235

EB

л

065

41

A

151

97

236

EC

м

066

42

B

152

98 ˜

237

ED

н

067

43

C

153

99

238

EE

о

068

44

D

154

9A

љ

239

EF

п

069

45

E

155

9B

240

F0

р

070

46

F

156

9C

њ

241

F1

с

071

47

G

157

9D

ќ

242

F2

т

072

48

H

158

9E

ћ

243

F3

у

073

49

I

159

9F

џ

244

F4

ф

074

4A

J

160

A0

245

F5

х

075

4B

K

161

A1

Ў

246

F6

ц

076

4C

L

162

A2

ў

247

F7

ч

077

4D

M

163

A3

Ј

248

F8

ш

078

4E

N

164

A4

¤

249

F9

щ

079

4F

O

165

A5

Ґ

250

FA

ъ

080

50

P

166

A6

¦

251

FB

ы

081

51

Q

167

A7

§

252

FC

ь

082

52

R

168

A8

Ё

253

FD

э

083

53

S

169

A9

©

254

FE

ю

084

54

T

170

AA

Є

255

FF

я

085

55

U


Похожие записи:

Таблица ASCII (кодировка Windows-1251)

Таблица ASCII (кодировка Windows-1251)
(0)(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)(13)(14)(15)(16)
(17)(18)(19)(20)(21)(22)(23)(24)(25)(26)(27)(28)(29)(30)(31) (32)!(33)
«(34)#(35)$(36)%(37)&(38)(39)((40))(41)*(42)+(43),(44)(45). (46)/(47)0(48)1(49)2(50)
3(51)4(52)5(53)6(54)7(55)8(56)9(57):(58);(59)(60)=(61)>(62)?(63)@(64)A(65)B(66)C(67)
D(68)E(69)F(70)G(71)H(72)I(73)J(74)K(75)L(76)M(77)N(78)O(79)P(80)Q(81)R(82)S(83)T(84)
U(85)V(86)W(87)X(88)Y(89)Z(90)[(91)\ (92)](93)^(94)_(95)`(96)a(97)b(98)c(99)d(100)e(101)
f(102)g(103)h(104)i(105)j(106)k(107)l(108)m(109)n(110)o(111)p(112)q(113)r(114)s(115)t(116)u(117)v(118)
w(119)x(120)y(121)z(122){(123)|(124)}(125)~(126)(127)Ђ(128)Ѓ(129)(130)ѓ(131)(132)(133)(134)(135)
(136)(137)Љ(138)(139)Њ(140)Ќ(141)Ћ(142)Џ(143)ђ(144)(145)(146)(147)(148)(149)(150)(151)˜(152)
(153)љ(154)(155)њ(156)ќ(157)ћ(158)џ(159) (160)Ў(161)ў(162)Ј(163)¤(164)Ґ(165)¦(166)§(167)Ё(168)©(169)
Є(170)«(171)¬(172)­(173)®(174)Ї(175)°(176)±(177)І(178)і(179)ґ(180)µ(181)(182)·(183)ё(184)(185)є(186)
»(187)ј(188)Ѕ(189)ѕ(190)ї(191)А(192)Б(193)В(194)Г(195)Д(196)Е(197)Ж(198)З(199)И(200)Й(201)К(202)Л(203)
М(204)Н(205)О(206)П(207)Р(208)С(209)Т(210)У(211)Ф(212)Х(213)Ц(214)Ч(215)Ш(216)Щ(217)Ъ(218)Ы(219)Ь(220)
Э(221)Ю(222)Я(223)а(224)б(225)в(226)г(227)д(228)е(229)ж(230)з(231)и(232)й(233)к(234)л(235)м(236)н(237)
о(238)п(239)р(240)с(241)т(242)у(243)ф(244)х(245)ц(246)ч(247)ш(248)щ(249)ъ(250)ы(251)ь(252)э(253)ю(254)
я(255)(256)(257)(258)(259)(260)(261)(262)(263)(264)(265)(266)(267)(268)(269)(270)(271)

— версия для печати
Определение
ASCII (англ. American Standard Code for Information Interchange) — американская стандартная таблица для кодирования печатных символов и некоторых специальных кодов.
Если у вас есть мысли по поводу данной страницы или предложение по созданию математической (см. раздел «Математика») вспомогательной памятки, мы обязательно рассмотрим ваше предложение. Просто воспользуйтесь обратной связью.

© Школяр. Математика (при поддержке «Ветвистого древа») 2009—2016

Таблицы кодировок ASCII, CP1251 (windows1251), ISO-8859-5 — Микроконтроллеры для всех

Таблица ASCII

Таблица ASCII (American standard code for information interchange) является мировым стандартом для кодирования букв английского алфавита, популярных спец символов (! $ # % & и т.д.) и некоторых непечатных символов (например, возврат каретки 0x0D и перенос строки 0х0А).

Таблица создавалась те времена, когда возникла необходимость связать символы и числа. А такое соответствие необходимо было для того что бы с помощью чисел можно было передать текстовое сообщение между разными устройствами с цифровой связью.


Таблица CP1251 (windows-1251)

Эта кодировочная таблица может называться или CP1251 или Windows-1251 Это стандарт кодирования кириллических символов в операционных системах windows с русскоязычным интерфейсом.

Первая часть этой таблицы (до байта 0x7F) повторяет таблицу ASCII, а вторая часть (от 0x80 до 0xFF) кодирует кириллические символы в алфавитном порядке.

CP1251 (windows-1251)

Таблица IS0-8859-5

Эта кодировка применяется в дисплеях Nextion для кодирования кириллических символов.

Стоит обратить внимание, что в данной таблице кириллические символы расположены в алфавитном порядке и сдвинуты ровно на 16 байт по сравнению с кодировочной таблицей windows-1251.


Кодировка UTF-8
(Unicode Transformation Format)

Очень распространенный формат кодирования символов, позволяющий кодировать символы переменным количеством байт.

Например, если для кодирования номера символа требуется 21 бит, то используется 4 байта для кодировки. Если для кодирования достаточно 11 бит, то используют 2 байта. А если номер символа может быть закодирован 7 битами, то используется один байт.

Кодировка UTF-8

Все ASCII символы в кодировке UTF8 закодированы без изменений, то есть 1 байтом, как в стандартной таблице ASCII.

А вот остальные символы закодированы количеством байт от 2 до 4.

Кириллические символы закодированы двумя байтами.

Основные кодировки символов текста веб-страниц.

Из предыдущей заметки вы уже имеете определенное представление о том, что такое кодировка веб-страниц.

Сейчас давайте остановимся на вопросе какие бывают кодировки.

На заре развития компьютерной техники, когда компьютеры были слабые и не было большого объема памяти, кодировки представляли собой таблицу все символы, которой могли быть представлены всеми возможными комбинациями числа в 16-ричной системе счисления (это 1 байт информации) или 256 возможных символов.

По этой причине не было возможности создать единую кодировку для всех языков в мире. Каждая кодировка содержала в себе символы своего национального алфавита.

Для символов латиницы, как правило, использовалась кодировка ASCII.

Вот, как эта таблица выглядит:

Для символов кириллицы были созданы кодировки windows-1251 и KOI8-R. Это произошло из-за того, что этими кодировками занимались сразу несколько фирм, чтобы обеспечить поддержку русского языка для своих компьютеров.

Вот таблица с кодировкой Windows-1251

Кодировка KOI8-R:

При таком разнообразии кодировок, была одна проблема: если текст, который написан кириллицей воспроизвести с помощью кодировки ASCII или любой другой кодировкой, которая не содержит символов кириллицы, появляются кракозябры.

Стоило даже текст на кириллице, который сохранен в кодировке windows-1251 открыть в кодировке KOI8-R, как тут же появлялись проблемы.

Нужно было искать какое-то решение.

С развитием вычислительной мощности компьютеров, стало возможным для кодирования различным символов использовать намного больше единиц информации и решено было создать универсальную кодировку для всех языков в мире. Такой кодировкой стала кодировка UTF (Юникод).

Это огромная таблица, которая содержит более 1 миллиона закодированных символов.

Вот небольшая часть этой таблицы:

В настоящее время эта кодировка стала стандартом для всех компьютеров в мире. Юникод содержит не только символы мировых алфавитов, но и различные значки, смайлики и др. символы.

При создании современных веб-страниц, желательно пользоваться именно ей. В этом случае, ваши документы будут более универсальными и будут открываться практически во всех случаях.

А сейчас приступаем к конкретным методам, которые будут позволять менять кодировку наших веб-страниц.

Ко всем урокам курса «Быстрый старт в HTML для начинающих»

Кодировки русского текста | Практическая информатика

Исторически сложилось так, что для представления печатных символов (кодирования текста) в первых ЭВМ отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (американский стандартный код для обмена информацией), подробную информацию о которой вы можете получить при помощи команды man ascii операционной системы Linux.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы, т.  е. содержали единицу в старшем разряде байта, отведенного для кодирования символа. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.

Среди них была и одна из первых таблиц для кодировки русских букв — ISO 8859-5 (воспользуйтесь командой man iso_8859_1 для получения кодов русских букв в этой таблице).

Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.

К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Так как из всех операционных систем, распространенных в то время, самыми удобными средствами работы с сетью обладали различные клоны операционной системы Unix, то эта кодировка стала фактическим стандартом в этих системах. Таковой она является и сейчас в ОС Linux. И именно эта кодировка чаще всего применяется для обмена почтой и новостями в Интернет.

Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т.  д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы «обтекали» со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту — кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице (появилась возможность — ведь псевдографика в Windows не требуется), получили кодировку Windows 1251 (Win-1251).

Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли.

Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.). Мы для перекодировки файлов будем использовать ряд утилит в ОС Linux, назначение которых ясно из названия: alt2koi, win2koi, koi2win, alt2win, win2alt, koi2alt (откуда, куда, цифра 2 (two) схожа по звучанию с предлогом to, указывающим направление). Эти команды имеют одинаковый синтаксис: команда <входной_файл >выходной_файл.


Пример

Перекодируем текст, набранный в редакторе Edit в среде MS DOS, в кодировку Koi8-R. Для этого выполним команду


alt2koi file1.txt > filenew

Так как в MS DOS и Linux по разному кодируется перевод строки, рекомендуется выполнить еще команду «fromdos»:


fromdos filenew > file2.txt 

Команда с обратным действием называется «todos» и имеет такой же синтаксис.


Пример

Отсортируем файл List. txt, содержащий список фамилий и подготовленный в кодировке Koi8-R, в алфавитном порядке. Воспользуемся командой sort, которая сортирует текстовый файл по возрастанию или убыванию кодов символов. Если применить ее сразу, то, например, буква В окажется в конце списка, аналогично соответствующей ей букве латинского алфавита V. Вспомнив, что в альтернативной кодировке русские буквы расположены строго по алфавиту, выполним ряд операций: перекодируем текст в альтернативную кодировку, отсортируем его и снова вернем в кодировку Koi8-R. С использованием конвейера команд получаем


koi2alt List.txt | sort | alt2koi > List_Sort.txt

В современных дистрибутивах ОС Linux решены многие проблемы, связанные с локализацией программного обеспечения. В частности утилита sort теперь учитывает особенности кодировки Koi8-R и для сортировки файла в алфавитном порядке достаточно выполнить команду


sort List.txt > List_Sort.txt

Виды кодировок символов [АйТи бубен]

В общем случае кодировка или кодовая таблица — это однозначное соответствие между подмножеством целых чисел (как правило, идущих подряд) и некоторым набором символов. Ключевым здесь является понятие символа. Символ может быть буквой (а может и не быть), может соответствовать звуку речи (а может и не соответствовать) и может быть представлен графическим знаком (но может обходиться и без какого бы то ни было видимого образа). Символ — это атом смысла, мельчайшая неделимая частица информации.

Так, латинское «А» и кириллическое «А» — это разные символы, потому что они употребляются в разных контекстах и несут в себе разную информацию.

Определяющим для любой кодировки является количество охватываемых ею кодов и, соответственно, символов. Поскольку тексты в компьютере хранятся в виде последовательности байтов, большинство кодировок естественным образом распадаются на однобайтовые, или восьмибитные, способные закодировать не больше 256 символов, и двухбайтовые, или шестнадцатибитные, чья емкость может достигать 65636 знакомест.

Если кодировка ISO 8859-5 для кириллицы так и не прижилась, первая из этой серии — кодировка ISO 8859-1, известная также под именем Latin-1, — сумела стать общепринятым стандартом для кодирования «расширенной» латиницы. В эту кодировку включены почти все символы, употребляющиеся в письменностях западноевропейских языков — французского, немецкого, испанского и т.д.

Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.

В 1991 году была предпринята попытка создать единую универсальную двухбайтовую кодировку, охватывающую все алфавиты и иероглифические системы мира. Результатом стал стандарт под названием Unicode, покрывающий не только системы письменности всех живых и большинства мертвых языков мира, но и множество музыкальных, математических, химических и прочих символов. Массовое применение Unicode в документах и программах остается делом будущего, для web- дизайнера эта кодировка имеет особое значение, так как именно она объявлена «стандартной кодировкой документа» в HTML начиная с версии 4.

В ближайшее время все более важную роль будет играть особый формат Unicode (и ISO 10646) под названием UTF-8. Эта «производная» кодировка пользуется для записи символов цепочками байтов различной длины (от одного до шести), которые с помощью несложного алгоритма преобразуются в Unicode- коды, причем более употребительным символам соответствуют более короткие цепочки. Главное достоинство этого формата — совместимость с ASCII не только по значениям кодов, но и по количеству бит на символ, так как для кодирования любого из первых 128 символов в UTF-8 достаточно одного байта (хотя, например, для букв кириллицы нужно уже по два байта).

Для указания кодировки символов web-страницы используются следующие обозначения кодовых таблиц:

На web- странице указать кодировку документа можно двумя cпособами:

Элемент meta является дочерним по отношению к разделу заголовка документа (head) и служит для указания типа и кодировки содержимого страницы. Типом содержимого является структурированный текст в формате html (text/html), используемая кодировка кириллица windows (charset=windows-1251).

Обычно используют оба способа одновременно. Например, для указания кодировки КОИ8 для украинского языка на web-странице, используют следующую структуру документа:

<?xml version="1.0" encoding="KOI8-U"?>
<!DOCTYPE html PUBLIC ... >
<html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <title>Моя перша сторiнка</title>
        <meta http-equiv="Content-Type"
              content="text/html; charset=KOI8-U" />
    </head>
    ...
</html>

При сохранении текста выбирайте ту же кодировку, что указали на web-странице.

Поэкспериментируйте с различными кодировками, и вы убедитесь, что символы латинского алфавита, цифры и знаки пунктуации передаются без изменений в подавляющем большинстве из них.

Кодовая страница Windows 1251

Кодовая страница Windows 1251 Эта страница содержит таблицу кодовой страницы Microsoft Windows 1251 для русского и некоторые другие языки, написанные кириллицей. CP1251 символы включены буквально в скобки слева от каждой строки. Если вы сохраните эту страницу, у вас будет таблица CP1251, которую вы можете использовать для тестирования вашего конфигурация набора символов эмулятора терминала.
Кодовая страница Microsoft Windows 1251
char dec col / row oct hex описание
[] 128 08/00 200 80 КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE
[] 129 08/01 201 81 Кирилическая прописная буква GJE
[] 130 08/02 202 82 НИЗКАЯ 9 ОДИНОЧНАЯ ЦИТАТА
[] 131 08/03 203 83 Кирилическая строчная буква GJE
[] 132 08/04 204 84 НИЗКАЯ 9 ДВОЙНАЯ ЦИТАТА
[] 133 08/05 205 85 ЭЛЛИПСИС
[] 134 08/06 206 86 КИНЖАЛ
[] 135 08/07 207 87 ДВОЙНОЙ КИНЖАЛ
[] 136 08/08 210 88 ЕВРО ЗНАК
[] 137 08/09 211 89 ЗА МИЛ ЗНАК
[] 138 08/10 212 8A ЗАГЛАВНАЯ БУКВА LJE
[] 139 08/11 213 8B ЛЕВЫЙ КРОНШТЕЙН ОДИНОЧНОЙ ЦИТАТЫ
[] 140 08/12 214 8C КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE
[] 141 08/13 215 8D КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE
[] 142 08/14 216 8E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
[] 143 15. 08 217 8F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
[] 144 09/00 220 90 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА DJE
[] 145 09/01 221 91 ВЫСОКАЯ 6 ОДИНОЧНАЯ ЦИТАТА
[] 146 09/02 222 92 ВЫСОКАЯ 9 ЕДИНАЯ ЦИТАТА
[] 147 09/03 223 93 ВЫСОКАЯ 6 ДВОЙНАЯ ЦИТАТА
[] 148 09/04 224 94 ВЫСОКАЯ 9 ДВОЙНАЯ ЦИТАТА
[] 149 09/05 225 95 БОЛЬШАЯ ЦЕНТРАЛЬНАЯ ТОЧКА
[] 150 09/06 226 96 RU ТИП
[] 151 07.09 227 97 EM DASH
[] 152 09/08 230 98 (НЕ ОПРЕДЕЛЕННО)
[] 153 09/09 231 99 ТОВАРНЫЙ ЗНАК
[] 154 09/10 232 9A СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE
[] 155 09/11 233 9B ПРАВЫЙ КРОНШТЕЙН ДЛЯ ОДИНОЧНОЙ ЦИТАТЫ
[] 156 09/12 234 9C КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА NJE
[] 157 09/13 235 9D КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА KJE
[] 158 14.09 236 9E КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
[] 159 15.09 237 9F КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
[] 160 10/00 240 A0 НЕПРЕРЫВНОЕ ПРОСТРАНСТВО
[] 161 10/01 241 A1 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U
[] 162 10/02 242 A2 КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ U
[] 163 10/03 243 A3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE
[] 164 10/04 244 ЗНАК ВАЛЮТЫ A4
[] 165 10/05 245 A5 ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ
[] 166 10/06 246 A6 СЛОМАННЫЙ БАР
[] 167 10/07 247 A7 ЗНАК ПАРАГРАФА
[] 168 10/08 250 A8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO
[] 169 10/09 251 A9 ЗНАК АВТОРСКОГО ПРАВА
[] 170 10/10 252 AA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE
[] 171 10/11 253 AB ЛЕВЫЙ УГОЛ ЦИТАТЫ
[] 172 10/12 254 AC NOT SIGN
[] 173 10/13 255 AD МЯГКИЙ ДЕФИС
[] 174 10/14 256 AE ЗНАК ЗАРЕГИСТРИРОВАННОЙ ТОРГОВОЙ МАРКИ
[] 175 10/15 257 AF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI
[] 176 11/00 260 B0 ЗНАК, КОЛЬЦО ВЫШЕ
[] 177 11/01 261 B1 ЗНАК ПЛЮС-МИНУС
[] 178 11/02 262 B2 Кирилическая прописная буква БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I
[] 179 11/03 263 B3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССИЯ-УКРАИНСКИЙ ЯЗЫК I
[] 180 11/04 264 B4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE С ПОВОРОТОМ
[] 181 05. 11 265 B5 МИКРОЗНАК
[] 182 06/11 266 B6 ЗНАК ПИЛКРОУ
[] 183 07/11 267 B7 СРЕДНЯЯ ТОЧКА
[] 184 08/11 270 B8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IO
[] 185 11/09 271 B9 ЗНАК NUMERO
[] 186 11/10 272 BA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА УКРАИНСКИЙ IE
[] 187 11/11 273 BB ЦИТАТНЫЙ ЗНАК ПРАВЫЙ УГОЛ
[] 188 11/12 274 до н.э. Кирилическая строчная буква JE.
[] 189 11/13 275 BD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE
[] 190 14/11 276 БЫТЬ СТРОЧНОЙ КИРИЛИЧЕСКОЙ БУКВОЙ DZE
[] 191 15/11 277 BF Кирилическая строчная буква YI
[] 192 12/00 300 C0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A
[] 193 01/12 301 C1 Кирилическая прописная буква BE
[] 194 12/02 302 C2 ЗАГЛАВНАЯ БУКВА VE
[] 195 12/03 303 C3 ЗАГЛАВНАЯ БУКВА GHE
[] 196 12/04 304 C4 ЗАГЛАВНАЯ БУКВА DE
[] 197 12/05 305 C5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE
[] 198 12/06 306 C6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE
[] 199 12/07 307 C7 ЗАГЛАВНАЯ БУКВА ZE
[] 200 12/08 310 C8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА I
[] 201 12/09 311 C9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I
[] 202 12/10 312 CA КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA
[] 203 12/11 313 CB КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL
[] 204 12/12 314 CC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM
[] 205 12/13 315 CD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN
[] 206 12/14 316 CE КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O
[] 207 15/12 317 CF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE
[] 208 13/00 320 D0 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER
[] 209 13/01 321 D1 ЗАГЛАВНАЯ БУКВА ES
[] 210 13/02 322 D2 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE
[] 211 13/03 323 D3 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U
[] 212 13/04 324 D4 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF
[] 213 13/05 325 D5 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA
[] 214 13/06 326 D6 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSE
[] 215 13/07 327 D7 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE
[] 216 13/08 330 D8 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA
[] 217 13/09 331 D9 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА
[] 218 13/10 332 DA КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК
[] 219 13/11 333 КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДБ ЕРУ
[] 220 13/12 334 DC КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК
[] 221 13/13 335 DD КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E
[] 222 13/14 336 Кириллическая прописная буква YU
[] 223 13/15 337 DF КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA
[] 224 14/00 340 E0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A
[] 225 14/01 341 E1 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА BE
[] 226 14/02 342 E2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА VE
[] 227 14/03 343 E3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE
[] 228 14/04 344 E4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE
[] 229 14/05 345 E5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА IE
[] 230 14/06 346 E6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE
[] 231 14/07 347 E7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE
[] 232 14/08 350 E8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I
[] 233 14/09 351 E9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА КОРОТКАЯ I
[] 234 14/10 352 EA СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA
[] 235 14/11 353 EB КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EL
[] 236 14/12 354 EC КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EM
[] 237 14/13 355 ED Кирилическая строчная буква EN
[] 238 14/14 356 EE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O
[] 239 14/15 357 EF Кирилическая строчная буква PE
[] 240 15/00 360 F0 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ER
[] 241 15/01 361 F1 Кирилическая строчная буква ES
[] 242 15/02 362 F2 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE
[] 243 15/03 363 F3 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U
[] 244 15/04 364 F4 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EF
[] 245 15/05 365 F5 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA
[] 246 15/06 366 F6 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSE
[] 247 15/07 367 F7 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE
[] 248 15/08 370 F8 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHA
[] 249 15/09 371 F9 СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА
[] 250 15/10 372 FA КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК
[] 251 15/11 373 FB Кирилическая строчная буква YERU
[] 252 15/12 374 FC Кирилическая строчная буква МЯГКИЙ ЗНАК
[] 253 15/13 375 FD Кирилическая строчная буква E
[] 254 15/14 376 FE СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU
[] 255 15/15 377 FF Кирилическая строчная буква YA
 

Франк да Круз, Проект Кермит, Колумбийский университет, Март 2003 г.

Поддерживаемые кодировки

Файл java.io.InputStreamReader , java.io.OutputStreamWriter , java.lang.String классы и классы в java.nio.charset пакет может конвертировать между Unicode и ряд других кодировок символов. Поддерживаемые кодировки различаются между различными реализациями Java SE 8. Описание класса для java.nio.charset.Charset перечисляет кодировки, которые должна поддерживать любая реализация Java SE 8.

JDK 8 для всех платформ (Solaris, Linux и Microsoft Windows) и JRE 8 для Solaris и Linux поддерживают все кодировки, показанные на этой странице.JRE 8 для Microsoft Windows может быть установлена ​​как полная международная версия или как европейская языковая версия. По умолчанию установщик JRE 8 устанавливает Версия на европейских языках, если она распознает, что хост, работающий система поддерживает только европейские языки. Если установщик признает, что нужен любой другой язык, или если пользователь запрашивает поддержку для неевропейских языков в индивидуальном при установке устанавливается полная международная версия. В Версия для европейских языков поддерживает только кодировки, указанные в следующую таблицу базового набора кодировок.Международная версия (который включает файл lib / charsets.jar) поддерживает все кодировки, показанные на этой странице.

В следующих таблицах показаны наборы кодировок, поддерживаемые Java SE. 8. Канонические имена, используемые новыми API java.nio . во многих случаях не совпадают с используемыми в java.io и java.lang API.

Каноническое имя для java.nio API Каноническое имя для API java.io и API java.lang Псевдоним или псевдоним Описание
ЦЭСУ-8 CESU8 CESU8 CSCESU-8 Юникод CESU-8
IBM00858 Cp858 cp858 858 PC-Multilingual-850 + евро cp00858 ccsid00858 Вариант CP850 с символом евро
IBM437 Cp437 ibm437 437 ibm-437 cspc8codepage437 cp437 windows-437 MS-DOS США, Австралия, Новая Зеландия, Южная Африка
IBM775 Cp775 ibm-775 ibm775 775 cp775 ПК Балтика
IBM850 CP850 cp850 cspc850 многоязычный ibm850 850 ibm-850 MS-DOS Latin-1
IBM852 Cp852 csPCp852 ibm-852 ibm852 852 cp852 MS-DOS Latin-2
IBM855 Cp855 ibm855 855 IBM-855 cp855 cspcp855 IBM Кириллица
IBM857 Cp857 ibm857 857 cp857 csIBM857 ibm-857 IBM Турецкий
IBM862 Cp862 csIBM862 cp862 ibm862 862 cspc862latinhebrew ibm-862 PC Еврейский
IBM866 Cp866 ibm866 866 ibm-866 csIBM866 cp866 MS-DOS Русский
ISO-8859-1 ISO8859_1 819 ISO8859-1 l1 ISO_8859-1: 1987 ISO_8859-1 8859_1 iso-ir-100 latin1 cp819 ISO8859_1 IBM819 ISO_8859_1 IBM-819 csISOLatin1 ISO-8859-1, латинский алфавит No. 1
ISO-8859-2 ISO8859_2 ISO8859-2 ibm912 l2 ISO_8859-2 8859_2 cp912 ISO_8859-2: 1987 iso8859_2 iso-ir-101 latin2 912 csISOLatin2 ibm-912 Латинский алфавит № 2
ISO-8859-4 ISO8859_4 8859_4 латинский4 l4 cp914 ISO_8859-4: 1988 ibm914 ISO_8859-4 iso-ir-110 iso8859_4 csISOLatin4 iso8859-4 914 ibm-914 Латинский алфавит № 4
ISO-8859-5 ISO8859_5 ISO_8859-5: 1988 csISOLatinCyrillic iso-ir-144 iso8859_5 cp915 8859_5 ibm-915 ISO_8859-5 ibm915 915 кириллица ISO8859-5 Латинский алфавит / кириллица
ISO-8859-7 ISO8859_7 греческий 8859_7 греческий8 ibm813 ISO_8859-7 iso8859_7 ELOT_928 cp813 ISO_8859-7: 1987 sun_eu_greek csISOLatinGreek iso-ir-126813 iso8859-7 ECMA-118 ibm-813 Латинский / греческий алфавит (ISO-8859-7: 2003)
ISO-8859-9 ISO8859_9 ibm-920 ISO_8859-9 8859_9 ISO_8859-9: 1989 ibm920 latin5 l5 iso8859_9 cp920 920 iso-ir-148 ISO8859-9 csISOLatin5 Латинский алфавит No. 5
ISO-8859-13 ISO8859_13 iso_8859-13 ISO8859-13 iso8859_13 8859_13 Латинский алфавит № 7
ISO-8859-15 ISO8859_15 ISO8859-15 LATIN0 ISO8859_15_FDIS ISO8859_15 cp923 8859_15 L9 ISO-8859-15 IBM923 csISOlatin9 ISO_8859-15 IBM-923 csISOlatin0 923 LATIN9 Латинский алфавит № 9
КОИ8-Р KOI8_R koi8_r koi8 cskoi8r КОИ8-Р, Россия
КОИ8-У КОИ8_У koi8_u КОИ8-У, Украинский
US-ASCII ASCII ANSI_X3.4-1968 cp367 csASCII iso-ir-6 ASCII iso_646.irv: 1983 ANSI_X3. 4-1986 ascii7 по умолчанию ISO_646.irv: 1991 ISO646-US IBM367 646 us Американский стандартный код для обмена информацией
UTF-8 UTF8 юникод-1-1-utf-8 UTF8 Восьмибитный формат преобразования Unicode (или UCS)
UTF-16 UTF-16 UTF_16 юникод utf16 UnicodeBig Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов определяется необязательной меткой порядка байтов
UTF-16BE UnicodeBigUnmarked X-UTF-16BE UTF_16BE ISO-10646-UCS-2 UnicodeBigUnmarked Шестнадцатибитный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов
UTF-16LE UnicodeLittleБез маркировки UnicodeLittleUnmarked UTF_16LE X-UTF-16LE Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов с прямым порядком байтов
UTF-32 UTF_32 UTF_32 UTF32 32-битный формат преобразования Unicode (или UCS), порядок байтов определяется необязательной меткой порядка байтов
UTF-32BE UTF_32BE X-UTF-32BE UTF_32BE 32-битный формат преобразования Unicode (или UCS), с прямым порядком байтов заказ
UTF-32LE UTF_32LE X-UTF-32LE UTF_32LE 32-битный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов
x-UTF-32BE-BOM UTF_32BE_BOM UTF_32BE_BOM UTF-32BE-BOM 32-битный формат преобразования Unicode (или UCS), с прямым порядком байтов порядок, с пометкой порядка байтов
x-UTF-32LE-BOM UTF_32LE_BOM UTF_32LE_BOM UTF-32LE-BOM 32-битный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов с отметкой порядка байтов
окна-1250 Cp1250 CP1250 CP5346 Окна Восточноевропейская
окна-1251 Cp1251 cp5347 ansi-1251 cp1251 Окна Кириллица
окна-1252 Cp1252 cp5348 cp1252 Окна Latin-1
окна-1253 Cp1253 cp1253 cp5349 Окна Греческий
окна-1254 Cp1254 cp1254 cp5350 Окна Турецкая
окна-1257 Cp1257 cp1257 cp5353 Окна Балтика
Не доступен UnicodeBig Не доступен Шестнадцатибитный формат преобразования Unicode (или UCS), прямой порядок байтов порядок байтов с отметкой порядка байтов
x-IBM737 Cp737 cp737 ibm737 737 ibm-737 PC Греческий
x-IBM874 Cp874 ibm-874 ibm874 874 cp874 IBM Тайский
x-UTF-16LE-BOM Юникод Литтл Юникод, Литтл Шестнадцатибитный формат преобразования Unicode (или UCS), порядок байтов с прямым порядком байтов, с меткой порядка байтов
Каноническое имя для java. nio API Каноническое имя для API java.io и API java.lang Псевдоним или псевдоним Описание
Большой5 Большой5 csBig5 Big5, традиционный китайский
Big5-HKSCS Большой5_HKSCS big5-hkscs big5hk Big5_HKSCS big5hkscs Big5 с расширениями Гонконга, традиционный китайский (включая редакцию 2001 г.)
EUC-JP EUC_JP csEUCPkdFmtяпонский x-euc-jp eucjis Extended_UNIX_Code_Packed_Format_for_Японский euc_jp eucjp x-eucjp JISX 0201, 0208 и 0212, кодировка EUC, японская
EUC-KR EUC_KR ksc5601-1987 csEUCKR ksc5601_1987 ksc5601 5601 euc_kr ksc_5601 ks_c_5601-1987 euckr KS C 5601, кодировка EUC, корейский язык
ГБ18030 ГБ18030 гб18030-2000 Китайский упрощенный, стандарт КНР
ГБ2312 EUC_CN GB2312 euc-cn x-EUC-CN euccn EUC_CN GB2312-80 GB2312-1980 GB2312, кодировка EUC, упрощенный китайский
ГБК ГБК CP936 окна-936 ГБК, упрощенный китайский
IBM-Thai Cp838 ibm-838 ibm838 838 cp838 IBM Thailand расширенный SBCS
IBM01140 Cp1140 cp1140 1140 cp01140 ebcdic-us-037 + евро ccsid01140 Вариант Cp037 с символом евро
IBM01141 Cp1141 1141 cp1141 cp01141 ccsid01141 ebcdic-de-273 + евро Вариант Cp273 с символом евро
IBM01142 Cp1142 1142 cp1142 cp01142 ccsid01142 ebcdic-no-277 + евро ebcdic-dk-277 + евро Вариант Cp277 с символом евро
IBM01143 Cp1143 1143 cp01143 ccsid01143 cp1143 ebcdic-fi-278 + евро ebcdic-se-278 + евро Вариант Cp278 с символом евро
IBM01144 Cp1144 cp01144 ccsid01144 ebcdic-it-280 + евро cp1144 1144 Вариант Cp280 с символом евро
IBM01145 Cp1145 ccsid01145 ebcdic-es-284 + евро 1145 cp1145 cp01145 Вариант CP284 с символом евро
IBM01146 Cp1146 ebcdic-gb-285 + евро 1146 cp1146 cp01146 ccsid01146 Вариант CP285 с символом евро
IBM01147 Cp1147 cp1147 1147 cp01147 ccsid01147 ebcdic-fr-277 + евро Вариант Cp297 с символом евро
IBM01148 Cp1148 cp1148 ebcdic-international-500 + евро 1148 cp01148 ccsid01148 Вариант Cp500 с символом евро
IBM01149 Cp1149 ebcdic-s-871 + евро 1149 cp1149 cp01149 ccsid01149 Вариант Cp871 с символом евро
IBM037 Cp037 cp037 ibm037 ibm-037 csIBM037 ebcdic-cp-us ebcdic-cp-ca ebcdic-cp-nl ebcdic-cp-wt 037 cpibm37 cs-ebcdic-cp-wt ibm-37 cs-ebcdic-cp-us cs-ebcdic-cp-ca cs-ebcdic-cp-nl США, Канада (двуязычный, французский), Нидерланды, Португалия, Бразилия, Австралия
IBM1026 Cp1026 cp1026 ibm-1026 1026 ibm1026 IBM Latin-5, Турция
IBM1047 Cp1047 ibm-1047 1047 cp1047 Набор символов Latin-1 для хостов EBCDIC
IBM273 Cp273 ibm-273 ibm273 273 cp273 IBM Австрия, Германия
IBM277 Cp277 ibm277 277 cp277 ibm-277 IBM Дания, Норвегия
IBM278 Cp278 cp278 278 ibm-278 ebcdic-cp-se csIBM278 ibm278 ebcdic-sv IBM Финляндия, Швеция
IBM280 Cp280 ibm280 280 cp280 ibm-280 IBM Италия
IBM284 Cp284 csIBM284 ibm-284 cpibm284 ibm284 284 cp284 IBM Каталонский / Испания, испанский Латинская Америка
IBM285 Cp285 csIBM285 cp285 ebcdic-gb ibm-285 cpibm285 ibm285 285 ebcdic-cp-gb IBM Великобритания, Ирландия
IBM290 Cp290 ibm290 290 cp290 EBCDIC-JP-кана csIBM290 ibm-290 IBM Japanese Katakana Host Extended SBCS
IBM297 Cp297 297 csIBM297 cp297 ibm297 ibm-297 cpibm297 ebcdic-cp-fr IBM Франция
IBM420 Cp420 ibm420 420 cp420 csIBM420 ibm-420 ebcdic-cp-ar1 IBM арабский
IBM424 Cp424 ebcdic-cp-he csIBM424 ibm-424 ibm424 424 cp424 IBM Иврит
IBM500 Cp500 ibm-500 ibm500 500 ebcdic-cp-bh ebcdic-cp-ch csIBM500 cp500 EBCDIC 500V1
IBM860 Cp860 ibm860 860 cp860 csIBM860 ibm-860 MS-DOS Португальский
IBM861 Cp861 cp861 ibm861 861 ibm-861 cp-is csIBM861 MS-DOS Исландский
IBM863 Cp863 csIBM863 ibm-863 ibm863 863 cp863 MS-DOS Канадский французский
IBM864 Cp864 csIBM864 ibm-864 ibm864 864 cp864 ПК Арабский
IBM865 Cp865 ibm-865 csIBM865 cp865 ibm865 865 MS-DOS Nordic
IBM868 Cp868 ibm868 868 cp868 csIBM868 ibm-868 cp-ar MS-DOS Пакистан
IBM869 Cp869 cp869 ibm869 869 ibm-869 cp-gr csIBM869 IBM Новогреческий
IBM870 Cp870 870 cp870 csIBM870 ibm-870 ibm870 ebcdic-cp-roece ebcdic-cp-yu IBM Multilingual Latin-2
IBM871 Cp871 ibm871 871 cp871 ebcdic-cp-is csIBM871 ibm-871 IBM Исландия
IBM918 Cp918 918 ibm-918 ebcdic-cp-ar2 cp918 IBM, Пакистан (урду)
ISO-2022-CN ISO2022CN csISO2022CN ISO2022CN GB2312 и CNS11643 в форме ISO 2022 CN, упрощенной и Традиционный китайский (только преобразование в Unicode)
ISO-2022-JP ISO2022JP csjisencoding iso2022jp jis_encoding jis csISO2022JP JIS X 0201, 0208, в форме ISO 2022, японский
ISO-2022-JP-2 ISO2022JP2 csISO2022JP2 iso2022jp2 JIS X 0201, 0208, 0212 в форме ISO 2022, японский
ISO-2022-KR ISO2022KR csISO2022KR ISO2022KR ISO 2022 KR, корейский
ISO-8859-3 ISO8859_3 ISO8859-3 ibm913 8859_3 l3 cp913 ISO_8859-3 iso8859_3 latin3 csISOLatin3 913 ISO_8859-3: 1988 ibm-913 iso-ir-109 Латинский алфавит No. 3
ISO-8859-6 ISO8859_6 ASMO-708 8859_6 iso8859_6 ISO_8859-6 csISOLatinArabic ibm1089 арабский ibm-1089 1089 ECMA-114 iso-ir-127 ISO_8859-6: 1987 ISO8859-6 cp1089 Латинский / арабский алфавит
ISO-8859-8 ISO8859_8 8859_8 ISO_8859-8 ISO_8859-8: 1988 cp916 iso-ir-138 ISO8859-8 иврит iso8859_8 ibm-916 csISOLatinHebrew 916 ibm916 Латинский / еврейский алфавит
JIS_X0201 JIS_X0201 JIS0201 csHalfWidthKatakana X0201 JIS_X0201 JIS X 0201
JIS_X0212-1990 JIS_X0212-1990 JIS0212 iso-ir-159 x0212 jis_x0212-1990 csISO159JISX02121990 JIS X 0212
Shift_JIS SJIS shift_jis x-sjis sjis shift-jis ms_kanji csShiftJIS Shift-JIS, японский
ТИС-620 TIS620 тис620 тис620. 2533 TIS620, тайский
окна-1255 Cp1255 cp1255 Windows Иврит
окна-1256 Cp1256 cp1256 Windows Арабский
окна-1258 Cp1258 cp1258 Windows Вьетнамский
окна-31j MS932 MS932 Windows-932 CSWindows31J Windows Японский
x-Big5-Solaris Big5_Solaris Big5_Solaris Big5 с семью дополнительными отображениями идеограмм Ханзи для Solaris zh_TW.BIG5 язык
x-euc-jp-Linux EUC_JP_LINUX euc_jp_linux euc-jp-linux JISX 0201, 0208, кодировка EUC, японская
x-EUC-TW EUC_TW euctw cns11643 EUC-TW euc_tw CNS11643 (плоскость 1-7,15), кодировка EUC, традиционный китайский
x-eucJP-Open EUC_JP_Solaris eucJP-open EUC_JP_Solaris JISX 0201, 0208, 0212, кодировка EUC, японская
x-IBM1006 Cp1006 ibm1006 ibm-1006 1006 cp1006 IBM AIX Пакистан (урду)
x-IBM1025 Cp1025 ibm-1025 1025 cp1025 ibm1025 IBM Multilingual Cyrillic: Болгария, Босния, Герцеговина, Македония (БЮР)
x-IBM1046 Cp1046 ibm1046 ibm-1046 1046 cp1046 IBM Arabic — Windows
x-IBM1097 Cp1097 ibm1097 ibm-1097 1097 cp1097 IBM Иран (фарси) / персидский
x-IBM1098 Cp1098 ibm-1098 1098 cp1098 ibm1098 IBM, Иран (фарси) / персидский (ПК)
x-IBM1112 Cp1112 ibm1112 ibm-1112 1112 cp1112 IBM Латвия, Литва
x-IBM1122 Cp1122 cp1122 ibm1122 ibm-1122 1122 IBM Эстония
x-IBM1123 Cp1123 ibm1123 ibm-1123 1123 cp1123 IBM Украина
x-IBM1124 Cp1124 ibm-1124 1124 cp1124 ibm1124 IBM AIX Украина
x-IBM1166 Cp1166 cp1166 ibm1166 ibm-1166 1166 IBM Cyrillic Multilingual с евро для Казахстана
x-IBM1364 Cp 1364 cp1364 ibm1364 ibm-1364 1364 IBM EBCDIC KS X 1005-1
x-IBM1381 Cp 1381 cp1381 ibm-1381 1381 ibm1381 IBM OS / 2, DOS Китайская Народная Республика (КНР)
x-IBM1383 Cp 1383 ibm1383 ibm-1383 1383 cp1383 IBM AIX Китайская Народная Республика (КНР)
x-IBM300 CP300 cp300 ibm300 300 ibm-300 IBM Японский двухбайтовый латинский хост
x-IBM33722 Cp33722 33722 ibm-33722 cp33722 ibm33722 ibm-5050 ibm-33722_vascii_vpua IBM-eucJP — японский (расширенный набор 5050)
x-IBM833 Cp833 ibm833 cp833 ibm-833 IBM Korean Host Extended SBCS
x-IBM834 Cp834 ibm834 834 cp834 ibm-834 IBM EBCDIC DBCS-only Korean
x-IBM856 Cp856 ibm856 856 cp856 ibm-856 IBM Иврит
x-IBM875 Cp875 ibm-875 ibm875 875 cp875 IBM Греческий
x-IBM921 Cp921 ibm921 921 ibm-921 cp921 IBM Латвия, Литва (AIX, DOS)
x-IBM922 Cp922 ibm922 922 cp922 ibm-922 IBM Эстония (AIX, DOS)
x-IBM930 Cp930 ibm-930 ibm930 930 cp930 Японские катакана и кандзи смешанные с 4370 УДК, расширенный набор из 5026
x-IBM933 Cp933 ibm933 933 cp933 ibm-933 Корейский смешанный с 1880 УДК, расширенный набор 5029
x-IBM935 Cp935 cp935 ibm935 935 ibm-935 Узел на упрощенном китайском, смешанный с 1880 UDC, расширенный набор из 5031
x-IBM937 Cp937 ibm-937 ibm937 937 cp937 Традиционный китайский хост, соединенный с 6204 UDC, расширенный набор 5033
x-IBM939 Cp939 ibm-939 cp939 ibm939 939 Японские латинские кандзи смешанные с 4370 УДК, расширенный набор 5035
x-IBM942 Cp942 ibm-942 cp942 ibm942 942 IBM OS / 2 Японский, расширенный набор Cp932
x-IBM942C Cp942C ibm942C cp942C ibm-942C 942C Вариант Cp942
x-IBM943 Cp943 ibm943 943 ibm-943 cp943 IBM OS / 2 Японский, расширенный набор Cp932 и Shift-JIS
x-IBM943C Cp943C 943C cp943C ibm943C ibm-943C Вариант Cp943
x-IBM948 CP948 ibm-948 ibm948 948 cp948 OS / 2 Китайский (Тайвань) расширенный набор 938
x-IBM949 CP949 ibm-949 ibm949 949 cp949 ПК Корейский
x-IBM949C Cp949C ibm949C ibm-949C cp949C 949C Вариант Cp949
x-IBM950 CP950 cp950 ibm950 950 ibm-950 ПК Китайский (Гонконг, Тайвань)
x-IBM964 Cp964 ibm-964 cp964 ibm964 964 AIX китайский (Тайвань)
x-IBM970 CP970 ibm970 ibm-eucKR 970 cp970 ibm-970 AIX корейский
x-ISCII91 ISCII91 ISCII91 iso-ir-153 iscii ST_SEV_358-88 csISO153GOST1976874 ISCII91 кодировка индийских скриптов
х-ISO2022-CN-CNS ISO2022_CN_CNS Не доступен CNS11643 в форме ISO 2022 CN, традиционный китайский (преобразование только из Unicode)
х-ISO2022-CN-ГБ ISO2022_CN_GB Не доступен GB2312 в форме ISO 2022 CN, упрощенный китайский (преобразование из Только Unicode)
x-iso-8859-11 х-iso-8859-11 iso-8859-11 iso8859_11 Латинский / тайский алфавит
х-JIS0208 х-JIS0208 JIS0208 JIS_C6226-1983 iso-ir-87 x0208 JIS_X0208-1983 csISO87JISX0208 JIS X 0208
x-JISAutoDetect JISAutoDetect JISAutoDetect Обнаруживает и преобразует Shift-JIS, EUC-JP, ISO 2022 JP (преобразование только в Unicode)
x-Johab x-Johab ms1361 ksc5601_1992 johab ksc5601-1992 Корейский, набор символов Джохаб
x-MacArabic Макарабский Макарабский Macintosh Арабский
x-MacCentralEurope MacCentralEurope MacCentralEurope Macintosh Latin-2
x-MacCroatian МакКроат МакКроат Macintosh Хорватский
х-MacCyrillic Макцирилловый маккирилловый Macintosh Кириллица
х-MacDingbat MacDingbat MacDingbat Macintosh Dingbat
x-MacGreek MacGreek MacGreek Греческий Macintosh
x-Mac Иврит MacHebrew MacHebrew Macintosh Иврит
x-MacIceland MacIceland MacIceland Macintosh Исландия
x-MacRoman MacRoman MacRoman Macintosh Roman
x-Mac Румыния MacRomania MacRomania Macintosh Румыния
x-MacSymbol MacSymbol MacSymbol Символ Macintosh
x-MacThai MacThai MacThai Тайский Macintosh
x-Mac Турецкий MacTurkish MacTurkish Macintosh Турецкий
x-Mac Украина Mac Украина MacUkraine Macintosh Украина
x-MS932_0213 х-MS950-HKSCS MS950_HKSCS Не доступен Shift_JISX0213 Windows MS932 вариант
х-MS950-HKSCS MS950_HKSCS MS950_HKSCS Windows Традиционный китайский с расширениями для Гонконга
х-MS950-HKSCS-XP x-mswin-936 MS936 MS950_HKSCS_XP HKSCS Windows XP вариант
x-mswin-936 MS936 мс936 мс_936 Windows (упрощенный китайский)
x-PCK PCK уп Версия Shift_JIS для Solaris
x-SJIS_0213 x-SJIS_0213 Не доступен Shift_JISX0213
x-окна-50220 Cp50220 cp50220 мс50220 Кодовая страница Windows 50220 (7-разрядная реализация)
x-windows-50221 Cp50221 cp50221 ms50221 Кодовая страница Windows 50221 (7-разрядная реализация)
x-окна-874 MS874 мс-874 мс874 окна-874 Windows тайский
x-окна-949 MS949 windows949 ms949 windows-949 ms_949 Windows Корейский
x-окна-950 MS950 ms950 окна-950 Windows Традиционный китайский
x-windows-iso2022jp x-windows-iso2022jp окна-iso2022jp Вариант ISO-2022-JP (на основе MS932)

Таблица сравнения символов в Windows-1252, ISO-8859-1, ISO-8859-15

Кодировки символов ISO-8859-1, ISO-8859-15 и Windows-1252 очень похожи, и их легко спутать. Это приводит к нескольким типичным проблемам. В следующей таблице показаны различия между этими кодировками, которые полезны для отладки связанных проблем.

ISO-8859-1 по сравнению с Windows-1252

ISO-8859-1 (также называемый Latin-1) идентичен Windows-1252 (также называемый CP1252), за исключением кодовых точек 128-159 (0x80-0x9F). ISO-8859-1 назначает несколько управляющих кодов в этом диапазоне. Windows-1252 имеет несколько символов, пунктуацию, арифметику и бизнес. символы, присвоенные этим кодовым точкам.

Типичные проблемы
  • Неверная маркировка текста, закодированного в Windows-1252 как ISO-8859-1, а затем преобразование из ISO-8859-1 в Unicode или другие кодировки приводит к появлению символов в диапазоне 128-159 теряться. Они преобразуются, как если бы они были управляющими кодами, и обычно отображаются в виде белого пространства, специального вопросительного знака, или квадрат, показывающий 4 шестнадцатеричных цифры кодовой точки.
  • Использование шрифта ISO-8859-1, который не имеет правильных глифов для символов Windows-1252 приведет к неправильному отображению символов.
  • HTML и XML используют кодовые точки Unicode в качестве значений в ссылках на числовые символы (NCR). Ссылки на числовые символы — это escape-символы записывается как & # dddd; или & # xhhhh; где десятичные или шестнадцатеричные значения являются кодовыми точками Unicode. Поскольку первые 256 символов в Юникоде идентичны символам в ISO-8859-1, люди приобретают привычку использовать знакомый им кодовый знак для создания NCR. Однако для символов в диапазоне 128–159 в Windows-1252 это неправильные значения.Например, евро (€) в кодовой точке 0x80 в Windows-1252, но в Unicode это U + 20AC. & # x80; является NCR для контрольного кода и не будет отображаться как евро. Правильный NCR — & # x20AC ;.

В сравнительной таблице ниже показаны кодовые точки Unicode, связанные с Windows-1252. символы в диапазоне 128-159.

ISO-8859-1 в сравнении с ISO-8859-15

Эти 2 кодировки идентичны, за исключением 8 кодовых точек, что вызывает путаницу между ними, а также с Windows-1252. Для получения дополнительных сведений об ISO-8859-15, см. Сравнение ISO-8859-1 и ISO-8859-15.

Таблица сравнения

Вот символы в диапазоне 128-159 в Windows 1252 с их кодовыми точками Unicode, Значения байтов UTF-8 и кодовые точки ISO-8859-15, если они отличаются от ISO-8859-1.

Примечание по терминологии:

  • NCR = Ссылка на цифровые символы
  • CER = Ссылка на сущность символа
  • CP1252 = Windows-1252
г.
Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15
Кодовый пункт UTF-8 байт NCR * Персонаж CER * или NCR * Имя персонажа
CP1252 * ISO 8859-15 Юникод
(декабрь) (шестигранник) (шестигранник) (шестигранник) # 1 # 2 # 3 (декабрь) (шестигранник)
128 80 A4 20AC E2 82 AC & # 8364; евро; Знак евро
129 81 НЕПРЕДНАЗНАЧЕН
130 82 201A E2 80 9A & # 8218; & sbquo; Одиночный малый 9 кавычки
131 83 192 C6 92 & # 402; ƒ & # x192; Строчная латинская буква F с крючком
132 84 201E E2 80 9E & # 8222; & bdquo; Двойной низкий 9 котировальный знак
133 85 2026 E2 80 A6 & # 8230; и hellip; Эллипс по горизонтали
134 86 2020 E2 80 A0 & # 8224; & кинжал; Кинжал
135 87 2021 E2 80 A1 & # 8225; и кинжал; Двойной кинжал
136 88 2C6 CB 86 & # 710; ˆ & circ; Буква-модификатор Circumflex Accent
137 89 2030 E2 80 B0 & # 8240; & permil; Знак промилле
138 8A A6 160 C5 A0 & # 352; Š и Scaron; Латинская заглавная буква S с кароном
139 2039 E2 80 В9 & # 8249; & lsaquo; Кавычка с одинарным левым углом
140 8C г. до н.э. 152 C5 92 & # 338; Œ и OElig; Латинская заглавная лигатура OE
141 8D НЕПРЕДНАЗНАЧЕН
142 8E В4 17D C5 BD & # 381; Ž & # x17D; Латинская заглавная буква Z с кароном
143 8F НЕПРЕДНАЗНАЧЕН
144 90 НЕПРЕДНАЗНАЧЕН
145 91 2018 E2 80 98 & # 8216; & lsquo; Одинарный кавычка левый
146 92 2019 E2 80 99 & # 8217; & rsquo; Одинарный кавычочный знак правый
147 93 201C E2 80 9C & # 8220; & ldquo; Двойные кавычки слева
148 94 201D E2 80 9D & # 8221; & rdquo; Двойные кавычки, правые
149 95 2022 E2 80 A2 & # 8226; и бык; Пуля
150 96 2013 E2 80 93 & # 8211; & ndash; En Dash
151 97 2014 E2 80 94 & # 8212; & mdash; Em Dash
152 98 2DC CB 9C & # 732; ~ & тильда; Маленькая тильда
153 99 2122 E2 84 A2 & # 8482; и торговля; Знак товарного знака
154 9A A8 161 C5 A1 & # 353; š & scaron; Строчная латинская буква S с кароном
155 203A E2 80 BA & # 8250; & rsaquo; Одинарный кавычочный знак, указывающий вправо
156 9C BD 153 C5 93 & # 339; & oelig; Маленькая латинская лигатура OE
157 9D НЕПРЕДНАЗНАЧЕН
158 9E В8 17E C5 BE & # 382; х & # x17E; Строчная латинская буква Z с кароном
159 9F BE 178 C5 В8 & # 376; Ÿ и Yuml; Латинская заглавная буква Y с диэрезисом

Дополнительные ссылки

Авторские права © 2010, 2011 Tex Texin. Все права защищены.
вернуться наверх

Преобразование кодировки символов — ABAP Development

SAP предоставляет программу конвертера CCC для преобразования символов из одной кодировки в другую.

Оглавление

Кодировка символов — это имя («utf-8», «iso-8859-1» и т. Д.) И таблица эквивалентности с набором символов и значений октетов для каждого из них. символы.

Кодовая страница — это имя, которое SAP использует вместо кодировки символов.Кодовые страницы имеют 4-значное число вместо имени символа.

Эквивалентность международного имени кодировки символов и номера кодовой страницы SAP.

Некоторые программы SAP ожидают:

  • либо четырехзначный код: затем вам необходимо ввести номер кодовой страницы SAP
    • Номер кодовой страницы SAP можно найти в имя международной кодировки символов путем вызова функционального модуля SCP_CODEPAGE_BY_EXTERNAL_NAME. Или вы можете посмотреть таблицу базы данных TCP00A.
  • или код из 20 символов: обычно вы можете ввести кодировку символов или кодовую страницу SAP.Обычно регистр кодировки символов игнорируется.

Примеры нескольких эквивалентов:

918 Сдвиг J

Кодовая страница SAP

Кодировка символов международное название

124

IBM EBCDIC 00697/00297

1100

iso-8859-1

1105

US-ASCII (7 бит)

1160

windows-1252

4102

utf-16be

4103

utf-16le

4110

utf-8

8000

8300

BIG5

  • Преобразование одной кодовой страницы в другую может оказаться невозможным для всех символов исходной кодовой страницы, поскольку они не существуют в целевой кодовой странице.
    • Например, конвертировать big5 (китайский) в us-ascii нет смысла. Если вы думаете, что это должно быть возможно, то вы, вероятно, сделали неправильный выбор.
    • В этом случае мы должны предоставить символ замены преобразователю CCC.
  • Последовательность байтов не распознается как символ на исходной кодовой странице. Это означает, что:
    • либо программа-отправитель не соблюдает кодовую страницу (затем попросите программу-отправитель исправить ошибку)
    • , либо вам следует выбрать другую кодовую страницу (иногда различия между кодовыми страницами очень малы)
    • или ваша программа ошибочно сократила входные байты, последний входной байт (а) ничего не значит.
    • Например, 2 единственных байта D8 00 ничего не значат в utf-16le: ожидается, что 2 следующих байта смогут идентифицировать символ (здесь закодированы 4 байтами).

Конвертер CCC — это программа ядра, к которой могут обращаться несколько программ:

  • Класс CL_ABAP_CODEPAGE, доступный с 7. 02. Кодовая страница не может быть номером SAP, это должно быть либо «международное имя кодировки символов», либо имя, используемое в языке java.
  • CL_ABAP_CONV_ * классы, начиная с 6.10, где CL_ABAP_CONV_OBJ — это мастер-класс, предоставляющий полный доступ к конвертеру CCC. Существуют также эти классы, которые вызывают конвертер CCC со значениями по умолчанию:
    • CL_ABAP_CONV_IN_CE: преобразует байты, представляющие символы в данной кодовой странице, в символьную или строковую переменную
    • CL_ABAP_CONV_OUT_CE: преобразует символьную или строковую переменную в байты, представляющие символы в данной кодовой странице
    • CL_ABAP_CONV_X2X_CE: преобразует байты, представляющие символы в данной кодовой странице, в байты, представляющие символы в другой заданной кодовой странице
  • Функциональный модуль SCP_TRANSLATE_CHARS, работает со всеми выпусками

Примечание: CCC означает Кэш преобразования набора символов, область памяти, в которой хранит кодовые страницы, необходимые для преобразований.

ascii, таблица ascii, кодовая страница, кодовая страница, расширенный

32 20 ПРОСТРАНСТВО
33 21 ! восклицательный знак
34 22 « ЦЕНА
35 23 # НОМЕРНЫЙ ЗНАК
36 24 $ ДОЛЛАРНЫЙ ЗНАК
37 25 % ЗНАК ПРОЦЕНТА
38 26 и АМПЕРСАНД
39 27 \ ‘ АПОСТРОФ
40 28 ( ЛЕВЫЙ ПАРЕНТЕЗ
41 29 ) ПРАВЫЙ ПАРЕНТЕЗ
42 * ASTERISK
43 + ЗНАК ПЛЮС
44 2C , ЗАПЯТАЯ
45 ДЕФИС-МИНУС
46 2E . ПОЛНАЯ ОСТАНОВКА
47 2F / SOLIDUS
48 30 0 ЦИФРОВОЙ НОЛЬ
49 31 1 DIGIT ONE
50 32 2 ЦИФРА ДВА
51 33 3 ТРИ ЦИФРА
52 34 4 ЦИФРА ЧЕТЫРЕ
53 35 5 ЦИФРА ПЯТЬ
54 36 6 ШЕСТЬ ЦИФРОВ
55 37 7 СЕМЬ ЦИФРОВ
56 38 8 ВОСЕМЬ ЦИФРА
57 39 9 ДЕВЯТЬ ЦИФРОВ
58 3A : КОЛОНА
59 ; СЕМИКОЛОН
60 3C МЕНЬШЕ ЗНАКА
61 3D = ЗНАК РАВНО
62 3E > ЗНАК БОЛЬШЕ, ЧЕМ
63 3F ? ВОПРОСНИК
64 40 @ КОММЕРЧЕСКИЙ НАБОР
65 41 А ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА A
66 42 Б ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА B
67 43 К ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА C
68 44 Д ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА D
69 45 E ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА E
70 46 Факс ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА F
71 47 г ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА G
72 48 H ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА H
73 49 Я ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА I
74 4A Дж ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА J
75 К ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА K
76 4C л ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА L
77 4D М ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА M
78 4E N ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА N
79 4F О ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА O
80 50 п ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА P
81 51 К ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Q
82 52 р ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА R
83 53 S ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА S
84 54 Т ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА T
85 55 U ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА U
86 56 В ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА V
87 57 Вт ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА W
88 58 Х ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА X
89 59 Y ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Y
90 5A Z ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА Z
91 [ КРОНШТЕЙН КВАДРАТНЫЙ ЛЕВЫЙ
92 5C \ ОБРАТНЫЙ SOLIDUS
93 5D ] КРОНШТЕЙН ПРАВЫЙ КВАДРАТНЫЙ
94 5E ^ CIRCUMFLEX ACCENT
95 5F _ НИЗКАЯ ЛИНИЯ
96 60 ` МОЩНЫЙ АКЦЕНТ
97 61 а СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A
98 62 б СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B
99 63 с СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C
100 64 д СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D
101 65 e СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E
102 66 ф СТРОЧНАЯ ЛАТИНСКАЯ БУКВА F
103 67 г СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G
104 68 ч СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H
105 69 и СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I
106 6A к СТРОЧНАЯ ЛАТИНСКАЯ БУКВА J
107 к СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K
108 6C л СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L
109 6D м СТРОЧНАЯ ЛАТИНСКАЯ БУКВА M
110 6E n СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N
111 6F или СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O
112 70 п СТРОЧНАЯ ЛАТИНСКАЯ БУКВА P
113 71 кв СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q
114 72 р СТРОЧНАЯ ЛАТИНСКАЯ БУКВА R
115 73 с СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S
116 74 т СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T
117 75 u СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U
118 76 v СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V
119 77 w СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W
120 78 x СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X
121 79 y СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Y
122 7A z СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Z
123 { КРОНШТЕЙН ЛЕВЫЙ ИЗГОЛЬНЫЙ
124 7C | ВЕРТИКАЛЬНАЯ ЛИНИЯ
125 7D } КРОНШТЕЙН ПРАВИЛЬНЫЙ
126 7E ~ ТИЛЬДА
128 80 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DJE
129 81 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GJE
130 82 ОДИНОЧНЫЙ ЦИФРОВОЙ ЗНАК НИЗКОГО 9
131 83 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА GJE
132 84 ДВОЙНОЙ НИЗКИЙ-9 ЦЕННЫЙ ЗНАК
133 85 ГОРИЗОНТАЛЬНЫЙ ЭЛЛИПСИС
134 86 КИНЖАЛ
135 87 ДВОЙНОЙ КИНЖАЛ
136 88 ЕВРО ЗНАК
137 89 ЗНАК НА МЕЛЬНИЦУ
138 8A ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА LJE
139 ОДИН ЛЕВЫЙ УГЛОВОЙ ЦИТАТНЫЙ МАРК
140 8C ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА NJE
141 8D ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KJE
142 8E ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TSHE
143 8F ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ДЖЕ
144 90 ? Кирилическая строчная буква DJE
145 91 ОДИНОЧНЫЙ ЗНАК ЛЕВЫЙ
146 92 ОДИНОЧНЫЙ ЗНАК ПРАВЫЙ
147 93 ЛЕВЫЙ ДВОЙНОЙ ЗНАК
148 94 ДВОЙНОЙ ПРАВИЛЬНЫЙ МАРК
149 95 ПУЛЯ
150 96 EN DASH
151 97 EM DASH
153 99 ТОВАРНЫЙ ЗНАК
154 9A ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА LJE
155 ОДНОПРАВИЛЬНЫЙ УГЛОВОЙ МАРКЕТ
156 9C ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА NJE
157 9D ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА KJE
158 9E ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TSHE
159 9F ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ДЖЕ
160 A0 ПРОСТРАНСТВО БЕЗ РАЗРЫВА
161 A1 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U
162 A2 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА КОРОТКАЯ U
163 A3 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА JE
164 A4 ЗНАК ВАЛЮТЫ
165 A5 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE С ПОВОРОТОМ
166 A6 СЛОМАННЫЙ БАР
167 A7 СЕКЦИОННЫЙ ЗНАК
168 A8 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IO
169 A9 ЗНАК АВТОРСКОГО ПРАВА
170 AA ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE
171 AB ДВОЙНОЙ УГОЛ ЛЕВЫЙ ЦИАТОРНЫЙ МАРК
172 AC НЕ ЗНАК
173 н. э. МЯГКИЙ ДИФЕН
174 AE ЗАРЕГИСТРИРОВАННЫЙ ЗНАК
175 AF ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YI
176 B0 ЗНАК
177 B1 ЗНАК ПЛЮС-МИНУС
178 B2 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЕЛОРУССКО-УКРАИНСКОЕ I
179 B3 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЕЛОРУССКО-УКРАИНСКАЯ I
180 B4 ? Кирилическая строчная буква GHE с переворотом
181 B5 МИКРО ЗНАК
182 B6 ЗНАК ПИЛКРОВА
183 B7 СРЕДНЯЯ ТОЧКА
184 В8 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IO
185 B9 ? ЗНАК НОМЕРО
186 BA ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА УКРАИНСКИЙ IE
187 BB ДВОЙНОЙ УГЛОВОЙ ЦИАТОРНЫЙ МАРК ВПРАВО
188 до н. э. ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА JE
189 BD ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DZE
190 BE ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DZE
191 BF ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YI
192 C0 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A
193 C1 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА БЫТЬ
194 C2 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА VE
195 C3 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА GHE
196 C4 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА DE
197 C5 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА IE
198 C6 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZHE
199 C7 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ZE
200 C8 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА I
201 C9 ? КОРОТКАЯ ЗАГЛАВНАЯ БУКВА I
202 CA ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА KA
203 CB ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EL
204 CC ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EM
205 CD ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EN
206 CE ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА O
207 CF ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА PE
208 D0 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ER
209 D1 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ES
210 D2 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА TE
211 D3 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА U
212 D4 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА EF
213 D5 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА HA
214 D6 ? Кирилическая прописная буква TSE
215 D7 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА CHE
216 D8 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА SHA
217 D9 ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЩА
218 DA ? ЖЕСТКИЙ ЗНАК КИРИЛИЧЕСКОЙ ЗАГЛАВНОЙ БУКВЫ
219 DB ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ЙЕРУ
220 DC ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА МЯГКИЙ ЗНАК
221 DD ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА E
222 DE ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YU
223 DF ? КИРИЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА YA
224 E0 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА A
225 E1 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА БЫТЬ
226 E2 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА VE
227 E3 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА GHE
228 E4 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА DE
229 E5 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IE
230 E6 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZHE
231 E7 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ZE
232 E8 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА I
233 E9 ? Кирилическая строчная буква I
234 EA ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА KA
235 EB ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EL
236 EC ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EM
237 ED ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА EN
238 EE ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА O
239 EF ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА PE
240 F0 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ER
241 F1 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ES
242 F2 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА TE
243 F3 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА U
244 F4 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА EF
245 F5 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА HA
246 F6 ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА TSE
247 F7 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА CHE
248 F8 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА SHA
249 F9 ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЩА
250 FA ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК
251 FB ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА ЙЕРУ
252 FC ? КИРИЛИЧЕСКАЯ СТРОЧНАЯ БУКВА МЯГКИЙ ЗНАК
253 FD ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА E
254 FE ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YU
255 FF ? СТРОЧНАЯ КИРИЛИЧЕСКАЯ БУКВА YA

PostgreSQL: Документация: 8. 4: Поддержка набора символов

Поддержка набора символов в PostgreSQL позволяет хранить текст в множество наборов символов (также называемых кодировками), включая однобайтовые наборы символов, такие как серия ISO 8859 и многобайтовые наборы символов, такие как EUC (Extended Unix Code), UTF-8 и Mule внутренний код. Можно использовать все поддерживаемые наборы символов прозрачно для клиентов, но некоторые из них не поддерживаются для использования внутри сервера (то есть как кодирование на стороне сервера). В набор символов по умолчанию выбирается при инициализации вашего Кластер базы данных PostgreSQL используя initdb.Это может быть отменено, когда вы создаете базу данных, поэтому у вас может быть несколько баз данных каждая с другим набором символов.

Однако важным ограничением является то, что каждая база данных набор символов должен быть совместим с LC_CTYPE и LC_COLLATE базы данных настройки локали. Для локали C или POSIX разрешен любой набор символов, но для других языков существует только один набор символов, который будет работать правильно. (В Windows, однако, кодировка UTF-8 может использоваться с любой регион.)

Таблица 22-1 показывает наборы символов, доступные для использования в PostgreSQL.

Таблица 22-1. Наборы символов PostgreSQL

Имя Описание Язык Сервер? байт / символ Псевдонимы
BIG5 Большая пятерка Китайский традиционный 1-2 WIN950, Windows950
EUC_CN Расширенный код UNIX — CN Китайский упрощенный Есть 1-3
EUC_JP Расширенный код UNIX-JP Японский Есть 1-3
EUC_JIS_2004 Расширенный код UNIX-JP, JIS X 0213 Японский Есть 1-3
EUC_KR Расширенный код UNIX-KR Корейский Есть 1-3
EUC_TW Расширенный код UNIX-TW Китайский традиционный, тайваньский Есть 1-3
ГБ18030 Национальный стандарт Китайский 1-2
ГБК Национальный стандарт расширенный Китайский упрощенный 1-2 WIN936, Windows936
ISO_8859_5 ISO 8859-5, ECMA 113 Латиница / кириллица Есть 1
ISO_8859_6 ISO 8859-6, ECMA 114 Латинский / арабский Есть 1
ISO_8859_7 ISO 8859-7, ECMA 118 Латинский / греческий Есть 1
ISO_8859_8 ISO 8859-8, ECMA 121 Латинский / Иврит Есть 1
JOHAB JOHAB Корейский (хангыль) 1-3
КОИ8Р КОИ8-Р Кириллица (русская) Есть 1 КОИ8
КОИ8У КОИ8-У Кириллица (украинская) Есть 1
ЛАТИН 1 ISO 8859-1, ECMA 94 Западноевропейская Есть 1 ISO88591
ЛАТИН 2 ISO 8859-2, ECMA 94 Центральноевропейская Есть 1 ISO88592
ЛАТИН 3 ISO 8859-3, ECMA 94 Южноевропейский Есть 1 ISO88593
ЛАТИН 4 ISO 8859-4, ECMA 94 Северная Европа Есть 1 ISO88594
LATIN5 ISO 8859-9, ECMA 128 Турецкий Есть 1 ISO88599
LATIN6 ISO 8859-10, ECMA 144 Северный Есть 1 ISO885910
LATIN7 ISO 8859-13 Балтика Есть 1 ISO885913
LATIN8 ISO 8859-14 кельтский Есть 1 ISO885914
ЛАТИН 9 ISO 8859-15 LATIN1 с евро и акцентами Есть 1 ISO885915
ЛАТИН 10 ISO 8859-16, ASRO SR 14111 Румынский Есть 1 ISO885916
MULE_INTERNAL Мул внутренний код Многоязычный Emacs Есть 1–4
SJIS Сдвиг JIS Японский 1-2 Мсканджи, ShiftJIS, WIN932, Windows 932
SHIFT_JIS_2004 Сдвиг JIS, JIS X 0213 Японский 1-2
SQL_ASCII не указано (см. Текст) любая Есть 1
UHC Единый код хангыль Корейский 1-2 WIN949, Windows949
UTF8 Unicode, 8-битный все Есть 1–4 Юникод
WIN866 Окна CP866 Кириллица Есть 1 ALT
WIN874 Окна CP874 Тайский Есть 1
WIN1250 Окна CP1250 Центральноевропейская Есть 1
WIN1251 Окна CP1251 Кириллица Есть 1 ВЫИГРАТЬ
WIN1252 Окна CP1252 Западноевропейская Есть 1
WIN1253 Окна CP1253 Греческий Есть 1
WIN1254 Окна CP1254 Турецкий Есть 1
WIN1255 Окна CP1255 Еврейский Есть 1
WIN1256 Окна CP1256 Арабский Есть 1
WIN1257 Окна CP1257 Балтика Есть 1
WIN1258 Окна CP1258 Вьетнамский Есть 1 ABC, TCVN, TCVN5712, VSCII

Не все API поддерживают все перечисленные наборы символов. Например, драйвер PostgreSQL JDBC не поддерживает MULE_INTERNAL, LATIN6, LATIN8 и ЛАТИНСКИЙ 10.

Параметр SQL_ASCII ведет себя значительно отличается от других настроек. Когда набор символов сервера — SQL_ASCII, сервер интерпретирует байтовые значения 0-127 в соответствии с ASCII стандартные, а байтовые значения 128–255 считаются неинтерпретируемыми символы. Преобразование кодировки не будет выполнено, когда настройка — SQL_ASCII. Таким образом, это настройка — это не столько декларация, сколько конкретная кодировка используется как заявление о незнании кодировки.В в большинстве случаев, если вы работаете с любыми данными, отличными от ASCII, это неразумно использовать параметр SQL_ASCII, потому что PostgreSQL будет не может помочь вам преобразованием или проверкой не-ASCII символы.

initdb определяет значение по умолчанию набор символов для PostgreSQL кластер. Например,

initdb -E EUC_JP
 

устанавливает набор символов (кодировку) по умолчанию на EUC_JP (расширенный код Unix для японского языка). Ты можно использовать —encoding вместо -E, если вы предпочитаете вводить более длинный вариант струны.Если не задана опция -E или —encoding, initdb пытается определить соответствующий кодировка для использования на основе указанного языкового стандарта или языкового стандарта по умолчанию.

Вы можете указать нестандартную кодировку при создании базы данных время, при условии, что кодировка совместима с выбранный языковой стандарт:

createdb -E EUC_KR -T template0 --lc-collate = ko_KR.euckr --lc-ctype = ko_KR.euckr корейский
 

Это создаст базу данных с именем korean, которая использует набор символов EUC_KR и локаль ko_KR.Другой способ добиться этого — использовать эта команда SQL:

СОЗДАТЬ БАЗУ ДАННЫХ корейский С КОДИРОВАНИЕМ 'EUC_KR' LC_COLLATE = 'ko_KR.euckr' LC_CTYPE = 'ko_KR.euckr' TEMPLATE = template0;
 

Обратите внимание, что приведенные выше команды определяют копирование template0 база данных. При копировании любых другая база данных, настройки кодировки и локали не могут быть изменено по сравнению с исходной базой данных, потому что это может привести к повреждению данных. Для получения дополнительной информации см. Раздел 21.3.

Кодировка для базы данных хранится в системном каталоге pg_database. Вы можете увидеть это, используя параметр -l или команду \ l в psql.

$  psql -l 
                                         Список баз данных
   Имя | Владелец | Кодирование | Сортировка | Ctype | Права доступа
----------- + ---------- + ----------- + ------------- + - ------------ + -------------------------------------
 clocaledb | хлиннака | SQL_ASCII | C | C |
 englishdb | хлиннака | UTF8 | en_GB.UTF8 | en_GB.UTF8 |
 японский | хлиннака | UTF8 | ja_JP.UTF8 | ja_JP.UTF8 |
 корейский | хлиннака | EUC_KR | ko_KR.euckr | ko_KR.euckr |
 postgres | хлиннака | UTF8 | fi_FI.UTF8 | fi_FI.UTF8 |
 template0 | хлиннака | UTF8 | fi_FI. UTF8 | fi_FI.UTF8 | {= c / hlinnaka, hlinnaka = CTc / hlinnaka}
 template1 | хлиннака | UTF8 | fi_FI.UTF8 | fi_FI.UTF8 | {= c / hlinnaka, hlinnaka = CTc / hlinnaka}
(7 рядов)
 

Важно: В большинстве современных операционных систем PostgreSQL может определить какой набор символов подразумевается параметром LC_CTYPE, и он будет обеспечивать выполнение этого используется только соответствующая кодировка базы данных.На более старых систем, вы несете ответственность за использование кодировка, ожидаемая выбранной вами локалью. А ошибка в этой области может привести к странным некорректное поведение операций, зависящих от локали, таких как сортировка.

PostgreSQL позволит суперпользователи для создания баз данных с кодировкой SQL_ASCII, даже если LC_CTYPE не C или POSIX. Как отмечалось выше, SQL_ASCII не требует, чтобы данные хранится в базе данных, имеет какую-либо конкретную кодировку, и поэтому такой выбор создает риск неправильного поведения в зависимости от региона. Использование этой комбинации настроек не рекомендуется и может когда-нибудь вообще запретят.

PostgreSQL поддерживает автоматическое преобразование набора символов между сервером и клиентом для определенных комбинаций набора символов. Преобразование информация хранится в системном каталоге pg_conversion. PostgreSQL поставляется с некоторыми предопределенными преобразования, как показано в Таблице 22-2. Вы можете создать новое преобразование с помощью команды SQL СОЗДАЙТЕ КОНВЕРСИЮ.

Таблица 22-2. Набор символов клиент / сервер Преобразования

Серверный набор символов Доступные наборы символов клиента
BIG5 не поддерживается как серверная кодировка
EUC_CN EUC_CN, MULE_INTERNAL, UTF8
EUC_JP EUC_JP, MULE_INTERNAL, SJIS, UTF8
EUC_KR EUC_KR, MULE_INTERNAL, UTF8
EUC_TW EUC_TW, BIG5, MULE_INTERNAL, UTF8
ГБ18030 не поддерживается как серверная кодировка
ГБК не поддерживается как серверная кодировка
ISO_8859_5 ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866, WIN1251
ISO_8859_6 ISO_8859_6, UTF8
ISO_8859_7 ISO_8859_7, UTF8
ISO_8859_8 ISO_8859_8, UTF8
JOHAB ИОХАБ, UTF8
КОИ8Р КОИ8Р, ISO_8859_5, MULE_INTERNAL, UTF8, WIN866, WIN1251
КОИ8У КОИ8У, UTF8
ЛАТИН 1 LATIN1, MULE_INTERNAL, UTF8
ЛАТИН 2 LATIN2, MULE_INTERNAL, UTF8, WIN1250
ЛАТИН 3 LATIN3, MULE_INTERNAL, UTF8
ЛАТИН 4 LATIN4, MULE_INTERNAL, UTF8
LATIN5 LATIN5, UTF8
LATIN6 LATIN6, UTF8
LATIN7 LATIN7, UTF8
LATIN8 LATIN8, UTF8
ЛАТИН 9 LATIN9, UTF8
ЛАТИН 10 LATIN10, UTF8
MULE_INTERNAL MULE_INTERNAL, BIG5, EUC_CN, EUC_JP, EUC_KR, EUC_TW, ISO_8859_5, KOI8R, LATIN1 в LATIN4, SJIS, WIN866, WIN1250, WIN1251
SJIS не поддерживается как серверная кодировка
SQL_ASCII любая (нет конверсия будет производиться)
UHC не поддерживается как серверная кодировка
UTF8 все поддерживаются кодировки
WIN866 WIN866, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN1251
WIN874 WIN874, UTF8
WIN1250 WIN1250, LATIN2, MULE_INTERNAL, UTF8
WIN1251 WIN1251, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866
WIN1252 WIN1252, UTF8
WIN1253 WIN1253, UTF8
WIN1254 WIN1254, UTF8
WIN1255 WIN1255, UTF8
WIN1256 WIN1256, UTF8
WIN1257 WIN1257, UTF8
WIN1258 WIN1258, UTF8

Чтобы включить автоматическое преобразование набора символов, необходимо сообщить PostgreSQL персонажа установить (кодировку), которую вы хотите использовать в клиенте. Есть несколько способов сделать это:

  • Использование команды \ encoding в psql. \ encoding позволяет вам изменить клиента кодирование на лету. Например, чтобы изменить кодировку на SJIS, тип:

    \ кодирование SJIS
     
  • libpq (раздел 30.9) имеет функции для контролировать клиентскую кодировку.

  • Использование SET client_encoding TO.Установка клиентской кодировки может быть выполнена с помощью этого SQL команда:

    УСТАНОВИТЕ CLIENT_ENCODING в 'значение';
     

    Также для этой цели можно использовать стандартный синтаксис SQL SET NAMES:

    УСТАНОВИТЬ ИМЕНА 'значение';
     

    Для запроса текущей клиентской кодировки:

    ПОКАЗАТЬ client_encoding;
     

    Чтобы вернуться к кодировке по умолчанию:

    СБРОС client_encoding;
     
  • Использование PGCLIENTENCODING. Если переменная среды PGCLIENTENCODING определяется в клиентской среда, эта клиентская кодировка выбирается автоматически при подключении к серверу. (Это может впоследствии можно переопределить с помощью любого из других методов упомянуто выше.)

  • Использование переменной конфигурации client_encoding. Если переменная client_encoding равна установить, эта клиентская кодировка автоматически выбирается, когда подключение к серверу произведено.(Впоследствии это может быть переопределить с помощью любого из других упомянутых методов выше.)

Если преобразование определенного символа невозможно — предположим, вы выбрали EUC_JP для сервер и LATIN1 для клиента, тогда некоторые японские иероглифы не представлены в LATIN1 — тогда ошибка сообщил.

Если набор символов клиента определен как SQL_ASCII, преобразование кодировки отключено, независимо от набора символов сервера. Так же, как и сервер, использование SQL_ASCII неразумно если вы не работаете с данными в формате ASCII.

Это хорошие источники, чтобы начать изучать различные виды систем кодирования.

TextDecoder () — веб-API | MDN

« unicode-1-1-utf-8 «, « utf-8 «, « utf8 » 'УТФ-8'
« 866 «, « cp866 «, « csibm866 «, « ibm866 » 'ibm866'
« цисолатин2 «, « iso-8859-2 «, « iso-ir-101 », « iso8859-2 », « iso88592 », « iso_8859-2 », « iso_8859-2: 1987 », « l2 », « латин 2 » 'iso-8859-2'
« цисолатин3 «, « iso-8859-3 «, « iso-ir-109 », « iso8859-3 », « iso88593 », « iso_8859-3 », « iso_8859-3: 1988 », « l3 », « латин3 » 'iso-8859-3'
« цисолатин4 «, « iso-8859-4 «, « iso-ir-110 », « iso8859-4 », « iso88594 », « iso_8859-4 », « iso_8859-4: 1988 », « l4 », « латинское4 » 'iso-8859-4'
« кириллица «, « кириллица «, « iso-8859-5 », « iso-ir-144 », « iso88595 », « iso_8859-5 », « iso_8859-5: 1988 » 'iso-8859-5'
« арабский », « asmo-708 », « csiso88596e », « csiso88596i «, « csisolatinarabic «, « ecma-114 », « iso-8859-6 », « iso-8859-6-e », « iso-8859-6-i », « iso-ir-127 », « iso8859-6 », « iso88596 », « iso_8859-6 », « iso_8859-6: 1987 » 'iso-8859-6'
« csisolatingreek «, « ecma-118 «, « elot_928 «, « greek «, « greek8 «, « iso-8859-7 », « iso-ir-126 », « iso8859-7 », « iso88597 », « iso_8859-7 », « iso_8859-7: 1987 », « sun_eu_greek » 'iso-8859-7'
« csiso88598e «, « csisolatinhebrew «, « иврит », « iso-8859-8 », « iso-8859-8-e », « iso-ir-138 », « iso8859-8 », « iso88598 », « iso_8859-8 », « iso_8859-8: 1988 », « визуал » 'iso-8859-8'
« csiso88598i «, « iso-8859-8-i «, « логический » 'iso-8859-8i'
« цисолатин6 «, « iso-8859-10 «, « iso-ir-157 », « iso8859-10 », « iso885910 », « l6 », « latin6 » 'iso-8859-10'
« iso-8859-13 «, « iso8859-13 «, « iso885913 » 'iso-8859-13'
« iso-8859-14 «, « iso8859-14 «, « iso885914 » 'iso-8859-14'
« цисолатин9 «, « iso-8859-15 «, « iso8859-15 », « iso885915 », « l9 », « латин9 » 'iso-8859-15'
« iso-8859-16 » 'iso-8859-16'
« кои8р », « кои », « кои8 », « кои8-р », « кои8_р » 'КОИ8-Р'
« кои8-у » 'КОИ8-У'
« csmacintosh », « mac », « macintosh », « x-mac-roman » "Macintosh"
« дос-874 », « исо-8859-11 », « iso8859-11 », « iso885911 », « tis-620 », « окна-874 » 'окна-874'
« cp1250 «, « windows-1250 «, « x-cp1250 » 'окна-1250'
« cp1251 «, « windows-1251 «, « x-cp1251 » 'окна-1251'
« ansi_x3. 4-1968 «,» ascii «,» cp1252 «, « cp819 », « csisolatin1 », « ibm819 », « iso-8859-1 », « iso-ir-100 », « iso8859-1 », « iso88591 », « iso_8859-1 », « iso_8859-1: 1987 », « l1 », « latin1 », « us-ascii », « windows-1252 », « x-cp1252 » 'окна-1252'
« cp1253 «, « windows-1253 «, « x-cp1253 » 'окна-1253'
« cp1254 «, « csisolatin5 «, « iso-8859-9 », « iso-ir-148 », « iso8859-9 », « iso88599 », « iso_8859-9 », « iso_8859-9: 1989 », « l5 », « latin5 », « windows-1254 «, « x-cp1254 » 'окна-1254'
« cp1255 «, « windows-1255 «, « x-cp1255 » 'окна-1255'
« cp1256 «, « windows-1256 «, « x-cp1256 » 'окна-1256'
« cp1257 «, « windows-1257 «, « x-cp1257 » 'окна-1257'
« cp1258 «, « windows-1258 «, « x-cp1258 » 'окна-1258'
« x-mac-cyrillic «, « x-mac-ukrainian » 'x-mac-cyrillic'
« китайский «, « csgb2312 «, « csiso58gb231280 », « gb2312 », « gb_2312 », « gb_2312-80 », « gbk », « iso-ir-58 », « x-gbk » 'ГБК'
« gb18030 » 'gb18030'
« hz-gb-2312 » 'гц-гб-2312'
« big5 «, « big5-hkscs «, « cn-big5 «, « csbig5 », « x-x-big5 » 'большой5'
« cseucpkdfmtjapanese «, « euc-jp «, « x-euc-jp » 'euc-jp'

« csiso2022jp «, « iso-2022-jp »

Примечание : Firefox использовал для принятия iso-2022-jp-2 последовательности молча, когда декодер iso-2022-jp был создан, однако это было удалено в версии 56 для упрощения API, поскольку никакие другие браузеры его не поддерживают, и никакие страницы не используют его.

'iso-2022-jp'
« csshiftjis «, « ms_kanji «, « shift-jis », « shift_jis », « sjis », « windows-31j «, « x-sjis » Shift-jis
« cseuckr «, « csksc56011987 «, « euc-kr «, « iso-ir-149 », « корейский », « ks_c_5601-1987 », « ks_c_5601-1989 », « ksc5601 », « ksc_5601 », « windows-949 » 'euc-kr'
« csiso2022kr «, « iso-2022-kr » 'iso-2022-kr'
« utf-16be » «УТФ-16БЭ»
« utf-16 », « utf-16le » утф-16ле
« x определяется пользователем » 'пользовательский x'
« iso-2022-cn «, « iso-2022-cn-ext » 'замена'
.