Представление символьной информации. Использование кодировочной таблицы ASCII и стандарта кодирования символов Unicode

Похожие презентации:

Пиксельная картинка

Информационная безопасность. Методы защиты информации

Электронная цифровая подпись (ЭЦП)

Этапы доказательной медицины в работе с Pico. Первый этап

История развития компьютерной техники

От печатной книги до интернет-книги

Краткая инструкция по CIS – 10 шагов

Информационные технологии в медицине

Информационные войны

Моя будущая профессия. Программист

1. Представление символьной информации

Лекция №1
1

2. Кодируемые символы

1. Буквенно-цифровые знаки алфавитов.
2. Специальные знаки: пробел, скобки, знаки препинания,
знаки операций и т.д.
3. Управляющие символы.
Наиболее распространенные
способы кодирования символов
1. Использование кодировочной таблицы ASCII.
2. Использование стандарта кодирования символов Unicode.
2

3. ASCII

ASCII – American Standard Code for Information
Interchange (американский стандартный код обмена
информацией
Введен в действие институтом стандартизации США (ANSI –
American National Standard Institute) в 1963 году.
Первоначально предполагалось использование 7 бит кода.
3

4. Таблица ASCII

4
5

6. Кодовая таблица ASCII

Кодовая таблица ASCII состоит из двух частей:
• Базовая таблица
• Расширенная таблица
Совокупность символов базовой и
расширенной таблицы определяет
кодировку.
6

7. Базовая таблица

Коды 00h – 7Fh
7

8. Расширенная таблица (ASCII)

Коды 80h – FFh
8
КОИ-8R
Windows-1251 (CP 1251)
9

10. Пример неправильно выбранной кодировки

Windows-1251 (CP 1251)
КОИ-8R
10

11. Управляющие ASCII символы

Некоторые управляющие символы:
TAB, 09
— табуляция
LF, 0A
— перевод строки
CR, 0D
— возврат каретки
CR LF
11

12.

ПсевдографикаДля оформления программ и документов в
текстовом режиме, используются
псевдографические символы.
12

13. Псевдографика (ASCII)

http://www.asciimation.co.nz/
13

14. Unicode

Unicode – стандарт кодирования символов.
Коду символа сопоставляется некоторое положительное
целое число.
Для представления кода в компьютере используются
форматы представления (UTF – Unicode transformation
format): UTF-8, UTF-16, UTF-32
По стандарту Unicode первые 128 символов
соответствуют ASCII.
14

15. Unicode

В первых версиях стандарта код символа представлялся
двухбайтовым словом
16
8
8
2 = 65 536
В настоящее время стандарт Unicode обеспечивает
кодирование 1 112 064 символов.
15
8-битный формат преобразования Unicode
Обеспечивает совместимость с ASCII.
Длина кода нефиксированная – от 1 до 4 байт
16

17. Пример декодирования символа для UTF-8

Символ
А
1 1 0 1
UTF-8 (hex)
D090
0 0 0 0
Unicode (hex)
0410
1 0 0 1 0 0 0 0
1 0 0 0 0 0 10 00 0
4
1
0
17

18.

Кириллическая таблица Unicode 0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
410
А Б В Г Д Е Ж З И Й К Л М Н О П
420
Р С Т У Ф Х Ц Ч ШЩ Ъ Ы Ь Э Ю Я
430
а б в г д е ж з и й к л м н о п
440
р с т у ф х ц ч ш щ ъ ы ь э ю я
D0 BB D0 B5 D1 81
18
Byte Order Mark – сигнатура, определяющая UTF.
UTF-8
EF BB BF
UTF-16BE
FE FF
UTF-16LE
FF FE
UTF-32BE
00 00 FE FF
UTF-32LE
FF FE 00 00
19

English     Русский Правила

Представление нечисловой информации в компьютере

Планирование уроков на учебный год

Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 10 классы | Планирование уроков на учебный год | Представление текстовой информации в компьютере








Изучив эту тему, вы узнаете и повторите:

— как в компьютере представляется текстовая информация;
— что такое ASCII и Unicode;
— как в компьютере представляется графическая информация;
— какие форматы используются при хранении графических файлов;
— как в компьютере представляется звуковая информация;

— какие форматы используются при хранении звуковых файлов.

Компьютеры не с самого рождения могли обрабатывать символьную информацию. Лишь с конца 60-х годов они стали использоваться для обработки текстов и в настоящее время большинство пользователей ПК занимаются вводом, редактированием и форматированием текстовой информации.

1. Таблица кодирования ASCII.

А теперь «заглянем» в память компьютера и разберемся, как же представлена в нем текстовая информация.

Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и других. Мы уже говорили, что множество всех символов, с помощью которых записывается текст, называется алфавитом, а число символов в алфавите — его мощностью.

Для представления текстовой информации в компьютере используется алфавит мощностью 256 символов. Мы знаем, что один символ такого алфавита несет 8 битов информации: 2 в 8 степени равно 256. 8 битов = 1 байт, следовательно:

Один символ в компьютерном тексте занимает 1 байт памяти.

Как мы выяснили, традиционно для кодирования одного символа используется 8 бит. И, когда люди определились с количеством бит, им осталось договориться о том, каким кодом кодировать тот или иной символ, чтобы не получилось путаницы, т.е. необходимо было выработать стандарт – все коды символов сохранить в специальной таблице кодов. В первые годы развития вычислительной техники таких стандартов не существовало, а сейчас наоборот, их стало очень много, но они противоречивы. Первыми решили эти проблемы в США, в институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (AmericanStandardCodeforInformationInterchange – стандартный код информационного обмена США).

Рассмотрим таблицу кодов ASCII.

Пояснение: раздать учащимся распечатанную таблицу кодов ASCII.

Таблица ASCII разделена на две части. Первая – стандартная – содержит коды от 0 до 127. Вторая – расширенная – содержит символы с кодами от 128 до 255.

Первые 32 кода отданы производителям аппаратных средств и называются они управляющие, т. к. эти коды управляют выводом данных. Им не соответствуют никакие символы.

Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, арифметическим действиям и некоторым вспомогательным символам.

Коды расширенной части таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.

Стандартная часть таблицы кодов ASCII

Если вы внимательно посмотрите на обе части таблицы, то увидите, что все буквы расположены в них по алфавиту, а цифры – по возрастанию. Этот принцип последовательного кодирования позволяет определить код символа, не заглядывая в таблицу.

Коды цифр берутся из этой таблицы только при вводе и выводе и если они используются в тексте. Если же они участвуют в вычислениях, то переводятся в двоичную систему счисления.

Коды национального (русского) алфавита расширенной частитаблицы ASCII


Альтернативные системы кодирования кириллицы.

Тексты, созданные в одной кодировке, не будут правильно отображаться в другой.В настоящее время для поддержки букв русского алфавита (кириллицы) существует несколько кодовых таблиц (кодировок), которые используются различными операционными системами, что является существенным недостатком и в ряде случаев при-водит к проблемам, связанным с операциями декодирования числовых значений символов.

Для разных типов ЭВМ используются различные кодировки:

В настоящее время существует 5 кодовых таблиц для русских букв: Windows (СР(кодовая страница)1251), MS – DOS (СР(кодовая страница)866), KOИ – 8 (Код обмена информацией, 8-битный) (используется в OS UNIX), Mac (Macintosh), ISO (OS UNIX).

Одним из первых стандартов кодирования кириллицы на компьютерах был стан-дарт КОИ-8.

Национальная часть кодовой таблицы стандарта КОИ8-Р

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.

Национальная часть кодовой таблицы СР866

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.

Национальная часть кодовой таблицы СР1251

Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).

В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).

N = 2i

2i = 216 = 65536

N = 65536

N – мощность алфавита символов в кодовой таблице Unicode.

i – информационный вес символа

Основополагающая таблица использования кодового пространства Unicode

Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.

Рассмотрим примеры.

1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.

Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:

КОИ8-Р: 252 247 237

СР1251: 221 194 204

СР866: 157 130 140

Мас: 157 130 140

ISO: 205 178 188

Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:

КОИ8-Р: FCF7 ED

СР1251: DDC2 CC

СР866: 9D 82 8C

Мас: 9D 82 8C

ISO: CDB2 BC

2) Определить числовой код символа в кодировке Unicode с помощью тексто-вого редактора MicrosoftWord.

1. В операционной системе Windows запустить текстовый редактор MicrosoftWord.

2. В текстовом редакторе MicrosoftWord ввести команду [Вставка-Символ…]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.

3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.

4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.)

.

5. В таблице символов выбрать символ Э. В текстовом поле кодзнака : появится его шестнадцатеричный числовой код (в данном случае 042D).

Решите задачи:

№1. Закодируйте с помощью таблицы ASCII слова: А) Excel; Б) Access; В) Windows; Г) ИНФОРМАЦИЯ.

№2. Буква «i» в таблице кодов имеет код 105. Не пользуясь таблицей, расшифруйте следующую последовательность кодов: 102, 105, 108, 101.

№3. Десятичный код буквы «е» в таблице ASCII равен 101. Не пользуясь таблицей, составьте последовательность кодов, соответствующих слову help.

№4. Десятичный код буквы «i» в таблице ASCII равен 105. Не пользуясь таблицей, составьте последовательность кодов, соответствующих слову link.

№5. Декодируйте следующие тексты, заданные десятичным кодом:

А) 192 235 227 238 240 232 242 236;

Б) 193 235 238 234 45 241 245 229 236 224;

В) 115 111 102 116 119 97 114 101.

№6. Во сколько раз увеличится информационный объем страницы текста при его преобразовании из кодировки Windows 1251 (таблица кодировки содержит 256 символов) в кодировку Unicode (таблица кодировки содержит 65536 символов)?

№7. Каков информационный объем текста, содержащего слово ПРОГРАММИРОВАНИЕ:

А) в 16-битной кодировке;

Б) в 8-битной кодировке.

№8. Текст занимает ¼ Кбайта. Какое количество символов он содержит?

№9. Текст занимает полных 6 страниц. На каждой странице размещается 30 строк по 80 символов. Определить объем оперативной памяти, который займет этот текст.

№10. Свободный объем оперативной памяти компьютера 320 Кбайт. Сколько страниц книги поместится в ней, если на странице:

А) 32 строки по 32 символа;

Б) 64 строки по 64 символа;

В) 16 строк по 32 символа.

№11. Текст занимает 20 секторов на двусторонней дискете объемом 360 Кбайт. Дискета разбита на 40 дорожек по 9 секторов. Сколько символов содержит текст?

_) 31
$1F / 47
$2F ? 63
$3F Символ Код Символ Код Символ Код Символ Код @ 64
40 $ Р 80
50 долларов ` 96
60 $ р 112
70 $ А 65
41 $ В 81
$51 и 97
61 $ к 113
71 $ Б 66
42 $ Р 82
$52 б 98
62 $ р 114
72 $ С 67
43 $ С 83
$53 в 99
63 $ с 115
73 $ Д 68
44 $ Т 84
$54 д 100
64 $ т 116
74 $ Е 69
45 долларов У 85
55 долларов и 101
65 $ и 117
75 $ Ф 70
46 $ В 86
56 долларов ф 102
66 $ против 118
76 $ Г 71
47 $ Вт 87
57 долларов г 103
67 $ с 119
77 $ Н 72
48 $ х 88
58 долларов ч 104
68 $ х 120
78 $ я 73
49 $ Д 89
59 $ и 105
69 $ г 121
79 $ Дж 74
$4A З 90
$5A и 106
$6A г 122
$7A К 75
4 миллиарда долларов [ 91
5 миллиардов долларов к 107
6 миллиардов долларов { 123
7 миллиардов долларов Л 76
$4C \ 9 94
5 евро п 110
6 евро ~ 126
7 евро О 79
$4F _ 95
$5F или 111
$6F ДЕЛ 127
$7F

Таблица ASCII


ASCII ( означает Американский стандартный код для обмена информацией ) — это стандарт кодирования символов для текстовых файлов на компьютерах и других устройствах. ASCII является подмножеством Unicode и состоит из 128 символов в наборе символов. Эти символы состоят из букв (как прописных, так и строчных), цифр, знаков препинания, специальных символов и управляющих символов. Каждый символ в наборе символов может быть представлен десятичным значением в диапазоне от 0 до 127, а также эквивалентными шестнадцатеричными и восьмеричными значениями.

Ниже приведен список значений ASCII, отображающих десятичные, шестнадцатеричные, восьмеричные и символьные значения для каждого символа ASCII. 9_ Разделитель блоков (США) 32 20 040 Пробел 33 21 041 ! Восклицательный знак 34 22 042 » Кавычка/Двойная кавычка 35 23 043 # Знак номера 36 24 044 $ Знак доллара 37 25 045 % Знак процента 38 26 046 и Амперсанд 39 27 047 ‘ Апостроф/одинарная кавычка 40 28 050 ( Левая скобка 41 29 051 ) Правая скобка 42 2А 052 * Звездочка 43 2Б 053 + Знак плюс 44 2С 054 , Запятая 45 2Д 055 — Дефис/минус 46 2Э 056 . Точка/точка 47 2F 057 / Солидус/Слэш 48 30 060 0 Нулевая цифра 49 31 061 1 Цифра один 50 32 062 2 Вторая цифра 51 33 063 3 Цифра три 52 34 064 4 Цифра четыре 53 35 065 5 Пятая цифра 54 36 066 6 Цифра шесть 55 37 067 7 Цифра семь 56 38 070 8 Восьмерка 57 39 071 9 Цифра девять 58 3А 072 : Двоеточие 59 3Б 073 ; Точка с запятой 60 3С 074 < Знак «меньше» 61 3D 075 = Знак равенства/равенства 62 3Е 076 > Знак «больше чем» 63 3F 077 ? Вопросительный знак

Декабрь Шестнадцатеричный Октябрь Символ Описание
64 40 100 @ Коммерческий у знака
65 41 101 А Заглавная латинская буква А
66 42 102 Б Латинская заглавная буква B
67 43 103 С Латинская заглавная буква C
68 44 104 Д Латинская заглавная буква D
69 45 105 Е Латинская заглавная буква E
70 46 106 Ф Латинская заглавная буква F
71 47 107 Г Латинская заглавная буква G
72 48 110 Х Латинская заглавная буква H
73 49 111 я Латинская заглавная буква I
74 112 Дж Латинская заглавная буква J
75 113 К Латинская заглавная буква K
76 114 л Латинская заглавная буква L
77 115 М Латинская заглавная буква М
78 116 Н Латинская заглавная буква N
79 4F 117 О Латинская заглавная буква O
80 50 120 Р Латинская заглавная буква P
81 51 121 В Латинская заглавная буква Q
82 52 122 Р Латинская заглавная буква R
83 53 123 С Латинская заглавная буква S
84 54 124 Т Латинская заглавная буква Т
85 55 125 У Латинская заглавная буква U
86 56 126 В Латинская заглавная буква V
87 57 127 Вт Латинская заглавная буква W
88 58 130 х Латинская заглавная буква X
89 59 131 Д Латинская заглавная буква Y
90 132 З Латинская заглавная буква Z
91 133 [ Левая квадратная скоба
92 134 9 Circumflex акцент/Caret
95 5F 137 _ Подчеркивание/нижняя строка
96 60 140 ` Могильный акцент
97 61 141 и Строчная латинская буква а
98 62 142 б Строчная латинская буква b
99 63 143 в Строчная латинская буква c
100 64 144 д Латинская строчная буква d
101 65 145 и Строчная латинская буква e
102 66 146 ф Строчная латинская буква f
103 67 147 г Строчная латинская буква g
104 68 150 ч Строчная латинская буква h
105 69 151 и Латинская строчная буква i
106 152 и Строчная латинская буква j
107 153 к Латинская строчная буква k
108 154 л Строчная латинская буква l
109 6D 155 м Строчная латинская буква m
110 156 п Строчная латинская буква n
111 6F 157 или Строчная латинская буква о
112 70 160 р Строчная латинская буква p
113 71 161 к Строчная латинская буква q
114 72 162 р Строчная латинская буква r
115 73 163 с Латинская строчная буква s
116 74 164 т Латинская строчная буква т
117 75 165 и Латинская строчная буква u
118 76 166 против Строчная латинская буква v
119 77 167 с Строчная латинская буква w
120 78 170 х Строчная латинская буква x
121 79 171 г Латинская строчная буква y
122 172 г Латинская строчная буква z
123 173 { Левая фигурная скобка
124 174 | Вертикальная линия/вертикальная полоса
125 175 } Правая фигурная скобка
126 176 ~ Тильда
127 7F 177 ДЕЛ Удалить (DEL)

В наборе символов ASCII десятичные значения от 0 до 31, а также десятичное значение 127 представляют непечатаемые символы. Эти непечатаемые символы можно сгенерировать с помощью последовательности клавиш, где 9М ).

Все остальные символы в наборе символов могут быть напечатаны или представлены на экране. Эти печатные значения символов можно увидеть в поле Char в таблице выше.

Расширенные символы ASCII

г. г. до н.э.
Декабрь Шестнадцатеричный Октябрь Символ Описание
128 80 200    
129 81 201    
130 82 202    
131 83 203    
132 84 204    
133 85 205    
134 86 206    
135 87 207    
136 88 210    
137 89 211    
138 212    
139 213    
140 214    
141 215    
142 216    
143 8F 217    
144 90 220    
145 91 221    
146 92 222    
147 93 223    
148 94 224    
149 95 225    
150 96 226    
151 97 227    
152 98 230    
153 99 231    
154 232    
155 233    
156 234    
157 235    
158 236    
159 237    
160 А0 240   Неразрывный пробел
161 А1 241 ¡ Перевернутый восклицательный знак
162 А2 242 ¢ Знак цента
163 А3 243 £ Знак фунта
164 А4 244 ¤ Знак валюты
165 А5 245 ¥ Знак иены/юаня
166 А6 246 ¦ Сломанный стержень
167 А7 247 § Знак раздела
168 А8 250 ¨ Диэрезис
169 А9 251 © Знак авторского права
170 АА 252 ª Порядковый номер женского рода
171 АБ 253 « Двойная кавычка, указывающая влево
172 АС 254 ¬ Не подписывать
173 г. н.э. 255 Мягкий дефис
174 АЕ 256 ® Знак зарегистрированной торговой марки
175 АФ 257 ¯ Макрон
176 В0 260 ° Знак градуса
177 В1 261 ± Знак плюс-минус
178 В2 262 ² Верхний индекс два
179 В3 263 ³ Верхний индекс три
180 В4 264 ´ Острый акцент
181 В5 265 мкм Микрознак (мю)
182 В6 266 Знак Pilcrow
183 В7 267 · Средняя точка
184 В8 270 ¸ Седилья
185 В9 271 Верхний индекс один
186 ВА 272 º Порядковый показатель мужского рода
187 ВВ 273 » Двойная угловая кавычка, указывающая вправо
188 г. до н.э. 274 = Вульгарная дробь одна четверть
189 БД 275 ½ Вульгарная дробь одна половина
190 БЭ 276 ¾ Вульгарная дробь три четверти
191 БФ 277 À Перевернутый вопросительный знак

Декабрь Шестнадцатеричный Октябрь Символ Описание
192 С0 300 À Латинская заглавная буква А с гравировкой
193 С1 301 Б Латинская заглавная буква А с острым знаком
194 С2 302 Â Заглавная латинская буква A с циркумфлексом
195 С3 303 Ã Заглавная латинская буква А с тильдой
196 С4 304 Ä Латинская заглавная буква А с диэрезисом
197 С5 305 Å Заглавная латинская буква А с кольцом над
198 С6 306 Æ Заглавная латинская буква AE
199 С7 307 Ç Заглавная латинская буква C с седильей
200 С8 310 È Латинская заглавная буква Е с гравировкой
201 С9 311 Э Латинская заглавная буква E с острым знаком
202 КА 312 К Заглавная латинская буква E с циркумфлексом
203 СВ 313 Ë Латинская заглавная буква Е с диэрезисом
204 СС 314 М Латинская заглавная буква I с гравировкой
205 компакт-диск 315 Í Латинская заглавная буква I с острым знаком
206 СЕ 316 О Латинская заглавная буква I с циркумфлексом
207 КФ 317 О Латинская заглавная буква I с диэрезисом
208 Д0 320 Р Латинская заглавная буква ETH
209 Д1 321 С Латинская заглавная буква N с тильдой
210 Д2 322 Т Латинская заглавная буква O с гравировкой
211 Д3 323 О Латинская заглавная буква О с острым знаком
212 Д4 324 Ô Латинская заглавная буква O с циркумфлексом
213 Д5 325 х Заглавная латинская буква O с тильдой
214 Д6 326 .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *