Представление символьной информации. Использование кодировочной таблицы ASCII и стандарта кодирования символов Unicode
Похожие презентации:
Пиксельная картинка
Информационная безопасность. Методы защиты информации
Электронная цифровая подпись (ЭЦП)
Этапы доказательной медицины в работе с Pico. Первый этап
История развития компьютерной техники
От печатной книги до интернет-книги
Краткая инструкция по CIS – 10 шагов
Информационные технологии в медицине
Информационные войны
Моя будущая профессия. Программист
1. Представление символьной информации
Лекция №11
2. Кодируемые символы
1. Буквенно-цифровые знаки алфавитов.2. Специальные знаки: пробел, скобки, знаки препинания,
знаки операций и т.д.
3. Управляющие символы.
Наиболее распространенные
способы кодирования символов
1. Использование кодировочной таблицы ASCII.
2. Использование стандарта кодирования символов Unicode.
2
3. ASCII
ASCII – American Standard Code for InformationInterchange (американский стандартный код обмена
информацией
Введен в действие институтом стандартизации США (ANSI –
American National Standard Institute) в 1963 году.
Первоначально предполагалось использование 7 бит кода.
3
4. Таблица ASCII
45
6. Кодовая таблица ASCII
Кодовая таблица ASCII состоит из двух частей:• Базовая таблица
• Расширенная таблица
Совокупность символов базовой и
расширенной таблицы определяет
кодировку.
6
7. Базовая таблица
Коды 00h – 7Fh7
8. Расширенная таблица (ASCII)
Коды 80h – FFh8
КОИ-8R
Windows-1251 (CP 1251)
9
10. Пример неправильно выбранной кодировки
Windows-1251 (CP 1251)КОИ-8R
10
11. Управляющие ASCII символы
Некоторые управляющие символы:TAB, 09
— табуляция
LF, 0A
— перевод строки
CR, 0D
— возврат каретки
CR LF
11
12.
ПсевдографикаДля оформления программ и документов втекстовом режиме, используются
псевдографические символы.
12
13. Псевдографика (ASCII)
http://www.asciimation.co.nz/13
14. Unicode
Unicode – стандарт кодирования символов.Коду символа сопоставляется некоторое положительное
целое число.
Для представления кода в компьютере используются
форматы представления (UTF – Unicode transformation
format): UTF-8, UTF-16, UTF-32
По стандарту Unicode первые 128 символов
соответствуют ASCII.
14
15. Unicode
В первых версиях стандарта код символа представлялсядвухбайтовым словом
16
8
8
2 = 65 536
В настоящее время стандарт Unicode обеспечивает
кодирование 1 112 064 символов.
15
8-битный формат преобразования Unicode
Обеспечивает совместимость с ASCII.
Длина кода нефиксированная – от 1 до 4 байт
16
17. Пример декодирования символа для UTF-8
СимволА
1 1 0 1
UTF-8 (hex)
D090
0 0 0 0
Unicode (hex)
0410
1 0 0 1 0 0 0 0
1 0 0 0 0 0 10 00 0
4
1
0
17
18.
Кириллическая таблица Unicode 01
2
3
4
5
6
7
8
9
A
B
C
D
E
F
410
А Б В Г Д Е Ж З И Й К Л М Н О П
420
Р С Т У Ф Х Ц Ч ШЩ Ъ Ы Ь Э Ю Я
430
а б в г д е ж з и й к л м н о п
440
р с т у ф х ц ч ш щ ъ ы ь э ю я
D0 BB D0 B5 D1 81
18
Byte Order Mark – сигнатура, определяющая UTF.
UTF-8
EF BB BF
UTF-16BE
FE FF
UTF-16LE
FF FE
UTF-32BE
00 00 FE FF
UTF-32LE
FF FE 00 00
19
English Русский Правила
Представление нечисловой информации в компьютере
Планирование уроков на учебный год
Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 10 классы | Планирование уроков на учебный год | Представление текстовой информации в компьютере
Изучив эту тему, вы узнаете и повторите:
— как в компьютере представляется текстовая информация;
— что такое ASCII и Unicode;
— как в компьютере представляется графическая информация;
— какие форматы используются при хранении графических файлов;
— как в компьютере представляется звуковая информация;
Компьютеры не с самого рождения могли обрабатывать символьную информацию. Лишь с конца 60-х годов они стали использоваться для обработки текстов и в настоящее время большинство пользователей ПК занимаются вводом, редактированием и форматированием текстовой информации.
1. Таблица кодирования ASCII.
А теперь «заглянем» в память компьютера и разберемся, как же представлена в нем текстовая информация.
Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и других. Мы уже говорили, что множество всех символов, с помощью которых записывается текст, называется алфавитом, а число символов в алфавите — его мощностью.
Для представления текстовой информации в компьютере используется алфавит мощностью 256 символов. Мы знаем, что один символ такого алфавита несет 8 битов информации: 2 в 8 степени равно 256. 8 битов = 1 байт, следовательно:
Один символ в компьютерном тексте занимает 1 байт памяти.
Как мы выяснили, традиционно для кодирования одного символа используется 8 бит. И, когда люди определились с количеством бит, им осталось договориться о том, каким кодом кодировать тот или иной символ, чтобы не получилось путаницы, т.е. необходимо было выработать стандарт – все коды символов сохранить в специальной таблице кодов. В первые годы развития вычислительной техники таких стандартов не существовало, а сейчас наоборот, их стало очень много, но они противоречивы. Первыми решили эти проблемы в США, в институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (AmericanStandardCodeforInformationInterchange – стандартный код информационного обмена США).
Рассмотрим таблицу кодов ASCII.
Пояснение: раздать учащимся распечатанную таблицу кодов ASCII.
Таблица ASCII разделена на две части. Первая – стандартная – содержит коды от 0 до 127. Вторая – расширенная – содержит символы с кодами от 128 до 255.
Первые 32 кода отданы производителям аппаратных средств и называются они управляющие, т. к. эти коды управляют выводом данных. Им не соответствуют никакие символы.
Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, арифметическим действиям и некоторым вспомогательным символам.
Коды расширенной части таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.
Стандартная часть таблицы кодов ASCII
Если вы внимательно посмотрите на обе части таблицы, то увидите, что все буквы расположены в них по алфавиту, а цифры – по возрастанию. Этот принцип последовательного кодирования позволяет определить код символа, не заглядывая в таблицу.
Коды цифр берутся из этой таблицы только при вводе и выводе и если они используются в тексте. Если же они участвуют в вычислениях, то переводятся в двоичную систему счисления.
Коды национального (русского) алфавита расширенной частитаблицы ASCII
Альтернативные системы кодирования кириллицы.
Тексты, созданные в одной кодировке, не будут правильно отображаться в другой.В настоящее время для поддержки букв русского алфавита (кириллицы) существует несколько кодовых таблиц (кодировок), которые используются различными операционными системами, что является существенным недостатком и в ряде случаев при-водит к проблемам, связанным с операциями декодирования числовых значений символов.
Для разных типов ЭВМ используются различные кодировки:
В настоящее время существует 5 кодовых таблиц для русских букв: Windows (СР(кодовая страница)1251), MS – DOS (СР(кодовая страница)866), KOИ – 8 (Код обмена информацией, 8-битный) (используется в OS UNIX), Mac (Macintosh), ISO (OS UNIX).
Одним из первых стандартов кодирования кириллицы на компьютерах был стан-дарт КОИ-8.
Национальная часть кодовой таблицы стандарта КОИ8-Р
В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.
Национальная часть кодовой таблицы СР866
В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.
Национальная часть кодовой таблицы СР1251
Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).
В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).
N = 2i
2i = 216 = 65536
N = 65536
N – мощность алфавита символов в кодовой таблице Unicode.
i – информационный вес символа
Основополагающая таблица использования кодового пространства Unicode
Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.
Рассмотрим примеры.
1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.
Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:
КОИ8-Р: 252 247 237
СР1251: 221 194 204
СР866: 157 130 140
Мас: 157 130 140
ISO: 205 178 188
Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:
КОИ8-Р: FCF7 ED
СР1251: DDC2 CC
СР866: 9D 82 8C
Мас: 9D 82 8C
ISO: CDB2 BC
2) Определить числовой код символа в кодировке Unicode с помощью тексто-вого редактора MicrosoftWord.
1. В операционной системе Windows запустить текстовый редактор MicrosoftWord.
2. В текстовом редакторе MicrosoftWord ввести команду [Вставка-Символ…]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.
3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.
4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.)
5. В таблице символов выбрать символ Э. В текстовом поле кодзнака : появится его шестнадцатеричный числовой код (в данном случае 042D).
Решите задачи:
№1. Закодируйте с помощью таблицы ASCII слова: А) Excel; Б) Access; В) Windows; Г) ИНФОРМАЦИЯ.
№2. Буква «i» в таблице кодов имеет код 105. Не пользуясь таблицей, расшифруйте следующую последовательность кодов: 102, 105, 108, 101.
№3. Десятичный код буквы «е» в таблице ASCII равен 101. Не пользуясь таблицей, составьте последовательность кодов, соответствующих слову help.
№4. Десятичный код буквы «i» в таблице ASCII равен 105. Не пользуясь таблицей, составьте последовательность кодов, соответствующих слову link.
№5. Декодируйте следующие тексты, заданные десятичным кодом:
А) 192 235 227 238 240 232 242 236;
Б) 193 235 238 234 45 241 245 229 236 224;
В) 115 111 102 116 119 97 114 101.
№6. Во сколько раз увеличится информационный объем страницы текста при его преобразовании из кодировки Windows 1251 (таблица кодировки содержит 256 символов) в кодировку Unicode (таблица кодировки содержит 65536 символов)?
№7. Каков информационный объем текста, содержащего слово ПРОГРАММИРОВАНИЕ:
А) в 16-битной кодировке;
Б) в 8-битной кодировке.
№8. Текст занимает ¼ Кбайта. Какое количество символов он содержит?
№9. Текст занимает полных 6 страниц. На каждой странице размещается 30 строк по 80 символов. Определить объем оперативной памяти, который займет этот текст.
№10. Свободный объем оперативной памяти компьютера 320 Кбайт. Сколько страниц книги поместится в ней, если на странице:
А) 32 строки по 32 символа;
Б) 64 строки по 64 символа;
В) 16 строк по 32 символа.
№11. Текст занимает 20 секторов на двусторонней дискете объемом 360 Кбайт. Дискета разбита на 40 дорожек по 9 секторов. Сколько символов содержит текст?
$1F
$2F
$3F
40 $
50 долларов
60 $
70 $
41 $
$51
61 $
71 $
42 $
$52
62 $
72 $
43 $
$53
63 $
73 $
44 $
$54
64 $
74 $
45 долларов
55 долларов
65 $
75 $
46 $
56 долларов
66 $
76 $
47 $
57 долларов
67 $
77 $
48 $
58 долларов
68 $
78 $
49 $
59 $
69 $
79 $
$4A
$5A
$6A
$7A
4 миллиарда долларов
5 миллиардов долларов
6 миллиардов долларов
7 миллиардов долларов
$4C
5 евро
6 евро
7 евро
$4F
$5F
$6F
$7F
Таблица ASCII
ASCII ( означает Американский стандартный код для обмена информацией ) — это стандарт кодирования символов для текстовых файлов на компьютерах и других устройствах. ASCII является подмножеством Unicode и состоит из 128 символов в наборе символов. Эти символы состоят из букв (как прописных, так и строчных), цифр, знаков препинания, специальных символов и управляющих символов. Каждый символ в наборе символов может быть представлен десятичным значением в диапазоне от 0 до 127, а также эквивалентными шестнадцатеричными и восьмеричными значениями.
Ниже приведен список значений ASCII, отображающих десятичные, шестнадцатеричные, восьмеричные и символьные значения для каждого символа ASCII. 9_
Декабрь | Шестнадцатеричный | Октябрь | Символ | Описание |
---|---|---|---|---|
64 | 40 | 100 | @ | Коммерческий у знака |
65 | 41 | 101 | А | Заглавная латинская буква А |
66 | 42 | 102 | Б | Латинская заглавная буква B |
67 | 43 | 103 | С | Латинская заглавная буква C |
68 | 44 | 104 | Д | Латинская заглавная буква D |
69 | 45 | 105 | Е | Латинская заглавная буква E |
70 | 46 | 106 | Ф | Латинская заглавная буква F |
71 | 47 | 107 | Г | Латинская заглавная буква G |
72 | 48 | 110 | Х | Латинская заглавная буква H |
73 | 49 | 111 | я | Латинская заглавная буква I |
74 | 4А | 112 | Дж | Латинская заглавная буква J |
75 | 4Б | 113 | К | Латинская заглавная буква K |
76 | 4С | 114 | л | Латинская заглавная буква L |
77 | 4Д | 115 | М | Латинская заглавная буква М |
78 | 4Е | 116 | Н | Латинская заглавная буква N |
79 | 4F | 117 | О | Латинская заглавная буква O |
80 | 50 | 120 | Р | Латинская заглавная буква P |
81 | 51 | 121 | В | Латинская заглавная буква Q |
82 | 52 | 122 | Р | Латинская заглавная буква R |
83 | 53 | 123 | С | Латинская заглавная буква S |
84 | 54 | 124 | Т | Латинская заглавная буква Т |
85 | 55 | 125 | У | Латинская заглавная буква U |
86 | 56 | 126 | В | Латинская заглавная буква V |
87 | 57 | 127 | Вт | Латинская заглавная буква W |
88 | 58 | 130 | х | Латинская заглавная буква X |
89 | 59 | 131 | Д | Латинская заглавная буква Y |
90 | 5А | 132 | З | Латинская заглавная буква Z |
91 | 5Б | 133 | [ | Левая квадратная скоба |
92 | 5С | 134 9 | Circumflex акцент/Caret | |
95 | 5F | 137 | _ | Подчеркивание/нижняя строка |
96 | 60 | 140 | ` | Могильный акцент |
97 | 61 | 141 | и | Строчная латинская буква а |
98 | 62 | 142 | б | Строчная латинская буква b |
99 | 63 | 143 | в | Строчная латинская буква c |
100 | 64 | 144 | д | Латинская строчная буква d |
101 | 65 | 145 | и | Строчная латинская буква e |
102 | 66 | 146 | ф | Строчная латинская буква f |
103 | 67 | 147 | г | Строчная латинская буква g |
104 | 68 | 150 | ч | Строчная латинская буква h |
105 | 69 | 151 | и | Латинская строчная буква i |
106 | 6А | 152 | и | Строчная латинская буква j |
107 | 6Б | 153 | к | Латинская строчная буква k |
108 | 6С | 154 | л | Строчная латинская буква l |
109 | 6D | 155 | м | Строчная латинская буква m |
110 | 6Е | 156 | п | Строчная латинская буква n |
111 | 6F | 157 | или | Строчная латинская буква о |
112 | 70 | 160 | р | Строчная латинская буква p |
113 | 71 | 161 | к | Строчная латинская буква q |
114 | 72 | 162 | р | Строчная латинская буква r |
115 | 73 | 163 | с | Латинская строчная буква s |
116 | 74 | 164 | т | Латинская строчная буква т |
117 | 75 | 165 | и | Латинская строчная буква u |
118 | 76 | 166 | против | Строчная латинская буква v |
119 | 77 | 167 | с | Строчная латинская буква w |
120 | 78 | 170 | х | Строчная латинская буква x |
121 | 79 | 171 | г | Латинская строчная буква y |
122 | 7А | 172 | г | Латинская строчная буква z |
123 | 7Б | 173 | { | Левая фигурная скобка |
124 | 7С | 174 | | | Вертикальная линия/вертикальная полоса |
125 | 7Д | 175 | } | Правая фигурная скобка |
126 | 7Э | 176 | ~ | Тильда |
127 | 7F | 177 | ДЕЛ | Удалить (DEL) |
В наборе символов ASCII десятичные значения от 0 до 31, а также десятичное значение 127 представляют непечатаемые символы. Эти непечатаемые символы можно сгенерировать с помощью последовательности клавиш, где 9М ).
Все остальные символы в наборе символов могут быть напечатаны или представлены на экране. Эти печатные значения символов можно увидеть в поле Char в таблице выше.
Расширенные символы ASCII
Декабрь | Шестнадцатеричный | Октябрь | Символ | Описание |
---|---|---|---|---|
128 | 80 | 200 | ||
129 | 81 | 201 | ||
130 | 82 | 202 | ||
131 | 83 | 203 | ||
132 | 84 | 204 | ||
133 | 85 | 205 | ||
134 | 86 | 206 | ||
135 | 87 | 207 | ||
136 | 88 | 210 | ||
137 | 89 | 211 | ||
138 | 8А | 212 | ||
139 | 8Б | 213 | ||
140 | 8С | 214 | ||
141 | 8Д | 215 | ||
142 | 8Е | 216 | ||
143 | 8F | 217 | ||
144 | 90 | 220 | ||
145 | 91 | 221 | ||
146 | 92 | 222 | ||
147 | 93 | 223 | ||
148 | 94 | 224 | ||
149 | 95 | 225 | ||
150 | 96 | 226 | ||
151 | 97 | 227 | ||
152 | 98 | 230 | ||
153 | 99 | 231 | ||
154 | 9А | 232 | ||
155 | 9Б | 233 | ||
156 | 9С | 234 | ||
157 | 9Д | 235 | ||
158 | 9Е | 236 | ||
159 | 9Ф | 237 | ||
160 | А0 | 240 | Неразрывный пробел | |
161 | А1 | 241 | ¡ | Перевернутый восклицательный знак |
162 | А2 | 242 | ¢ | Знак цента |
163 | А3 | 243 | £ | Знак фунта |
164 | А4 | 244 | ¤ | Знак валюты |
165 | А5 | 245 | ¥ | Знак иены/юаня |
166 | А6 | 246 | ¦ | Сломанный стержень |
167 | А7 | 247 | § | Знак раздела |
168 | А8 | 250 | ¨ | Диэрезис |
169 | А9 | 251 | © | Знак авторского права |
170 | АА | 252 | ª | Порядковый номер женского рода |
171 | АБ | 253 | « | Двойная кавычка, указывающая влево |
172 | АС | 254 | ¬ | Не подписывать |
173 | г. н.э. | г.255 | Мягкий дефис | |
174 | АЕ | 256 | ® | Знак зарегистрированной торговой марки |
175 | АФ | 257 | ¯ | Макрон |
176 | В0 | 260 | ° | Знак градуса |
177 | В1 | 261 | ± | Знак плюс-минус |
178 | В2 | 262 | ² | Верхний индекс два |
179 | В3 | 263 | ³ | Верхний индекс три |
180 | В4 | 264 | ´ | Острый акцент |
181 | В5 | 265 | мкм | Микрознак (мю) |
182 | В6 | 266 | ¶ | Знак Pilcrow |
183 | В7 | 267 | · | Средняя точка |
184 | В8 | 270 | ¸ | Седилья |
185 | В9 | 271 | № | Верхний индекс один |
186 | ВА | 272 | º | Порядковый показатель мужского рода |
187 | ВВ | 273 | » | Двойная угловая кавычка, указывающая вправо |
188 | г. до н.э. | г. до н.э.274 | = | Вульгарная дробь одна четверть |
189 | БД | 275 | ½ | Вульгарная дробь одна половина |
190 | БЭ | 276 | ¾ | Вульгарная дробь три четверти |
191 | БФ | 277 | À | Перевернутый вопросительный знак |
Декабрь | Шестнадцатеричный | Октябрь | Символ | Описание |
---|---|---|---|---|
192 | С0 | 300 | À | Латинская заглавная буква А с гравировкой |
193 | С1 | 301 | Б | Латинская заглавная буква А с острым знаком |
194 | С2 | 302 | Â | Заглавная латинская буква A с циркумфлексом |
195 | С3 | 303 | Ã | Заглавная латинская буква А с тильдой |
196 | С4 | 304 | Ä | Латинская заглавная буква А с диэрезисом |
197 | С5 | 305 | Å | Заглавная латинская буква А с кольцом над |
198 | С6 | 306 | Æ | Заглавная латинская буква AE |
199 | С7 | 307 | Ç | Заглавная латинская буква C с седильей |
200 | С8 | 310 | È | Латинская заглавная буква Е с гравировкой |
201 | С9 | 311 | Э | Латинская заглавная буква E с острым знаком |
202 | КА | 312 | К | Заглавная латинская буква E с циркумфлексом |
203 | СВ | 313 | Ë | Латинская заглавная буква Е с диэрезисом |
204 | СС | 314 | М | Латинская заглавная буква I с гравировкой |
205 | компакт-диск | 315 | Í | Латинская заглавная буква I с острым знаком |
206 | СЕ | 316 | О | Латинская заглавная буква I с циркумфлексом |
207 | КФ | 317 | О | Латинская заглавная буква I с диэрезисом |
208 | Д0 | 320 | Р | Латинская заглавная буква ETH |
209 | Д1 | 321 | С | Латинская заглавная буква N с тильдой |
210 | Д2 | 322 | Т | Латинская заглавная буква O с гравировкой |
211 | Д3 | 323 | О | Латинская заглавная буква О с острым знаком |
212 | Д4 | 324 | Ô | Латинская заглавная буква O с циркумфлексом |
213 | Д5 | 325 | х | Заглавная латинская буква O с тильдой |
214 | Д6 | 326 | . |