Кодировки русского текста | Практическая информатика

Исторически сложилось так, что для представления печатных символов (кодирования текста) в первых ЭВМ отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (американский стандартный код для обмена информацией), подробную информацию о которой вы можете получить при помощи команды man ascii операционной системы Linux.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы, т. е. содержали единицу в старшем разряде байта, отведенного для кодирования символа. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.

Среди них была и одна из первых таблиц для кодировки русских букв — ISO 8859-5 (воспользуйтесь командой man iso_8859_1 для получения кодов русских букв в этой таблице).

Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.

К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Так как из всех операционных систем, распространенных в то время, самыми удобными средствами работы с сетью обладали различные клоны операционной системы Unix, то эта кодировка стала фактическим стандартом в этих системах. Таковой она является и сейчас в ОС Linux. И именно эта кодировка чаще всего применяется для обмена почтой и новостями в Интернет.

Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т.  д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы «обтекали» со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту — кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице (появилась возможность — ведь псевдографика в Windows не требуется), получили кодировку Windows 1251 (Win-1251).

Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли.

Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.). Мы для перекодировки файлов будем использовать ряд утилит в ОС Linux, назначение которых ясно из названия: alt2koi, win2koi, koi2win, alt2win, win2alt, koi2alt (откуда, куда, цифра 2 (two) схожа по звучанию с предлогом to, указывающим направление). Эти команды имеют одинаковый синтаксис: команда <входной_файл >выходной_файл.


Пример
Перекодируем текст, набранный в редакторе Edit в среде MS DOS, в кодировку Koi8-R. Для этого выполним команду

alt2koi file1.txt > filenew

Так как в MS DOS и Linux по разному кодируется перевод строки, рекомендуется выполнить еще команду «fromdos»:

fromdos filenew > file2.txt

Команда с обратным действием называется «todos» и имеет такой же синтаксис.

Пример
Отсортируем файл List.txt, содержащий список фамилий и подготовленный в кодировке Koi8-R, в алфавитном порядке. Воспользуемся командой sort, которая сортирует текстовый файл по возрастанию или убыванию кодов символов. Если применить ее сразу, то, например, буква В окажется в конце списка, аналогично соответствующей ей букве латинского алфавита V. Вспомнив, что в альтернативной кодировке русские буквы расположены строго по алфавиту, выполним ряд операций: перекодируем текст в альтернативную кодировку, отсортируем его и снова вернем в кодировку Koi8-R. С использованием конвейера команд получаем

koi2alt List.txt | sort | alt2koi > List_Sort.txt

В современных дистрибутивах ОС Linux решены многие проблемы, связанные с локализацией программного обеспечения. В частности утилита sort теперь учитывает особенности кодировки Koi8-R и для сортировки файла в алфавитном порядке достаточно выполнить команду

sort List.txt > List_Sort.txt

 

java — Использование файлов .properties с нестандартной кодировкой (не ISO 8859-1)

Вопрос задан

Изменён 8 месяцев назад

Просмотрен 2k раз

Страница не показывает русские символы вместо русских символов показывает вопросы, текст берется из mesages_ru. properties, если написать русский текст напрямую в jsp странице она их отображает правильно настроено как я понял правильно

<bean>
    <property name="basename" value="classpath:messages" />
    <property name="defaultEncoding" value="UTF-8" />
</bean>

только вот в файле properties внизу где написано тип кодировки написано Windows-1251 который не меняется и при наведении на него пишет File encoding is disabled .properties file в чем дело

  • java
  • spring

1

В Idea кодировка для .properties файлов задается по особому и делается это на уровне проекта:

Стандартное Java API спроектировано для использования ISO 8859-1 для properties файлов.

Чтобы использовать другие кодировки, можно использовать управляющие последовательности и Unicode (виде \uXXXX, например \u0410 = русская А). Альтернатива — определить кодировку по умолчанию для файлов .

properties на уровне проекта и использовать другое API, которое может читать файлы настроек в заданной кодировке.

Кодировка для файла настроек задается следующим образом

  1. Открыть диалоговое окно Settings и выбрать File Encodings.
  2. Сделать одно из следующего:

    • Чтобы включить специальный режим, когда символы сохраняются в файле как управляющие последовательности, но отображаются как нормальные буквы, выберите Transparent native-to-ascii conversion. Эта опция полезна когда файлы настройки закодированы в ISO 8859-1. Рекомендуется использовать этот способ, если у вас нет особых причин менять кодировку.
    • В поле Default encoding for properties files, выберите кодировку, которую вы хотите использовать для всех файлов настройки в проекте.

https://www.jetbrains.com/idea/help/configuring-encoding-for-properties-files.html

1

я использую файлы . xml вместо .properties, так же задаются пары ключ/значение. Проблем с кодировкой вообще не возникает. Пример содержимого файла:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<!--файл конфигурации -->
<properties>
    <!-- режим отладки -->
    <entry key="debug">false</entry>
    <!-- еще какое то свойство -->
    <entry key="myKey">valueMyKey</entry>
</properties>

Зарегистрируйтесь или войдите

Регистрация через Google

Регистрация через Facebook

Регистрация через почту

Отправить без регистрации

Почта

Необходима, но никому не показывается

Отправить без регистрации

Почта

Необходима, но никому не показывается

Нажимая на кнопку «Отправить ответ», вы соглашаетесь с нашими пользовательским соглашением, политикой конфиденциальности и политикой о куки

О кодировании латинского, греческого, кириллического и ханьского алфавитов

Техническое примечание Unicode® № 26

 

Резюме

В этом документе

обсуждаются справочная информация и кодирование решения, касающиеся латинских, греческих, кириллических и ханьских символов в Unicode.

Статус

Этот документ является Техническим примечанием Unicode . Исключительная ответственность за его содержание принадлежит автору (авторам). Публикация не означает одобрения со стороны Консорциум Юникод.

Информацию о технических примечаниях к Unicode, включая критерии принятия, см. https://www.unicode.org/notes/.


Содержание
  • Кодировка латинского, греческого и кириллического письма
  • Кодировка ханьского письма
  • Группа идеографических исследований
  • Модификации

Кодирование латинского, греческого и кириллического шрифтов

Есть ряд очень веских причин, по которым латинский, греческий, и кириллические шрифты были закодированы отдельно, а не кодируется как единый скрипт.

1. Традиционная графология всегда рассматривала их как отдельные письменности, признавая при этом, что они, конечно, исторически связанный. Простое историческое родство не является достаточным основанием для однако унифицировать письменность, поскольку латиница, греческий и кириллица в конечном итоге могут все прослеживают свои корни до финикийского, и сам финикийский затем связан с арамейским и всеми его потомками, от иврита от арабского до далеких аборигенов, таких как согдийский, уйгурский и даже монгольский.

2. В случае латыни и греческого языка существовало различие с классических времен. Кириллица более тесно связана с греческий, а в средневековых рукописях имеется изрядное количество совпадения в греческой и ранней кириллической письменности, но ко времени развития современной типографики, Греческое письмо и кириллица явно различаются, и их текущие проявления в использовании печати очень разные.

3. Грамотные пользователи латинского, греческого и кириллического алфавитов не иметь культурных условностей отношения друг к другу алфавиты и буквы как часть их собственных систем письма. «Для меня все по-гречески» — это не просто поговорка, а точно отражает общее восприятие пользователями любого из этих сценариев при представлении текстового материала в одном из другие скрипты.

Дело не только в том, что слова незнакомы, но что само письмо считается чуждым. Большинство людей сможет выбрать буквы, которые имеют общие формы (A, B и т. д.), но высокая доля странных букв которые не имеют значения для пользователей других скриптов приводит к тому, что текст в целом рассматривается как просто неразборчиво. Это, кстати, одно из оперативных средств по которым могут быть идентифицированы различия в сценарии, хотя это далеко не простой, объективный метод, который работает во всех случаях.

4. Что еще более важно, с точки зрения проблема кодирования символов для цифрового текстового представления в информационных технологиях ранее существовавшая идентификация латыни, греческого и кириллического алфавита в качестве отдельных шрифтов. в кодировку символов, с самых ранних экземпляров таких кодировок. После расширения ASCII и EBCDIC до начните добавлять греческие или кириллические буквы, все значимые экземпляры таких кодировок включали базовую латиницу (ASCII или иначе) установить

и полный набор букв для греческого языка или полный набор букв для кириллицы. Прецедент для цели кодирования символов были четко установлены эти ранние 8-битные кодировки.

5. Исходя из пункта №4, любая универсальная кодировка символов должен различать латинский, греческий и кириллический шрифты. Если это не так, это будет иметь непреодолимую интероперабельность проблемы, связанные с любым из огромного количества устаревших данных которые уже отличали сценарии. Обратите внимание, что мультискрипт (частично) универсальные кодировки символов, предшествующие Unicode Стандарт

все сделали это. Это включает в себя реестр IBM идентификаторы глифов, списки DEC и Hewlett-Packard символы и глифы, стандарт символов Xerox XCCS, Собственные наборы символов WordPerfect и Внутренняя система идентификации персонажей Microsoft и Apple. Сообщество библиотек поддерживает те же различия в сценариях в своих собственных форматы данных: MARC 21 (опубликовано Библиотекой Конгресса) и UNIMARC. (опубликовано ИФЛА). Даже восточноазиатские кодировки символов по мере их развития также отличает латиницу, греческий язык и кириллицу. Смотрите, для например, сам JIS X 0208, который отдельно кодирует греческий и кириллицы из ASCII Latin.

6. Несколько кодировок символов, которые на самом деле пытаются сделать объединение латиницы и греческого или кириллицы очень специфично и ограничены в использовании и не могут хорошо взаимодействовать с подавляющее большинство инфраструктуры обработки текста. Хороший пример это GSM 03.38 ETSI, который пытается адресовать проблема отображение греческого языка в верхнем регистре на латинском устройстве с 7-битный набор символов путем объединения всех заглавных греческих букв со своими латинскими двойниками и отказавшись от какой-либо поддержки для нижний регистр греческий. Такие схемы по унификации греческого (или кириллического) с латынью никогда не распространялись за пределы своего первоначального, ограниченного назначения. контекстах просто потому, что они не могут справиться с требованиями для более универсальная обработка.

7. Что касается вопросов реализации, любая попытка унификации латынь, греческий и кириллица нанесли бы ущерб некоторым необходимые текстовые процессы. В частности, унифицированное кодирование Латинский, греческий и кириллица сделали бы операции с корпусами нечестивыми. беспорядок, фактически делающий все операции с корпусом контекстно-зависимыми в способ, который теперь ограничен несколькими проблемными пограничными случаями (турецкие i, греческие сигмы).

Кодировка ханьского письма

Теперь, в качестве контраста, рассмотрим проблему с ханьским письмом.

1. Графологически ханьское письмо («китайские иероглифы») долгое время считался -единым сценарием , адаптированным для использования соседние культуры, но не разделены на отдельные сценарии таким использованием. Исторически очень ранние версии китайского использование символов (например, скрипт Small Seal), вероятно, правильно квалифицировать как отдельные сценарии, но такие различия не имеет отношения к статусу Хань синхронно.

2. Эта идентичность письма хань была увековечена исторически более или менее продолжительное культурное превосходство Китай в Восточной Азии на протяжении тысячелетий, и к политический обычай, который сменявшие друг друга китайские империи вкладывали Китайское письмо — с использованием единственной письменной формы китайского языка. как способ охвата многих, многих различных китайских языков в единой ханьской культурной идентичности. Имперское распространение Хань писать через зеркала Восточной Азии, во многих отношениях, имперский распространение латиницы в западном мире, где распространилась латинского алфавита от языка к языку и этническому группа к этнической группе, сначала Римской империи, а гораздо позже западноевропейскими империями, не привело к дроблению сам сценарий, а скорее широкое использование одного сценарий и его доработку добавлением новых идеограмм (для ханьцев) и новые буквы (для латыни), поскольку новые требования были размещены на нем. (Аналогичную картину можно увидеть в развороте арабского письма по всему миру.)

3. Основные неханьские народы, адаптировавшие китайскую письменность. в своей собственной культуре (особенно в Корее, Японии и Вьетнаме) продолжал рассматривать иероглифы хань как китайских писем, о чем свидетельствует даже название сценария в каждом из эти страны, будучи буквально «китайским иероглифом». И вместо того, чтобы просто принять сценарий в какой-то момент, а затем развивая его в каком-то независимом направлении, типичном Образцом для каждой из этих культур было то, что на протяжении столетий продолжайте пополнять запас иероглифов хань, которые они использовали продолжающееся заимствование больших новых наборов из них непосредственно у Китай.

4. Основное исключение в этой модели развития, в Японии, фактически говорит, наоборот, о продолжающемся унитарном природа самой ханьской письменности. В Японии очень скоропись стиль написания китайских иероглифов для японских звуков, в отличие от заимствованной китайской лексики, стиль, называемый manyooshuu, был упрощен до набора обычных слоговые символы только для японского языка. Этот явно был разработка нового сценария, получившего название Хирагана из ханьского письма. Но по отдельности и одновременно, в Японии сами иероглифы хань («кандзи» на японском языке) продолжали писать в традиционном китайском стиле.

5. В отличие от латиницы, греческого языка и кириллицы, здесь равно . давняя культурная традиция в Японии, Китае и Вьетнаме, рассматривать «китайские иероглифы» как имеющие общую идентичность по всему региону. Японец не может «читать» по-китайски — после все, это совсем другой и совсем чужой язык для носителей японского языка — так же, как носители английского языка не могут читайте тагальский, написанный латинским алфавитом. Но они делают признать, что сами китайские иероглифы являются общими и на самом деле могут распознавать большую часть общего словарного запаса, который первоначально был заимствован японским языком из китайского, в точно так же, как носители английского языка узнают большую часть французской лексики.

6. Существует много путаницы, которая возникает среди тех, кто не хорошо знаком с восточноазиатскими языками и системами письма из-за того, что системы письма для Японии, Кореи, Китай, а Вьетнам это совершенно разные, при этом время, которое они все разделяют, как части этих систем письма, общий одиночный ханьский сценарий. Нет сомнений в том, что Японская система письма в целом очень и очень отличается от китайская система письма. Но японский кандзи как часть японской письменности составляют один и тот же сценарий как китайский hanzi , функционирующий как основная часть китайской письменности.

7. Еще одна проблема, вызывающая споры по поводу «ханьского объединения». в Восточной Азии, как правило, возникает из соображений стиля шрифта и варианты персонажей. Проблема стиля возникает в основном из-за того, что что Япония традиционно была крайне консервативной страной, пережившей долгий, преднамеренно изоляционистский период до реформ Мэйдзи. В результате Япония стремилась сохранить в своих буддийских и других литературные традиции, формы китайского языка, которые восходят к вернуться к материалам династий Тан, Сун и Мин. Тем временем Китай сама была занята огромными революциями и потрясениями и смена правителей с одной национальности на совершенно другую (Монголы правили Китаем в одной династии, маньчжуры в другой). В течение на этот раз китайское письмо продолжало обновляться, а формы перенесенные в Японию, как правило, оставались более консервативными.

Несмотря на систематические колебания, иногда наблюдаемые между более консервативные формы символов в Японии и типографски различные формы, наблюдаемые в Китае, типичный диапазон вариаций среди глифов во всех сообществах пользователей CJK находится в пределах границы типичных вариаций, наблюдаемых в других сценариях. Этот факт, отмеченный в самом стандарте JIS X 0208, формирует основа принципов, по которым идентифицируются персонажи как «один и тот же иероглиф» в японском, китайском и корейском языках. источники.

8. В 20 веке мы сталкиваемся с самой крайней формой стилистического инновации в Китае, когда в качестве результат образовательной политики после коммунистической революции в КНР, преднамеренный и очень широко распространенный процесс орфографического упрощение и реформы были навязаны всему Китаю. Те изменения не были приняты за пределами Китая в Японии, и даже на Тайване и в Гонконге. Это привело в резком расколе в использовании ханьского письма («упрощенное» и «традиционный»). Но даже , что нельзя считать достаточным для создали новый, отличный ханьский сценарий. Причина в том, что даже в КНР к новым, упрощенным формам всегда относились как альтернативные формы традиционных символов, часто напечатаны рядом с ними в справочниках. Был постоянная корректировка письма в Китае, так как все больше символов упрощаются, но от некоторых упрощений отказываются в пользу более традиционных формы и так далее. Многие китайцы по какой-то причине или другой, просто нужно научиться и традиционный и упрощенные формы символов и читать их как альтернативные глифы для одного и того же символа — неявно внутри одного и того же общий ханьский сценарий.

9. Когда речь идет о решениях по кодировке символов, принятых в Восточной Азии, также ясно, что ханьские персонажи почти считалось, что все случаи составляют единый сценарий, а не чем отдельные сценарии для каждой страны Восточной Азии. японские стандарты изначально были посвящены кодированию тех китайских иероглифов, которые необходимы на японский . И китайские стандарты ориентированы на это подмножество китайских иероглифов, необходимых для китайских . Но позже, стандарты с обеих сторон расширились по мере добавления японских стандартов иероглифы из Китая и китайские стандарты добавили иероглифы из Японии. Ни в том, ни в другом случае эти дополнения не следовали образец, наблюдаемый, когда греческий или кириллица были добавлены к ранним Кодировки латинских символов. Вместо этого в обоих случаях было просто вопрос добавления еще X тысяч ханьских символов в большие таблицы, которые уже состояли из тысяч иероглифов хань.

10. Попытка «унифицировать» кодировку ханьских символов в 10646, и стандарт Unicode был неправильно понят некоторые как попытку смешать принципиально разные Японская система письма и китайская система письма, как бы имело место какое-то принудительное смешение рас. Но правильный способ интерпретировать то, что происходило, был довольно простым. предотвращение дублирования кодирования одних и тех же ханьских символов представлен в нескольких различных стандартах Восточной Азии. Этот процесс был хорошо понят фактическими национальными стандартами участники из Японии, Кореи, Китая и других стран, которые все время выполняли основную работу, связанную с сводя к минимуму количество дублирующих кодов того, что все члены комитета полностью согласны с тем, что тот же символ.

Аналогия, используемая при рассмотрении вопроса об «объединении ханьцев». это не попытка унифицировать латинскую кодировку, а Греческая кодировка и кириллическая кодировка на основе символа форму, но вместо этого, объединяя кодировку ASCII (латиницу), кодировка EBCDIC (латиница), латинская часть Японский стандарт JIS X 0208 и латинская часть Китайский стандарт ГБ 2312. Нет смысла кодировать один и тот же латинский символ 4 раза в Unicode просто потому что он появился в ASCII, кодовой странице EBCDIC 300, JIS X 0208, и GB 2312. Точно такая же логика применялась к иероглифам хань. в различных стандартах Восточной Азии при кодировании решений были взяты о кодировании ханьского письма.

11. Что касается вопросов реализации, подход кодирования к Ханьские персонажи, которые не объединяли одни и те же персонажи из Японские, китайские, корейские (и другие) исходные стандарты будут нужно возить дорого (и по стоимости памяти, и по обслуживанию стоимость) таблицы эквивалентности вокруг только для того, чтобы сделать унификацию происходит на лету, перед поиском текста или почти любым другим текстовый процесс, представляющий интерес, может быть выполнен.

12. Для получения дополнительной информации о том, как ханьские персонажи из разных Унаследованные восточноазиатские стандарты источников были определены как тот же символ для целей кодирования в Unicode Стандарт, см. подробное обсуждение в Раздел 18.1, «Хань».

Идеографическая исследовательская группа

Информация об Идеографической исследовательской группе, которая основная ответственность за развитие репертуара Идеографические символы хань для кодирования в 10646 (и стандарт Unicode):

Группа идеографических исследований (IRG) — это группа, подотчетная ИСО/МЭК СТК1/ПК2/РГ2. Основное внимание уделяется развитию идеографических знаков (хань символы, используемые в Китае, Японии, Корее и других частях Азии) в ISO/IEC Стандарт 10646. Его миссия состоит в том, чтобы представить идеографические символы для включение в стандарт ISO/IEC 10646. IRG разработала CJK Unified Блок идеографов и унифицированные расширения идеографов CJK от A до H. В состав IRG входят Китай, САР Гонконг, САР Макао, Тайбэй Компьютер Ассоциация, Сингапур, Япония, SAT (Комитет по текстовой базе данных Saṃgaṇikīkṛtaṃ Taiśotripiṭakaṃ Daizōkyō), Южная Корея, Северная Корея, Вьетнам, Великобритания и США. Представители Консорциума Юникод также посещать собрания IRG для координации синхронизации между ISO/IEC 10646 и стандарт Unicode. См. IRG для подробнее.

Ниже приводится сводка изменений по сравнению с предыдущей версией этого документ.

3

  • Очистка стиля.
  • Обновлены ссылки на https.
  • Обновлена ​​ссылка на раздел 18.1 Han в основной спецификации.
  • Обновлены ссылки и информация о IRG.

2

  • Обновлены ссылки и информация о IRG.

1

  • Исходная версия.

Copyright © 2006-2023 Ken Whistler and Unicode, Inc. Все права защищены. Консорциум Unicode и Кен Уистлер не дают никаких явных или подразумеваемых гарантий какого-либо вид, и не несет ответственности за ошибки или упущения. Никакой ответственности не предполагается за случайные и косвенные убытки в связи с или вытекающие из использование информации или программ, содержащихся или сопровождающих это техническое примечание. Юникод Применяются Условия использования.

Unicode и логотип Unicode являются товарными знаками Unicode. Inc., и зарегистрированы в некоторых юрисдикциях.

Кириллица (русская) в MS Outlook

Кириллица (русская) в MS Outlook

Кириллица (русская) в MS Outlook 2000 и более поздних версиях


Важно!   Как было отмечено в разделе моего сайта под названием «Русский в Браузере/Почте/Новостях», где я перечисляю инструкции для некоторых интернет-приложений, включая эту страницу о MS Outlook,
нет нет причин читать про настройку этой программы если вы еще не узнали о самой Windows — Кириллица шрифты и русские кодировки . Это описано в разделе моего сайта под названием «Кириллические шрифты и кодировки под Windows».
То есть предполагается, что ваши кириллические шрифты активированы и становятся знаком с кириллицей кодировки , используемые под MS Windows.

Также предполагается, что у вас русская клавиатура инструменты активированы как описано в разделе «Русская клавиатура» моего сайта, если вы собираетесь на напишите по русски в MS Outlook.

Настройка кириллицы для Outlook 2000 и более поздних версий одинакова, поэтому я буду использовать «Outlook 2000» в тексте, но то же самое касается Outlook 2002/2003.
Есть одно отличие в функциональность (не на этапах настройки) между этими двумя продуктами, и это будет рассмотрено в тексте.

Окружающая среда. у меня обычный американский английский винда, я делал а не сделать любую русификацию моей винды на уровень системы.
Текущий пользователь , локаль в моей панели управления — «Английский (США)».

Настройки MS Outlook 2000.
я делал а не «русифицировать» свой MS Outlook 2000 в любом случае, все исходные настройки не тронуты.
То есть в Tools/Options/MailFormat у меня остался оригинальный « Western » настройки в « International Options » и были никаких изменений в « Шрифты «.

Это это можно, под такая нерусская версия винды, отправлять и получать электронную почту на русском языке с помощью MS Outlook 2000.

Ограничение для версий 2000/2002. Кириллица может не использоваться в теме электронного письма или в поле имени отправителя. MS Outlook 200 3 больше не имеет такого ограничения.

1. Отправка

MS Outlook 2000 предлагает три формата исходящего сообщения:

  • Расширенный текстовый формат
  • Формат HTML
  • Формат обычного текста

Формат по умолчанию для MS Outlook — Rich Text . Это похоже на MS Word текст. Сам MS Outlook получает электронную почту Rich Text Хорошо, но другие программы электронной почты (большинство из них) , а не используют форматированный текст и могут не понимать кириллицу, отправленную в таком формате.

Отправка электронной почты в формате HTML также не рекомендуется — в отличие от формата Rich Text, HTML — это , используемый в некоторых системах электронной почты , но многие другие почтовые серверы и программы могут не работать с HTML, поэтому, если вы хотите убедиться, что каждая почтовая программа/сервер примет ваше сообщение, тогда вам следует , а не используйте HTML (если вы знаете, что ваш конкретный корреспондент получает HTML нормально, то вы уверены может использовать формат HTML).

Большинство людей используют обычный текст в своих почтовых программах, поскольку он гарантирует, что такое сообщение будет обработано нормально и будет доступно для чтения всем и каждому пользователю.

Вот почему перед начинают печатать мою электронную почту, которую я собираюсь отправить в Интернет, Я делаю следующее в своем окне подготовки сообщения :

  • в меню иду в Формат и выбираю «Обычный текст» там

Примечание. Я лично использую MS Outlook 2000 на работе, где это наша корпоративная почта, поэтому внутри организация, которую я могу отправить Rich Text сообщения на русском — потому что я точно знаю, что мои русскоязычные коллеги будут читать их в MS Outlook 2000 а не в какой-то другой почтовой программе. Rich Text хорош, он позволяет использовать цвета и т. д.
Таким образом, для внутренней электронной почты я делаю , а не , выполняю этот шаг выбора опции Plain Text .

Я отправляю электронную почту во «внешний мир» из MS Outlook 2000 только на очень редком случаю, и каждый раз, когда я это делаю, Я выполняю этот шаг выбора Plain Text в пункте меню «Формат» моего сообщения окно подготовки, чтобы убедиться, что любая программа электронной почты сможет получить мое сообщение.
Если у вас другая ситуация и используете MS Outlook 2000 часто для отправки электронная почта во «внешний мир», то вы можете избежать этого шага выбора обычного текста каждый раз — сделайте Plain Text форматом по умолчанию :

  • в главном меню перейдите в Инструменты/Параметры и перейдите на вкладку «Формат почты».
  • в поле «Отправить в этом формате сообщения» выберите « Plain Text »

Теперь для каждого сообщения New , которое вы готовите, уже будет установлен флажок «Обычный текст» в разделе «Формат».

Примечание. Но это а не дело за Ответить (или Переслать) — там MS Outlook 2000 будет использовать формат исходного сообщения, поэтому вам необходимо убедиться, что «Обычный текст» выбирается в разделе «Формат» после нажатия кнопки «Ответить» (или «Переслать»).


Это был шаг выбора формата .

Теперь мне нужно выбрать одну из кириллических кодировок для использования в MS Outlook. при отправке моего письма в сеть
(ситуация с кириллическими кодировками подробно описана на моей странице «Кириллические шрифты и кодировки под MS Windows).

Наиболее распространенная русская кодировка для сообщений, «путешествующих» по Интернету, KOI8-R (кириллица(KOI8-R)), но вместо этого можно использовать Windows-1251 кодировка (кириллица(Windows)), если у вас знайте наверняка, что именно этого ожидает ваш корреспондент:

  • в меню вашего окна подготовки сообщения перейдите в Формат/Кодировка и выберите там « Кириллица(KOI8-R) »
    или « Cyrillic(Windows) » (что означает кодировку Windows-1251)

Если вы часто отправляете электронные письма на русском языке, вы можете не делать этот выбор кодировки каждый раз — вы можете сделать, скажем, KOI8-R кодировкой по умолчанию для исходящих сообщений:

  • в главном меню перейдите в Инструменты/Параметры и затем перейдите на вкладку «Формат почты»
  • там нажмите кнопку «Международные параметры»
  • в поле «Использовать эту кодировку для исходящих сообщений» выбрать нужную русскую кодировку — Кириллица(KOI8-R) или Кириллица (Windows)

Теперь каждое готовящееся вами сообщение New будет иметь уже эту русскую кодировку предварительно установлен, поэтому вам не нужно переходить к формату/кодированию в окне подготовки сообщения.

Примечание. Но это а не дело за Ответить (или Переслать) — там MS Outlook 2000 будет использовать кодировку исходного сообщения, поэтому вам необходимо убедиться, что вам нужна кириллическая кодировка в Format/Encoding после того, как вы нажмете «Ответить» (или «Переслать»).

Вот и все. Теперь вы можете напечатать свое письмо, используя в нем английские и русские символы.

Помните, что в поле Тема вашего электронного письма запрещен русский язык.

Примечание. Вы должны вместо использовать Unicode в качестве кодировки для вашего кириллического e-mail: многие почтовые программы , а не смогут показать его читателю.
Вы должны использовать кодировку KOI8-R (предпочтительно) или Windows-1251.


 
2. Получение

MS Outlook , а не нуждается в настройке, вы можете просто нормально читать электронное письмо на русском языке, отправленное либо в кодировке KOI8-R, либо в кодировке Windows-1251.

Исключение: Если отправитель также использовал русский язык в Теме, то вы получите , а не уметь читать такую ​​Тему.

Важно. Иногда вы можете получить письмо на русском языке, где кодировка это а не указано верно.
Например, учетные записи электронной почты в Интернете, такие как Yahoo! Почта или HotMail позволяет печатать на русском языке — используя кодировку KOI8-R или Windows-1251 кодировка (в зависимости от того, что вы выбираете в своем браузере ), но когда вы нажимаете «Отправить», эти веб-почтовые системы всегда пишут «encoding= Western » в системном заголовке этого электронного письма.
В панели предварительного просмотра MS Outlook затем показывает вам какую-то тарабарщину вместо русского языка для таких входящее электронное письмо.

Но вы все еще можете прочитать это в своем Outlook 2000 — просто дважды щелкните по этому электронному письму, чтобы открыть его в отдельном окне а затем попытайтесь сделать текст читаемым:


Примечание. Outlook 2000 и Outlook 2002
Насколько я слышал, новый Outlook XP (он же Outlook 2002) делает , а не . разрешить такой обходной путь для сообщений, в которых указана неправильная кодировка, как мой Outlook 2000 делает.
То есть у вас будет а не иметь возможность читать такие входящие сообщения.
Но в более новом Outlook 2003 такой проблемы нет, здесь он ведет себя как Outlook 2000.

Итак, чтобы решить эту проблему в Outlook 2002: если вы знаете, как использовать макросы MS Outlook (я не умею), вы можете попробовать используйте макрос, который делает некоторые из таких сообщений доступными для чтения в Outlook 2002.
Это для сообщений с русским текстом KOI8-R внутри и состояниями заголовка системы. что это сообщение в «западной» кодировке.
Если тоже надо разобраться с сообщениями того типа у которых русский windows-1251 текст внутри, вы можете либо написать свой собственный макрос, используя существующий в качестве примера, или свяжись с автором макроса есть ли у него для windows-1251 тоже.

Вот информация об этом макросе ( по русски ) — видел в группе новостей microsoft.public.ru.russian.outlook:

  • Начало
  • Продолжение

Кстати, если вам любопытно, то вы сами можете убедиться, что кодировка такого письма ошибочно указан как «западный»:
в меню перейдите к View/Options и посмотрите на «Заголовки Интернета» поле внизу. Вы увидите что-то вроде «charset=us-ascii» или «кодировка=iso-8859-1» . Оба варианта означают одно и то же — кодировку «Западный» набор символов.



То есть, если отправитель правильно настроил свою программу электронной почты , то такая русская почта читается везде — в MS Outlook, в Netscape, в Outlook Express и т. д.
Но если сообщение проблемное , то:
  • , если сообщение на кириллице было отправлено с веб-службы электронной почты, такой как Yahoo! Почта или HotMail и, таким образом, имеет неверный 9кодировка 0023 («западная»), указанная в его системном заголовке, тогда вы можете использовать обходной путь, описанный выше
  • если отправитель допустил большую ошибку и испортил кириллический текст на своей стороне, то ничего не сделаешь — электронная почта будет нечитаема.