14 января 2015 г.

Почему буква Ё стоит отдельно в кодовой странице ANSI и Unicode?

Буква 'Ё' имеет код $A8/$B8 (168/184; заглавная/прописная) в кодовой странице Windows-1251 и код $0401/$0451 (1025/1105) в Unicode - это обособленная позиция вне "логических" диапазонов букв кириллицы. Например, русские буквы занимают позиции $C0-$FF (192-255) в Windows-1251 и $0410-$44F (1040-1103) в Unicode.

Почему буква 'Ё' стоит так очевидно в стороне?

Если кратко, то отдельная позиция 'Ё' обусловлена тем, что её изначально не было ни на клавиатурах, ни в таблицах кодировок.

Длинный ответ выглядит вот так:

(Примечание: ниже идёт моё предположение, сделанное по результатам гугления)

67 г.
ГОСТ 13052-67 был самой первой стандартизацией кодировки для компьютеров в России (СССР). И в нём не было буквы 'Ё'. Потому что, во-первых, он был семибитным, а, во-вторых, на клавиатурах тех времён не было буквы 'Ё'. Т.е. просто экономили ценное место в таблице кодировки.

И да, буквы в ГОСТ 13052-67 шли не по порядку. Там был аналог KOI (КОИ = Код Обмена Информацией): русские буквы стояли на фонетических местах латиницы. Т.е. абцдефг = abcdefg. А латиницы в кодовой таблице не было вообще. Диапазон $40-7E (не было заглавного твёрдого знака).

74 г.
Далее был ГОСТ 19768-74 - он определял уже две кодировки: 7 бит и 8 бит (аналоги KOI-7 и KOI-8). И снова, обе кодировки не имели буквы 'Ё', и в обеих буквы шли не по порядку. Для семибитной был тот же порядок, те же позиции, только KOI-7 выбросила прописные русские буквы, вставив вместо них латиницу, ну а KOI-8, соответственно, перенесла русские буквы в верхнюю часть таблицы, освободив место для латиницы на её законных позициях.

80-е.
На базе 19768-74 были также попытки создавать варианты с 'Ё': KOI-8-B и предок ISO-8859-5 ("draft" - DIS-8859-5 87 г., он же ISO-IR-111, он же ECMA-Cyrillic) - в них впервые появляется буква 'Ё' и (заглавный) твёрдый знак: в позициях $A3 и $B3 для 'Ё' и $FF для 'Ъ' - их вставили в свободное место, остальные буквы не меняли позицию.

Так впервые буква 'Ё' появляется в кодовых таблицах, и она стоит отдельно от основного ряда русских букв.

87 г.
Потом случилась "катастрофа" (как к этому тогда все относились), и был принят ГОСТ 19768-87. В нём буквы отсортировали по алфавиту (неслыханное дело!) и сдвинули вверх на один ряд. В итоге они стали занимать $B0-$EF, с $A1 и $F1 для Ё.

Неизвестно, почему 'Ё' решили оставить в стороне. Возможно, для совместимости с кодом, который не ожидал увидеть её внутри диапазона? Или сначала разработали стандарт без 'Ё', а потом осознали, что было бы неплохо добавить 'Ё' и вставили её в свободное место? Кто знает...

88 г.
Финальный вариант ISO-8859-5 Cyrillic (он же: ISO-IR-144 88 г.) переделали под ГОСТ 19768-87, заполнив пробелы символами для украинского и прочих кириллических языков.

89 г.
Потом гражданин Андрей Чернов подсуетился и зарегистрировал RFC 1489, определяющий KOI8-R (основанную на KOI-8 74 г.) - что надолго сделало KOI8-R де-факто стандартом русского Интернета.

90 г.
На базе ГОСТ 19768-87 была создана IBM CP866 (aka MS-DOS 866). Ряды русских букв поменяли местами, чтобы псевдографика совпала с остальными кодовыми страницами. Получился разрывный диапазон $80-$AF, $E0-$EF, и $F0, $F1 для 'Ё'.

91 г.
Российское представительство Microsoft совместно с представителями "Параграфа" и "Диалога" спроектировали с нуля Windows-1251. Основанием для новой кодировки послужил факт, что в графическом UI не нужна псевдографика. В результате почти всю наиболее употребляемую кириллицу упаковали в одну страницу, ещё и место под всякие значки препинания нашлось.

92-96 г.
Unicode, в свою очередь, делали по ISO-8859-5 - простым сдвигом букв в нужный диапазон.

Итого:
  • алфавитный порядок букв основного ряда букв обусловлен (крайне не популярным в то время) ГОСТ 19768-87.
  • отдельная позиция буквы Ё обусловлена ГОСТ 13052-67.
  • точные кодовые позиции и положение буквы Ё относительно основного ряда обусловлены ISO-8859-5.

2 комментария:

  1. Очень познавательно! Спасибо ^_^

    ОтветитьУдалить
  2. "гражданин Чернов"... а ето было задорно :) спасибо за инфо

    ОтветитьУдалить

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и (опционально) ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку.

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.

Примечание. Отправлять комментарии могут только участники этого блога.