Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Методы кодирования данных (ИСТОРИЯ КОДИРОВАНИЯ ИНФОРМАЦИИ)

Содержание:

Введение

Изучение дисциплины «Технологии программирования» является одним из основных моментов в процессе подготовки специалистов по разработке программного обеспечения для компьютерных систем. Это связано с тем, что первичная задача программиста заключается в применении решения о форме представления данных и выборе алгоритмов, применяемых к этим данным. И лишь затем выбранная структура программы и данных реализуется на конкретном языке программирования. В связи с этим знание классических методов и приемов обработки данных позволяет избежать ошибок, которые могут возникать при чисто интуитивной разработке программ.

Данные методические указания содержат необходимый теоретический материал по разделу курса «Методы кодирования данных», посвященного различным методам кодирования информации.

ИСТОРИЯ КОДИРОВАНИЯ ИНФОРМАЦИИ

Человечество использует шифрование (кодировку) текста с того самого момента, когда появилась первая секретная информация. Перед вами несколько приёмов кодирования текста, которые были изобретены на различных этапах развития человеческой мысли:

  • криптография – это тайнопись, система изменения письма с целью сделать текст непонятным для непосвященных лиц;
  • азбука Морзе или неравномерный телеграфный код, в котором каждая буква или знак представлены своей комбинацией коротких элементарных посылок электрического тока (точек) и элементарных посылок утроенной продолжительности (тире);

https://works.doklad.ru/images/CQ1qHm4HsRY/57ad735d.png

  • https://works.doklad.ru/images/CQ1qHm4HsRY/m3f596bdb.jpgсурдожесты – язык жестов, используемый людьми с нарушениями слуха.

Один из самых первых известных методов шифрования носит имя римского императора Юлия Цезаря (I век до н.э.) .

Этот метод основан на замене каждой буквы шифруемого текста, на другую, путем смещения в алфавите от исходной буквы на фиксированное количество символов, причем алфавит читается по кругу, то есть после буквы я рассматривается а. Так слово «байт» при смещении на два символа вправо кодируется словом «гвлф». Обратный процесс расшифровки данного слова – необходимо заменять каждую зашифрованную букву, на вторую слева от неё.

МЕТОДЫ КОДИРОВАНИЯ

Кодирование - это процесс перевода информации, oc выраженной oc одной oc системой oc знаков, oc в oc другую oc систему, oc то oc есть oc перевод oc записи oc на oc естественном oc языке oc в oc запись oc с oc помощью oc кодов.

Методы oc кодирования oc технико-экономической oc и oc социальной oc информации oc тесно oc взаимосвязаны oc с oc методами oc классификации. oc Каждому oc методу oc классификации oc соответствует oc один oc или oc несколько oc методов oc кодирования.

В oc процессе oc кодирования oc объектам oc классификации oc и oc их oc группировкам oc по oc определенным oc правилам oc присваиваются oc цифровые, oc буквенные oc и oc буквенно-цифровые oc коды. oc Код oc характеризуется oc алфавитом, oc то oc есть oc знаками, oc используемыми oc для oc его oc образования, oc основанием oc кода oc - oc числом oc знаков oc в oc алфавите oc кода oc и oc длиной oc кода.

К oc методам oc кодирования oc ТЭСИ oc предъявляются oc определенные oc требования, oc соблюдение oc которых oc способствует oc повышению oc качества oc классификатора. oc Метод oc кодирования oc должен:

  • 1. oc предусматривать oc использование oc в oc качестве oc алфавита oc кода oc десятичных oc цифр oc и oc букв;
  • 2. oc обеспечивать oc по oc возможности oc минимальную oc длину oc кода oc и oc достаточный oc резерв oc незанятых oc позиций oc для oc кодирования oc новых oc объектов oc без oc нарушения oc структуры oc классификатора;
  • 3. oc быть oc максимально oc ориентированным oc на oc автоматизированную oc обработку oc информации.

Методы oc кодирования oc могут oc носить oc самостоятельный oc характер oc - oc регистрационные oc методы oc кодирования, oc или oc быть oc основанными oc на oc предварительной oc классификации oc объектов oc - oc классификационные oc методы oc кодирования.

Регистрационные oc методы oc кодирования oc бывают oc двух oc видов: oc порядковый oc и oc серийно-порядковый.

Порядковый метод кодирования oc - oc это oc такой oc метод, oc при oc котором oc кодами oc служат oc числа oc натурального oc ряда. oc В oc этом oc случае oc каждый oc из oc объектов oc классифицируемого oc множества oc кодируется oc путем oc присвоения oc ему oc текущего oc порядкового oc номера. oc Данный oc метод oc кодирования oc обеспечивает oc довольно oc большую oc долговечность oc классификатора oc при oc незначительной oc избыточности oc кода. oc Этот oc метод oc обладает oc наибольшей oc простотой, oc использует oc наиболее oc короткие oc коды oc и oc лучше oc обеспечивает oc однозначность oc определения oc каждого oc объекта oc классификации. oc Кроме oc того, oc он oc обеспечивает oc наиболее oc простое oc присвоение oc кодов oc новым oc объектам, oc появляющимся oc в oc процессе oc ведения oc классификатора. oc Существенным oc недостатком oc порядкового oc метода oc кодирования oc является oc отсутствие oc в oc коде oc какой-либо oc конкретной oc информации oc о oc свойствах oc объекта, oc а oc также oc сложность oc машинной oc обработки oc информации oc при oc получении oc итогов oc по oc группе oc объектов oc классификации oc с oc одинаковыми oc признаками. oc Этот oc метод oc кодирования oc не oc обеспечивает oc возможности oc размещения oc вновь oc появившихся oc объектов oc классификации oc в oc необходимом oc месте oc классификатора, oc так oc как oc резервные oc коды oc располагаются oc в oc конце oc ряда. oc По oc этим oc причинам oc порядковый oc метод oc кодирования oc отдельно oc очень oc редко oc применяется oc при oc создании oc классификаторов oc ТЭСИ. oc Чаше oc всего oc он oc применяется oc в oc сочетании oc с oc другими oc методами oc кодирования.

Серийно-порядковый метод кодирования oc - oc это oc такой oc метод, oc при oc котором oc кодами oc служат oc числа oc натурального oc ряда oc с oc закреплением oc отдельных oc серий oc этих oc чисел oc (интервалов oc натурального oc ряда) oc за oc объектами oc классификации oc с oc одинаковыми oc признаками. oc В oc каждой oc серии, oc кроме oc кодов oc имеющихся oc объектов oc классификации, oc предусматривается oc определенное oc количество oc кодов oc для oc резерва. oc Резерв oc кодов oc располагается oc в oc середине oc или oc в oc конце oc серии. oc Это oc является oc большим oc преимуществом oc данного oc метола oc по oc сравнению oc с oc порядковым oc методом oc кодирования. oc Серийно-порядковый oc метод oc кодирования oc целесообразно oc применять oc для oc объектов, oc имеющих oc два oc соподчиненных oc признака. oc Данный oc метод oc кодирования oc обладает oc всеми oc преимуществами oc и oc недостатками oc порядкового oc метода oc кодирования. oc Несмотря oc на oc наличие oc в oc кодах, oc построенных oc по oc этому oc методу oc кодирования, oc определенных oc элементов oc классификации, oc они oc чаще oc всего oc используются oc для oc идентификации oc объектов oc в oc сочетании oc с oc классификационными oc методами oc кодирования.

Классификационные методы кодирования oc бывают oc двух oc видов: oc последовательный oc и oc параллельный.

1. oc Последовательный oc метод oc кодирования oc -это oc такой oc метод, oc при oc котором oc код oc классификационной oc группировки oc и oc (или) oc объекта oc классификации oc образуется oc с oc использованием oc кодов oc последовательно oc расположенных oc подчиненных oc группировок, oc полученных oc при oc иерархическом oc методе oc классификации. oc В oc этом oc случае oc код oc нижестоящей oc группировки oc образуется oc путем oc добавления oc соответствующего oc количества oc разрядов oc к oc коду oc вышестоящей oc группировки. oc Последовательный oc метод oc кодирования oc чаше oc всего oc используется oc при oc иерархическом oc методе oc классификации.

Преимуществами oc последовательного oc метода oc кодирования oc являются oc логичность oc построения oc кода oc и oc большая oc емкость. oc Вместе oc с oc тем oc он oc обладает oc всеми oc недостатками, oc присущими oc иерархическому oc методу oc классификации, oc а oc также oc ограниченными oc возможностями oc идентификации oc объектов. oc Использование oc последовательного oc метода oc кодирования oc связано oc с oc определенными oc трудностями, oc обусловленными oc тем, oc что oc в oc результате oc зависимости oc значений oc последующих oc разрядов oc кода oc от oc предыдущих oc применять oc этот oc код oc по oc частям oc нельзя, oc группировать oc объекты oc по oc различным oc сочетаниям oc имеющихся oc признаков oc сложно, oc практически oc невозможно oc вносить oc новые oc признаки oc и oc производить oc изменения oc в oc коде oc без oc коренной oc перестройки oc классификатора. oc Поэтому oc применять oc последовательный oc метод oc кодирования oc целесообразно oc в oc тех oc случаях, oc когда oc набор oc признаков oc классификации oc и oc их oc последовательность oc стабильны oc в oc течение oc длительного oc времени.

  • 2. oc Параллельный oc метод oc кодирования oc - oc это oc метод, oc при oc котором oc код oc классификационной oc группировки oc и oc (или) oc объекта oc классификации oc образуется oc с oc использованием oc кодов oc независимых oc группировок, oc полученных oc при oc фасетном oc методе oc классификации. oc При oc этом oc методе oc кодирования oc признаки oc объекта oc кодируются oc независимо oc друг oc от oc друга. oc Для oc параллельного oc метода oc кодирования oc возможны oc два oc варианта oc записи oc кодов oc объектов:
  • 1. oc Каждый oc фасет oc и oc признак oc внутри oc фасета oc имеют oc свои oc коды, oc которые oc включаются oc в oc состав oc кода oc объекта. oc Такой oc способ oc записи oc удобно oc применять oc тогда, oc когда oc объекты oc характеризуются oc неодинаковым oc набором oc признаков oc и oc различным oc их oc числом. oc При oc формировании oc кода oc какого-либо oc объекта oc берутся oc только oc необходимые oc признаки;
  • 2. oc Для oc определенных oc групп oc объектов oc выделяется oc фиксированный oc набор oc признаков oc и oc устанавливается oc стабильный oc порядок oc их oc следования, oc то oc есть oc устанавливается oc фасетная oc формула. oc В oc этом oc случае oc не oc надо oc каждый oc раз oc указывать, oc значение oc какого oc признака oc приведено oc в oc определенных oc разрядах oc кода oc объекта.

Параллельный oc метод oc кодирования oc имеет oc ряд oc преимуществ. oc К oc достоинствам oc рассматриваемого oc метода oc кодирования oc относится oc гибкость oc структуры oc кода, oc обусловленная oc независимостью oc признаков, oc из oc кодов oc которых oc строится oc код oc объекта oc классификации. oc Метод oc позволяет oc использовать oc при oc решении oc конкретных oc технико-экономических oc и oc социальных oc задач oc коды oc только oc тех oc признаков oc объектов, oc которые oc необходимы, oc что oc дает oc возможность oc работать oc в oc каждом oc отдельном oc случае oc с oc кодами oc небольшой oc длины. oc При oc этом oc методе oc кодирования oc можно oc осуществлять oc группировку oc объектов oc по oc любому oc сочетанию oc признаков. oc Параллельный oc метод oc кодирования oc хорошо oc приспособлен oc для oc машинной oc обработки oc информации. oc По oc конкретной oc кодовой oc комбинации oc легко oc указать, oc набором oc каких oc характеристик oc обладает oc рассматриваемый oc объект. oc При oc этом oc из oc небольшого oc числа oc признаков oc можно oc образовать oc большое oc число oc кодовых oc комбинаций. oc Набор oc признаков oc при oc необходимости oc может oc легко oc пополняться oc присоединением oc кода oc нового oc признака. oc Это oc свойство oc параллельного oc метода oc кодирования oc особенно oc важно oc при oc решении oc технико-экономических oc задач, oc состав oc которых oc часто oc меняется.

Параллельный метод кодирования целесообразно oc использовать oc для oc кодирования oc однородных oc объектов, oc так oc как oc в oc противном oc случае oc реальной oc становится oc лишь oc незначительная oc часть oc сочетаний oc признаков, oc и oc емкость oc классификатора oc будет oc использоваться oc не oc полностью. oc Это oc является oc недостатком oc данного oc метода oc кодирования. oc К oc недостаткам oc метода oc можно oc отнести oc также oc и oc другие oc недостатки, oc присущие oc фасетному oc методу oc классификации.

Перечисленные oc классификационные oc методы oc кодирования oc характеризуются oc тем, oc что oc даже oc при oc глубокой oc классификации oc объектов oc код oc несет oc информацию oc о oc классификационной oc группировке, oc но oc не oc всегда oc идентифицирует oc конкретный oc объект, oc а oc коды, oc полученные oc на oc основе oc идентификационных oc методов, oc хорошо oc выполняя oc функцию oc идентификации oc объектов, oc практически oc не oc несут oc информацию oc об oc их oc свойствах. oc Поэтому oc идентификационные oc и oc классификационные oc методы oc кодирования oc чаше oc всего oc применяются oc в oc классификаторах oc в oc сочетании oc друг oc с oc другом.

Одним из наиболее узких мест во всей технологии использования классификаторов информации является кодирование и ввод данных. oc С oc целью oc устранения oc этого oc проводятся oc исследования oc по oc автоматизации oc процесса oc кодирования oc информации. oc Однако oc для oc реализации oc автоматизированного oc процесса oc кодирования oc требуются oc большие oc объемы oc памяти, oc так oc как oc вначале oc вся oc информация oc вводится oc на oc естественном oc языке, oc и oc связанные oc с oc этим oc большие oc трудозатраты. oc Другим oc направлением oc снижения oc трудозатрат oc в oc процессе oc кодирования oc и oc ускорения oc этого oc процесса oc является oc использование oc штриховых oc (линейных) oc кодов.

Преимущества oc штриховых oc кодов oc состоят oc в oc следующем:

  • 1. oc резкое oc снижение oc числа oc ошибок oc при oc вводе oc информации oc в oc виде oc штриховых oc кодов oc по oc сравнению oc с oc вводом oc информации oc с oc клавиатуры oc на oc естественном oc языке;
  • 2. oc легкость oc считывания oc штриховых oc кодов oc электронными oc оптическими oc системами oc по oc сравнению oc с oc буквенно-цифровыми oc символами;
  • 3. oc высокая oc экономическая oc эффективность oc применения oc систем oc на oc основе oc штриховых oc кодов oc вследствие oc резкого oc снижения oc стоимости oc ввода oc данных oc в oc систему.

Штриховой oc (линейный) oc код oc представляет oc собой oc комбинацию oc вертикальных oc полосок oc разной oc ширины oc и oc пробелов oc между oc ними. oc При oc этом oc за oc базу oc принимается oc ширина oc узкого oc элемента oc (полоски) oc кода. oc Широкие oc полоски oc должны oc быть oc кратными oc им oc по oc ширине oc или oc находиться oc с oc ними oc в oc определенных oc соотношениях. oc В oc основе oc штрихового oc кода oc лежит oc цифровой oc код.

В oc разных oc странах oc используются oc различные oc виды oc штриховых oc кодов. oc В oc каждом oc из oc них oc установлено oc определенное oc соотношение oc между oc широкими oc и oc узкими oc полосками oc и oc между oc полосками oc и oc интервалами oc между oc ними. oc Так, oc в oc "Коде oc 39" oc каждому oc знаку oc цифрового oc кода oc соответствует oc комбинация oc из oc девяти oc элементов oc (три oc широких oc полоски oc и oc шесть oc узких) oc и oc из oc них oc пять oc штрихов oc и oc четыре oc интервала oc между oc ними.

Разработка oc штриховых oc кодов oc осуществляется oc Международной oc ассоциацией oc по oc нумерации oc (ЕАН), oc коды oc которой oc являются oc наиболее oc распространенными oc в oc Европе. oc Наша oc страна oc с oc 1987 oc года oc также oc стала oc членом oc ЕАН. oc В oc 1988 oc году oc Госстандарт oc СССР oc утвердил oc РД oc 50-666-88 oc "Методические oc указания. oc Присвоение oc цифровых oc кодов oc товарам oc народного oc потребления". oc Этим oc документом oc устанавливались oc правила oc присвоения oc товарам oc народного oc потребления oc цифровых oc (торговых) oc кодов. oc Эти oc цифровые oc коды oc служат oc основой oc для oc штриховых oc кодов, oc наносимых oc на oc ярлыки, oc упаковку oc и oc этикетки oc товаров. oc Такой oc цифровой oc (торговый) oc код oc строится oc в oc полном oc соответствии oc с oc кодом oc ЕАН-13. oc Он oc состоит oc из oc тринадцати oc разрядов oc и oc имеет oc следующую oc структуру:

  • 1. 2 знака - идентификатор страны-изготовителя товара;
  • 2. 5 знаков - идентификатор фирмы-изготовителя товара;
  • 3. 5 знаков - идентификатор товара;
  • 4. 1 знак - контрольное число.

В этом коде, например, США и Канада oc имеют oc идентификаторы oc с oc 00 oc до oc 09, oc Франция oc - oc с oc 30 oc до oc 37, oc ФРГ oc - oc с oc 40 oc до oc 43, oc СНГ oc - oc 46, oc Япония oc - oc 49, oc Италия oc -с oc 80 oc до oc 83, oc Корея oc -88 oc и oc так oc далее.

В oc штриховом oc коде, oc построенном oc на oc основе oc ЕАН-13, oc каждому oc знаку oc цифрового oc кода oc соответствует oc комбинация oc из oc семи oc элементов oc - oc штрихов oc и oc пробелов oc между oc ними.

Штриховые oc коды oc могут oc использоваться oc кроме oc торговли oc также oc в oc таких oc областях, oc как oc медицина, oc банковское oc дело, oc промышленность oc и oc других. oc При oc этом oc в oc качестве oc цифровых oc кодов oc для oc них oc могут oc использоваться oc коды oc классификаторов oc ТЭСИ.

Использование oc кодов oc ТЭСИ oc требует oc обеспечения oc высокой oc степени oc достоверности oc кодированной oc информации. oc В oc классификаторах oc ТЭСИ oc для oc выявления oc ошибок oc в oc кодах oc используется oc метод oc контрольных oc чисел.

Контроль oc правильности oc записи oc кодов oc при oc обработке oc информация oc основан oc на oc принципе oc делимости oc чисел. oc Иначе oc его oc называют oc контролем oc по oc модулю. oc Суть oc метода oc заключается oc в oc том, oc что oc к oc коду oc добавляется oc ещё oc один oc проверочный oc знак oc --контрольное oc число, oc связанный oc с oc кодом oc определенной oc математической oc зависимостью. oc При oc вводе oc кодированной oc информации oc в oc базу oc данных, oc ее oc обработке oc или oc использовании oc в oc ЭВМ oc специальной oc программой oc контроля oc выполняется oc проверка oc этой oc зависимости oc по oc каждому oc коду. oc Если oc зависимость oc нарушается, oc машина oc выдает oc информацию oc о oc наличии oc ошибки oc в oc коде.

Контроль oc по oc модулю oc широко oc используется oc в oc классификаторах oc ТЭСИ oc как oc у oc нас oc в oc стране, oc так oc и oc за oc рубежом. oc В oc качестве oc модуля oc используют oc различные oc числа, oc но oc наибольшее oc распространение oc получил oc в oc настоящее oc время oc контроль oc по oc модулю oc 11. oc Для oc общероссийских oc классификаторов oc расчет oc контрольных oc чисел oc осуществляется oc в oc соответствии oc с oc методикой, oc разработанной oc ВНИИКИ". oc В oc соответствии oc с oc этой oc методикой oc контрольным oc числом oc является oc остаток oc от oc деления oc на oc 11 oc суммы oc произведений oc весов oc на oc значения oc разрядов oc кода. oc Весом oc (весовым oc коэффициентом) oc является oc порядковый oc номер oc разряда oc в oc коде oc слева oc направо.

Формула, oc по oc которой oc вычисляется oc контрольное oc число, oc имеет oc следующий oc вид:

КЧ=? oc aixi-11

где oc КЧ oc - oc контрольное oc число oc по oc модулю oc 11,

ai oc - oc вес oc i-го oc разряда oc кода,

xi oc - oc значение oc I oc -го oc разряда oc кода,

? oc aixi oc - oc модуль oc 11, oc т.е oc целая oc часть oc суммы oc произведений oc значений oc разрядов oc кода oc на oc их oc веса.

Методика oc ВНИИКИ oc предлагает oc использовать oc в oc качестве oc весов oc натуральный oc ряд oc чисел oc от oc 1 oc до oc 10. oc Если oc разрядность oc кода oc больше oc 10, oc то oc набор oc весов oc повторяется. oc При oc использовании oc данного oc метода oc остаток oc может oc получить oc значение oc от oc 0 oc до oc 10. oc Так oc как oc методика oc предусматривает oc использование oc одноразрядных oc контрольных oc чисел, oc то oc при oc получении oc остатка, oc равного oc 10, oc следует oc сделать oc повторный oc расчет oc контрольного oc числа oc со oc сдвигом oc строки oc весов. oc В oc этом oc случае oc весовой oc ряд oc начинается oc с oc 3 oc до oc 10, oc а oc если oc разрядность oc кода oc больше, oc то oc дальше oc веса oc идут oc с oc 1 oc до oc 10. oc В oc случае oc повторного oc получения oc контрольного oc числа, oc равного oc 10, oc в oc качестве oc контрольного oc числа oc используется oc 0. oc В oc случае, oc если oc сумма oc произведений oc весов oc на oc значения oc разрядов oc получается oc меньше oc 10, oc то oc эта oc сумма oc и oc является oc контрольным oc числом.

Использование oc контрольных oc чисел oc обеспечивает oc возможность oc обнаруживать oc и oc исправлять oc ошибки oc в oc кодированной oc документной oc информации, oc что oc повышает oc ее oc достоверность.

3. КОДИРОВАНИЕ ИНФОРМАЦИИ

Код – это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий.

Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Обычно каждый образ при кодировании (иногда говорят – шифровке) представлении отдельным знаком.

Знак - это элемент конечного множества отличных друг от друга элементов.

В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

На компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.

4. КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

https://works.doklad.ru/images/CQ1qHm4HsRY/170fbe88.jpgТрадиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события): К = 2= 28 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Такое количество символов вполне достаточно для пред­ставления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

5. ВИДЫ ТАБЛИЦ КОДИРОВОК

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Код

Символ

0 - 31

00000000 - 00011111

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 - 127

0100000 - 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Символ 32 - пробел, т.е. пустая позиция в тексте.

Все остальные отражаются определенными знаками.

128 - 255

10000000 - 11111111

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

https://works.doklad.ru/images/CQ1qHm4HsRY/6a0e2beb.png

Первая половина таблицы кодов ASCII

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

https://works.doklad.ru/images/CQ1qHm4HsRY/6a0e2beb.png

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

https://works.doklad.ru/images/CQ1qHm4HsRY/21db3454.png

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

https://works.doklad.ru/images/CQ1qHm4HsRY/m5806399d.png

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

https://works.doklad.ru/images/CQ1qHm4HsRY/ma21f385.png

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

https://works.doklad.ru/images/CQ1qHm4HsRY/m6c69a783.png

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

https://works.doklad.ru/images/CQ1qHm4HsRY/44e6e468.png

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

https://works.doklad.ru/images/CQ1qHm4HsRY/m3ecd86d2.jpg

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера с помощью таблицы ASCII

Слова

Память

file

01100110

01101001

01101100

01100101

disk

01100100

01101001

01110011

01101011

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

https://works.doklad.ru/images/CQ1qHm4HsRY/m60d41ad8.png

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоич­ному коду в различных кодировках поставлены в соответ­ствие различные символы.

Нhttps://works.doklad.ru/images/CQ1qHm4HsRY/m648edd26.pngапример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не дол­жен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Заключение

Существование современного общества немыслимо без ее основного ресурса - информации. Понимая информацию как один из основных стратегических ресурсов, без которого невозможна деловая, управленческая, вообще любая социально значимая деятельность, необходимо уметь его оценивать как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества.

С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления.

Классификация информации является неотъемлемой частью информационного обеспечения управления, без которой невозможно эффективно и оперативно осуществлять управленческую деятельность.

СПИСОК ЛИТЕРАТУРЫ.

1. ГОСТ 6.01.1-87 Единая система классификации и кодирования технико-экономической информации. Основные положения. - М.: Изд. стандартов, 1987.

2. ГОСТ Р 1.2-92 Государственная система стандартизации (ГСС) РФ. Порядок разработки государственных стандартов

3. Постановление Правительства РФ "О развитии единой системы классификации и кодирования технико-экономической и социальной информации" № 1212 от 1 ноября 1999 г. // Вестник Госстандарта России. - 2000. - № 1.

4. ПР 50-733-93. Правила по стандартизации. Основные положения Единой системы классификации и кодирования технико-экономической и социальной информации и унифицированных систем документации Российской Федерации. - М., 2015.

5. Костомаров М.Н. Классификация и кодирование документов и документной информации (классификация документов) // Секретарское дело. - 2016. - № 11.

6. Костомаров М.Н. Классификация и кодирование документов и документной информации (классификация документов) // Секретарское дело. - 2016. - № 10.

7. Костомаров М.Н. Разработка общероссийских классификаторов ТЭСИ) // Секретарское дело. - 2016. - № 3.

8. Костомаров М.Н., Соколов А.В., Степанов Е.А. Информационное обеспечение управления. - М.: МГИАИ,2015.

9. Агеев В.М. Теория информации и кодирования: дискретизация и кодирование измерительной информации. — М.: МАИ, 2014.

10. Кузьмин И.В., Кедрус В.А. Основы теории информации и кодирования. — Киев, Вища школа, 2015.

11. Простейшие методы шифрования текста/ Д.М. Златопольский. – М.: Чистые пруды, 2014 – 32 с.

12. Угринович Н.Д. Информатика и информационные технологии. Учебник для 10-11 классов / Н.Д.Угринович. – М.: БИНОМ. Лаборатория знаний, 2016. – 512 с.