Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Операции, производимые с данными

Содержание:

Введение

Веками человечество накапливало знания, навыки работы, сведения об окружающем нас мире, т.е. собирало информацию. Вначале информация передавалась из поколения в поколение в виде преданий и устных рассказов. Возникновение и развитие книжного дела позволило передавать и хранить информацию в более надежном письменном виде. Открытия в области электричества привели к появлению телеграфа, телефона, радио, телевидения - средств, позволяющих оперативно передавать и накапливать информацию. Развитие прогресса обусловило резкий рост информации, в связи, с чем вопрос о её сохранении и переработке становился год от года острее. С появлением вычислительной техники значительно упростились способы хранения, а главное, обработки информации. Развитие вычислительной техники на базе микропроцессоров приводит к совершенствованию компьютеров и программного обеспечения. Появляются программы, способные обработать большие потоки информации. С помощью таких программ создаются информационные системы. Целью любой информационной системы является обработка данных об объектах и явлениях реального мира и предоставление нужной человеку информации о них.

Объектом исследования являются данные.

Предмет исследования – операции, производимые с ними.

Целью исследования в курсовой работе является изучение операций, производимых с данными.

1. Теоретические аспекты изучения понятия «данные»

1.1 Понятие «данные» и отграничение от смежных понятий

К базовым понятиям, которые используются в экономической информатике, относятся: данные, информация и знания. Эти понятия часто используются как синонимы, однако между этими понятиями существуют принципиальные различия [7].

Термин данные происходит от слова data - факт, а информация (informatio) означает разъяснение, изложение, т.е. сведения или сообщение.

Данные - это совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки. Преобразование и обработка данных позволяет получить информацию [4].

Информация - это результат преобразования и анализа данных. Отличие информации от данных состоит в том, что данные - это фиксированные сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач. Например, в базах данных хранятся различные данные, а по определенному запросу система управления базой данных выдает требуемую информацию [4].

Существуют и другие определения информации, например, информация – это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Знания – это зафиксированная и проверенная практикой обработанная информация, которая использовалась и может многократно использоваться для принятия решений [4].

Знания – это вид информации, которая хранится в базе знаний и отображает знания специалиста в конкретной предметной области. Знания – это интеллектуальный капитал [4].

Формальные знания могут быть в виде документов (стандартов, нормативов), регламентирующих принятие решений или  учебников, инструкций с описанием решения задач.

Неформальные знания – это знания и опыт специалистов в определенной предметной области.

Необходимо отметить, что универсальных определений этих понятий (данных, информации, знаний) нет, они трактуются по-разному [11].

Принятия решений осуществляются на основе полученной информации и имеющихся знаний.

Принятие решений – это выбор наилучшего в некотором смысле варианта решения из множества допустимых на основании имеющейся информации [12].

Взаимосвязь данных, информации и знаний в процессе принятия решений представлена на рисунке.

Процесс принятия решений

Рисунок 1 - Взаимосвязь данных, информации и знаний в процессе принятия решений [6]

Для решения поставленной задачи фиксированные данные обрабатываются на основании имеющихся знаний, далее полученная информация анализируется с помощью имеющихся знаний. На основании анализа, предлагаются все допустимые решения, а в результате выбора принимается одно наилучшее в некотором смысле решение. Результаты решения пополняют знания.

В зависимости от сферы использования информация может быть различной: научной, технической, управляющей, экономической и т.д. Для экономической информатики интерес представляет экономическая информация [2].

1.2 Классификация носителей данных

Носитель данных (информационный носитель) – любой материальный объект, используемый человеком для хранения данных. Это может быть, например, камень, дерево, бумага, металл, пластмассы, кремний (и другие виды полупроводников), лента с намагниченным слоем (в бобинах и кассетах), фотоматериал, пластик со специальными свойствами (напр., в оптических дисках) и т. д., и т. п.

Носителем информации может быть любой объект, с которого возможно чтение (считывание) имеющейся на нем информации.

Носители информации применяются для:

  • записи;
  • хранения;
  • чтения;
  • передачи (распространения) информации [15].

Зачастую сам носитель информации помещается в защитную оболочку, повышающую его сохранность и, соответственно, надежность сохранения информации (например, бумажные листы помещают в обложку, микросхему памяти – в пластик (смарт-карта), магнитную ленту – в корпус и т. д.).

К электронным носителям относят носители для однократной или многократной записи (обычно цифровой) электрическим способом:

  • оптические диски (CD-ROM, DVD-ROM, Blu-ray Disc);
  • полупроводниковые (флеш-память, дискеты и т. п.); 
  • CD-диски (CD – Compact Disk, компакт диск), на который может быть записано до 700 Мбайт информации;
  • DVD-диски (DVD – Digital Versatile Disk, цифровой универсальный диск), которые имеют значительно большую информационную емкость (4,7 Гбайт), так как оптические дорожки на них имеют меньшую толщину и размещены более плотно;
  • диски HR DVD и Blu-ray, информационная емкость которых в 3–5 раз превосходит информационную емкость DVD-дисков за счет использования синего лазера с длиной волны 405 нанометров [15].

Электронные носители имеют значительные преимущества перед бумажными (бумажные листы, газеты, журналы):

  • по объему (размеру) хранимой информации;
  • по удельной стоимости хранения;
  • по экономичности и оперативности предоставления актуальной (предназначенной для недолговременного хранения) информации;
  • по возможности предоставления информации в виде, удобном потребителю (форматирование, сортировка) [9].

Есть и недостатки:

  • хрупкость устройств считывания;
  • вес (масса) (в некоторых случаях);
  • зависимость от источников электропитания;
  • необходимость наличия устройства считывания/записи для каждого типа и формата носителя [1].

Накопитель на жестких магнитных дисках или НЖМД (англ. hard (magnetic) disk drive, HDD, HMDD), жесткий диск – запоминающее устройство (устройство хранения информации), основанное на принципе магнитной записи. Является основным накопителем данных в большинстве компьютеров.

В отличие от «гибкого» диска (дискеты), информация в НЖМД записывается на жесткие пластины, покрытые слоем ферромагнитного материала – магнитные диски. В НЖМД используется одна или несколько пластин на одной оси. Считывающие головки в рабочем режиме не касаются поверхности пластин благодаря прослойке набегающего потока воздуха, образующейся у поверхности при быстром вращении. Расстояние между головкой и диском составляет несколько нанометров (в современных дисках около 10 нм), а отсутствие механического контакта обеспечивает долгий срок службы устройства. При отсутствии вращения дисков головки находятся у шпинделя или за пределами диска в безопасной («парковочной») зоне, где исключен их нештатный контакт с поверхностью дисков.

Также, в отличие от гибкого диска, носитель информации обычно совмещают с накопителем, приводом и блоком электроники. Такие жесткие диски часто используются в качестве несъемного носителя информации.

Оптические (лазерные) диски в настоящее время являются наиболее популярными носителями информации. В них используется оптический принцип записи и считывания информации с помощью лазерного луча.

DVD-диски могут быть двухслойными (емкость 8,5 Гбайт), при этом оба слоя имеют отражающую поверхность, несущую информацию. Кроме того, информационная емкость DVD-дисков может быть еще удвоена (до 17 Гбайт), так как информация может быть записана на двух сторонах [13].

Накопители оптических дисков делятся на три вида:

  • без возможности записи - CD-ROM и DVD-ROM (ROM – Read Only Memory, память только для чтения). На дисках CD-ROM и DVD-ROM хранится информация, которая была записана на них в процессе изготовления. Запись на них новой информации невозможна;
  • с однократной записью и многократным чтением – CD-R и DVD±R (R – recordable, записываемый). На дисках CD-R и DVD±R информация может быть записана, но только один раз;
  • с возможностью перезаписи – CD-RW и DVD±RW (RW – Rewritable, перезаписываемый). На дисках CD-RW и DVD±RW информация может быть записана и стерта многократно [7].

Основные характеристики оптических дисководов:

  • емкость диска (CD – до 700 Мбайт, DVD – до 17 Гбайт)
  • скорость передачи данных от носителя в оперативную память – измеряется в долях, кратных скорости 150 Кбайт/сек для CD-дисководов;
  • время доступа – время, нужное для поиска информации на диске, измеряется в миллисекундах (для CD 80–400 мс) [7].

В настоящее время широкое распространение получили 52х-скоростные CD-дисководы – до 7,8 Мбайт/сек. Запись CD-RW дисков производится на меньшей скорости (например, 32х-кратной). Поэтому CD-дисководы маркируются тремя числами «скорость чтения х скорость записи CD-R х скорость записи CD-RW» (например, «52х52х32»).
DVD-дисководы также маркируются тремя числами (например, «16х8х6»).

При соблюдении правил хранения (хранение в футлярах в вертикальном положении) и эксплуатации (без нанесения царапин и загрязнений) оптические носители могут сохранять информацию в течение десятков лет.

Флеш-память (flash memory) – относится к полупроводникам электрически перепрограммируемой памяти (EEPROM). Благодаря техническим решениям, невысокой стоимости, большому объему, низкому энергопотреблению, высокой скорости работы, компактности и механической прочности, флеш-память встраивают в цифровые портативные устройства и носители информации. Основное достоинство этого устройства в том, что оно энергонезависимое и ему не нужно электричество для хранения данных. Всю хранящуюся информацию во флэш-памяти можно считать бесконечное количество раз, а вот количество полных циклов записи, к сожалению, ограничено.

У флеш-памяти есть как свои преимущества перед другими накопителями (жесткие диски и оптические накопители), так и свои недостатки, с которыми вы можете познакомиться из таблицы 1, расположенной ниже.

Таблица 1

Носители информации [2]

Тип накопителя

Преимущества

Недостатки

Жесткий диск

Большой объем хранимой информации. Высокая скорость работы. Дешевизна хранения данных (в расчете на 1 Мбайт)

Большие габариты. Чувствительность к вибрации. Шум. Тепловыделение

Оптический диск

Удобство транспортировки. Дешевизна хранения информации. Возможность тиражирования

Небольшой объем. Нужно считывающее устройство. Ограничения при операциях (чтение, запись). Невысокая скорость работы. Чувствительность к вибрации. Шум

Флеш-память

Высокая скорость доступа к данным. Экономное энергопотребление. Устойчивость к вибрациям. Удобство подключения к компьютеру. Компактные размеры

Ограниченное количество циклов записи

1.3 Операции с данными

Данные характеризуются своим типом и множеством операций над н’ими. Данные в комп’ьютере условно делятся на п’ростые и сложные.

П’римеры п’ростых данных, которые может обрабатыват’ь комп’ьютер п’риведены в таблице 2:

Таблица 2

Типы данных, обрабатываемых комп’ьютером [10]

Типы данных

Операции

1

Числа (числовые данные)

Все арифметические операции

2

Тексты(символ’ьные данные)

Замещен’ие, вставка, удален’ие символов, сравнен’ие, конкатенация строк

3

Логические(бинарные) данные

Все логические операции (конъюнкция, дизъюнкция, отрицан’ие и др.)

4

Изображен’ия:рисунки, графика,ан’имация (графические данные)

Операции над пикселями, из которых состоит изображен’ие: яркост’ь, цвет, контрастност’ь

5

Видео данные

Удален’ие фрагмента, вставка фрагмента, работа с кадрами

6

Аудио данные

Усилен’ие, умен’ьшен’ие, удален’ие фрагмента, вставка фрагмента

К сложным данным относятся: массивы и списки (однотипные), структуры, записи, таблицы (разнотипные). В ходе информационного п’роцесса данные п’реобразуются из одного вида в другой с помощ’ью методов. Обработка данных включает в себя множество различных операций. По мере развития научно-техн’ического п’рогресса и общего усложнен’ия связей в человеческом обществе трудозатраты на обработку данных неуклонно возрастают. П’режде всего, это связано с постоянным усложнен’ием условий уп’равлен’ия п’роизводством и обществом. Второй фактор, также вызывающий общее увеличен’ие объемов обрабатываемых данных, тоже связан с научно-техн’ическим п’рогрессом, а именно с быстрыми темпами появлен’ия и внедрен’ия новых носителей данных, средств их хранен’ия и доставки.

В структуре возможных операций с данными можно выделит’ь основные:

  1. сбор данных - накоплен’ие информации с цел’ью обеспечен’ия достаточной полноты для п’ринятия решен’ий;
  2. формализация данных - п’риведен’ие данных, поступающих из разных источн’иков, к одинаковой форме, чтобы сделат’ь их сопоставимыми между собой, то ест’ь повысит’ь их уровен’ь доступности;
  3. фил’ьтрация данных - отсеиван’ие «лишн’их» данных, в которых нет необходимости для п’ринятия решен’ий; п’ри этом должен умен’ьшат’ься уровен’ь «шума», а достоверност’ь и адекватност’ь данных должны возрастат’ь;
  4. сортировка данных - упорядочен’ие данных по заданному п’ризнаку с цел’ью удобства испол’ьзован’ия; повышает доступност’ь информации;
  5. архивация данных - орган’изация хранен’ия данных в удобной и легкодоступной форме; служит для сн’ижен’ия экономических затрат по хранен’ию данных и повышает общую надежност’ь информационного п’роцесса в целом;
  6. защита данных - комплекс мер, нап’равленных на п’редотвращен’ие утраты, восп’роизведен’ия и модификации данных;
  7. транспортировка данных - п’рием и передача (доставка и поставка) данных между удаленными участн’иками информационного п’роцесса; п’ри этом источн’ик данных в информатике п’ринято называт’ь сервером, а потребителя - клиентом;
  8. п’реобразован’ие данных - перевод данных из одной формы в другую или из одной структуры в другую. П’реобразован’ие данных часто связано с изменен’ием типа носителя, нап’ример кн’иги можно хран’ит’ь в обычной бумажной форме, но можно испол’ьзоват’ь для этого и электронную форму, и микрофотопленку [5].

Необходимост’ь в многократном п’реобразован’ии данных возн’икает также п’ри их транспортировке, особенно если она осуществляется средствами, не п’редназначенными для транспортировки данного вида данных. В качестве п’римера можно упомянут’ь, что для транспортировки цифровых потоков данных по каналам телефонных сетей (которые изначал’ьно были ориентированы тол’ько на передачу аналоговых сигналов в узком диапазоне частот) необходимо п’реобразован’ие цифровых данных в некое подобие звуковых сигналов, чем и зан’имаются специал’ьные устройства — телефонные модемы [7].

2. Кодирование данных

2.1 Кодирование данных двоичным кодом

Для автоматизации работы с данными, относящимися к различным типам, очен’ь важно ун’ифицироват’ь их форму п’редставлен’ия. Для этого обычно испол’ьзуется п’рием кодирован’ия, то ест’ь выражен’ие данных одного типа через данные другого типа. Естественные человеческие языки — это не что иное, как системы кодирован’ия понятий для выражен’ия мыслей посредством речи.

К языкам близко п’римыкают азбуки (системы кодирован’ия компонентов языка с помощ’ью графических символов). История знает интересные, хотя и безуспешные попытки создан’ия «ун’иверсал’ьных» языков и азбук. По-видимому, безуспешност’ь попыток их внедрен’ия связана с тем, что национал’ьные и социал’ьные образован’ия естественным образом пон’имают, что изменен’ие системы кодирован’ия общественных данных неп’ременно п’риводит к изменен’ию общественных методов (то ест’ь норм п’рава и морали), а это может быт’ь связано с социал’ьными потрясен’иями.

Та же п’роблема ун’иверсал’ьного средства кодирован’ия достаточно успешно реализуется в отдел’ьных отраслях техн’ики, науки и кул’ьтуры. В качестве п’римеров можно п’ривести систему записи математических выражен’ий, телеграфную азбуку, морскую флажковую азбуку, систему Брайля для слепых и многое другое.

Своя система существует и в вычислител’ьной техн’ике — она называется двоичным кодирован’ием и основана на п’редставлен’ии данных последовател’ьност’ью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски — binary digit или сокращенно bit (бит). П’римеры различных систем кодирован’ия п’редставлены на рисунке 2.

C:\Documents and Settings\Admin\Мои документы\реферат информ\информатика реф.bmp

Рисунок 2 - П’римеры различных систем кодирован’ия

Одн’им битом могут быт’ь выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или лож’ь и т. п.). Если количество битов увеличит’ь до двух, то уже можно выразит’ь четыре различных понятия:

00 01 10 11 данные обработка носител’ь кодирован’ие

Тремя битами можно закодироват’ь восем’ь различных значен’ий: 000 001 010 011 100 101 ПО 111

Увеличивая на един’ицу количество разрядов в системе двоичного кодирован’ия, мы увеличиваем в два раза количество значен’ий, которое может быт’ь выражено в данной системе, то ест’ь общая формула имеет вид:

N=

где N— количество независимых кодируемых значен’ий;

m — разрядност’ь двоичного кодирован’ия, п’ринятая в данной системе.

2.2 Кодирование целых и действительных чисел

Целые числа кодируются двоичным кодом довол’ьно п’росто — достаточно взят’ь целое число и делит’ь его пополам до тех пор, пока частное не будет равно един’ице. Совокупност’ь остатков от каждого делен’ия, записанная сп’рава налево вместе с последн’им частным, и образует двоичный аналог десятичного числа.

19:2 = 9 + 1

9:2=4+1

4 : 2 = 2 +-0

2:2=1+0

Таким образом, 1910= 100112.

Для кодирован’ия целых чисел от 0 до 255 достаточно имет’ь 8 разрядов двоичного кода (8 бит). Шестнадцат’ь бит позволяют закодироват’ь целые числа от 0 до 65 535, а 24 бита — уже более 16,5 миллионов разных значен’ий.

Для кодирован’ия действител’ьных чисел испол’ьзуют 80-разрядное кодирован’ие. П’ри этом число п’редварител’ьно п’реобразуется в нормализованную форму:

3,1415926 = 0,31415926 • 101 300 000 = 0,3 • 106

123 456 789 - 0,123456789 • 1010

Первая част’ь числа называется мантиссой, а вторая — характеристикой. Бол’ьшую част’ь из 80 бит отводят для хранен’ия мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранен’ия характеристики (тоже со знаком).

2.3 Кодирование текстовых данных

Если каждому символу алфавита сопоставит’ь оп’ределенное целое число (нап’ример, порядковый номер), то с помощ’ью двоичного кода можно кодироват’ь и текстовую информацию. Вос’ьми двоичных разрядов достаточно для кодирован’ия 256 различных символов. Этого хватит, чтобы выразит’ь различными комбинациями вос’ьми битов все символы английского и русского языков, как строчные, так и п’рописные, а также знаки п’репинан’ия, символы основных арифметических действий и некоторые общеп’ринятые специал’ьные символы, нап’ример символ «§».

Техн’ически это выглядит очен’ь п’росто, однако всегда существовали достаточно веские орган’изационные сложности. В первые годы развития вычислител’ьной техн’ики он’и были связаны с отсутствием необходимых стандартов, а в настоящее время вызваны, наоборот, изобилием одновременно действующих и п’ротиворечивых стандартов. Для того чтобы вес’ь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирован’ия, а это пока невозможно из-за п’ротиворечий между символами национал’ьных алфавитов, а также п’ротиворечий корпоративного характера.

Для английского языка п’ротиворечия уже сняты. Институт стандартизации США (ANSI — American National Standard Institute) ввел в действие систему кодирован’ия ASCII (American Standard Code for Information Interchange — стандартный код информационного обмена США). В системе ASCII закреплены две таблицы кодирован’ия — базовая и расширенная. Базовая таблица закрепляет значен’ия кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы п’роизводителям аппаратных средств (в первую очеред’ь п’роизводителям комп’ьютеров и печатающих устройств). В этой области размещаются так называемые уп’равляющие коды, которым не соответствуют н’икакие символы языков, и, соответственно, эти коды не выводятся н’и на экран, н’и на устройства печати, но ими можно уп’равлят’ь тем, как п’роизводится вывод п’рочих данных.

Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков п’репинан’ия, цифр, арифметических действий и некоторых вспомогател’ьных символов. Базовая таблица кодировки ASCII п’риведена в таблице 2. Аналогичные системы кодирован’ия текстовых данных были разработаны и в других странах. Так, нап’ример, в СССР в этой области действовала система кодирован’ия КОИ-7 (код обмена информацией, семизначный). Однако поддержка п’роизводителей оборудован’ия и п’рограмм вывела американский код ASCII на уровен’ь международного стандарта, и национал’ьным системам кодирован’ия п’ришлос’ь «отступит’ь» во вторую, расширенную част’ь системы кодирован’ия, оп’ределяющую значен’ия кодов со 128 по 255. Отсутствие единого стандарта в этой области п’ривело к множественности одновременно действующих кодировок. Тол’ько в России можно указат’ь три действующих стандарта кодировки и еще два устаревших.

Таблица 3

Базовая таблица кодировки ASCII

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный.bmp

Так, нап’ример, кодировка символов русского языка, известная как кодировка Windows-1251, была введена «извне» — компан’ией Microsoft, но, учитывая широкое расп’ространен’ие операционных систем и других п’родуктов этой компан’ии в России, она глубоко закрепилас’ь и нашла широкое расп’ространен’ие (таблица 4). Эта кодировка испол’ьзуется на бол’ьшинстве локал’ьных комп’ьютеров, работающих на платформе Windows.

Таблица 4

Кодировка Windows 1251

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный1.bmp

Другая расп’ространенная кодировка носит назван’ие КОИ-8 (код обмена информацией, вос’ьмизначный) — ее п’роисхожден’ие относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы (таблица 5). Сегодня кодировка КОИ-8 имеет широкое расп’ространен’ие в комп’ьютерных сетях на территории России и в российском секторе Интернет.

Международный стандарт, в котором п’редусмотрена кодировка символов русского алфавита, носит назван’ие кодировки /50 (International Standard Organization — Международный институт стандартизации). На п’рактике данная кодировка испол’ьзуется редко (таблица 6).

Таблица 5

Кодировка КОИ-8

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный2.bmp

Таблица 6

Кодировка ISO

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный3.bmp

Таблица 7

ГОСТ-ал’ьтернативная кодировка

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный4.bmp

На комп’ьютерах, работающих в операционных системах MS-DOS, могут действоват’ь еще две кодировки (кодировка ГОСТ и кодировка ГОСТ-ал’ьтернативная). Первая из н’их считалас’ь устаревшей даже в первые годы появлен’ия персонал’ьной вычислител’ьной техн’ики, но вторая испол’ьзуется и по сей ден’ь (см. таблицу 7).

В связи с изобилием систем кодирован’ия текстовых данных, действующих в России, возн’икает задача межсистемного п’реобразован’ия данных — это одна из расп’ространенных задач информатики.

2.4 Универсальная система кодирования текстовых данных

Если п’роанализироват’ь орган’изационные трудности, связанные с создан’ием единой системы кодирован’ия текстовых данных, то можно п’рийти к выводу, что он’и вызваны огран’иченным набором кодов (256). В то же время очевидно, что если, нап’ример, кодироват’ь символы не вос’ьмиразрядными двоичными числами, а числами с бол’ьшим количеством разрядов, то и диапазон возможных значен’ий кодов станет намного бол’ьше. Такая система, основанная на 16-разрядном кодирован’ии символов, получила назван’ие ун’иверсал’ьной — UNICODE. Unicode (Юн’икод или Ун’икод, англ. Unicode) — стандарт кодирован’ия символов, позволяющий п’редставит’ь знаки п’рактически всех пис’ьменных языков. Юн’икод имеет нескол’ько форм п’редставлен’ия: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Была разработана также форма п’редставлен’ия UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила расп’ространен’ия и не включена в стандарт. В MicrosoftWindows NT и основанных на ней системах Windows 2000 и Windows XP в основном испол’ьзуется форма UTF-16LE. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X п’ринята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

Стандарт п’редложен в 1991 году некоммерческой орган’изацией «Консорциум Юн’икода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации. П’рименен’ие этого стандарта позволяет закодироват’ь очен’ь бол’ьшое число символов из разных пис’ьменностей: в документах Unicode могут соседствоват’ь китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, п’ри этом становятся ненужными кодовые стран’ицы.

По мере изменен’ия и пополнен’ия таблицы символов системы Юн’икода и выхода новых версий этой системы, — а эта работа ведется постоянно, поскол’ьку изначал’ьно система Юн’икод включала тол’ько Plane 0 — двухбайтные коды, — выходят и новые документы ISO. Система Юн’икод существует в общей сложности в следующих версиях:

1.1 (соответствует стандарту ISO/IEC 10646—1:1993),

2.0, 2.1 (тот же стандарт ISO/IEC 10646—1:1993 плюс дополнен’ия: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2),

3.0 (стандарт ISO/IEC 10646—1:2000).

3.2 (стандарт 2002 года)

4.0 (стандарт 2003)

4.01 (стандарт 2004)

4.1 (стандарт 2005)

5.0 (стандарт 2006)

Хотя формы записи UTF-8 и UTF-32 позволяют кодироват’ь до 231 (2 147 483 648) кодовых позиций, было п’ринято решен’ие испол’ьзоват’ь лиш’ь 220+216 (1 114 112) для совместимости с UTF-16. Вп’рочем, даже и этого более чем достаточно — сегодня (в версии 5.0) испол’ьзуется чут’ь бол’ьше 99 000 кодовых позиций.

Кодовое п’ространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскост’ь называется базовой, в ней расположены символы наиболее употребител’ьных пис’ьменностей. Первая плоскост’ь испол’ьзуется, в основном, для исторических пис’ьменностей. Плоскости 16 и 17 выделены для частного употреблен’ия.

Для обозначен’ия символов Unicode испол’ьзуется запис’ь вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF), где xxx — шестнадцатеричные цифры. Нап’ример, символ «я» (U+044F) имеет код 044F16 = 110310.

Ун’иверсал’ьная система кодирован’ия (Юн’икод) п’редставляет собой набор графических символов и способ их кодирован’ия для комп’ьютерной обработки текстовых данных.

Графические символы — это символы, имеющие видимое изображен’ие. Графическим символам п’ротивопоставляются уп’равляющие символы и символы форматирован’ия.

Графические символы включают в себя следующие группы:

буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов; цифры; знаки пунктуации; специал’ьные знаки (математические, техн’ические, идеограммы и п’р.); разделители.

Юн’икод — это система для линейного п’редставлен’ия текста. Символы, имеющие дополн’ител’ьные над- или подстрочные элементы, могут быт’ь п’редставлены в виде построенной по оп’ределенным п’равилам последовател’ьности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character).

Графические символы в Юн’икоде подразделяются на п’ротяженные и неп’ротяженные (бесширинные). Неп’ротяженные символы п’ри отображен’ии не зан’имают места в строке. К н’им относятся, в частности, знаки ударен’ия и п’рочие диакритические знаки. Как п’ротяженные, так и неп’ротяженные символы имеют собственные коды. П’ротяженные символы иначе называются базовыми (base characters), а неп’ротяженные- модифицирующими (combining characters); п’ричем последн’ие не могут встречат’ься самостоятел’ьно. Нап’ример, символ «á» может быт’ь п’редставлен как последовател’ьност’ь базового символа «a» (U+0061) и модифицирующего символа « ?» (U+0301) или как монолитный символ «á» (U+00C1).

Особый тип модифицирующих символов — селекторы варианта начертан’ия (variation selectors). Он’и действуют тол’ько на те символы, для которых такие варианты оп’ределены. В версии 5.0 варианты начертан’ия оп’ределены для ряда математических символов, для символов традиционного монгол’ьского алфавита и для символов пис’ьма Phags-Pa.

Поскол’ьку одн’и и те же символы можно п’редставит’ь различными кодами, что иногда затрудняет обработку, существуют п’роцессы нормализации, п’редназначенные для п’риведен’ия текста к оп’ределенному стандартному виду.

В стандарте Юн’икода оп’ределены 4 формы нормализации текста:

  1. Форма нормализации D (NFD) — канон’ическая декомпозиция. В п’роцессе п’риведен’ия текста в эту форму все составные символы рекурсивно заменяются на нескол’ько составных, в соответствии с таблицами декомпозиции.
  2. Форма нормализации C (NFC) — канон’ическая декомпозиция с последующей канон’ической композицией. Сначала текст п’риводится к форме D, после чего выполняется канон’ическая композиция — текст обрабатывается от начала к концу и выполняются следующие п’равила:

Символ S является начал’ьным, если он имеет нулевой класс модификации в базе символов Юн’икода.

В любой последовател’ьности символов, стартующей с начал’ьного символа S символ C блокируется от S если и тол’ько если между S и C ест’ь какой-либо символ B, который или является начал’ьным, или имеет одинаковый или бол’ьший класс модификации, чем C. Это п’равило расп’ространяется тол’ько на строки п’рошедшие канон’ическую декомпозицию.

Первичным композитом считается символ, у которого ест’ь канон’ическая декомпозиция в базе символов Юн’икода.

Символ X может быт’ь первично совмещен с символом Y если и тол’ько если существует первичный композит Z, канон’ически эквивалентный последовател’ьности <X, Y>.

Если очередной символ C не блокируется последн’им встреченным начал’ьным базовым символом L, и он может быт’ь успешно первично совмещен с н’им, то L заменяется на композит L-C, а C удаляется.

  1. Форма нормализации KD (NFKD) — совместимая декомпозиция. П’ри п’риведен’ии в эту форму все составные символы заменяются испол’ьзуя как канон’ические карты декомпозиции Юн’икода, так и совместимые карты декомпозиции, после чего резул’ьтат ставится в канон’ическом порядке.
  2. Форма нормализации KC (NFKC) — совместимая декомпозиция с последующей канон’ической композицией.

Термины «композиция» и «декомпозиция» пон’имают под собой соответственно соединен’ие или разложен’ие символов на составные части.

Коды в стандарте Unicode разделены на нескол’ько областей. Област’ь с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных пис’ьменностей, знаки пунктуации и техн’ические символы. Част’ь кодов зарезервирована для испол’ьзован’ия в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F. Шестнадцат’ь разрядов позволяют обеспечит’ь ун’икал’ьные коды для 65 536 различных символов — этого поля достаточно для размещен’ия в одной таблице символов бол’ьшинства языков планеты.

Несмотря на тривиал’ьную очевидност’ь такого подхода, п’ростой механ’ический переход на данную систему долгое время сдерживался из-за недостаточных ресурсов средств вычислител’ьной техн’ики (в системе кодирован’ия UNICODE все текстовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов техн’ические средства достигли необходимого уровня обеспеченности ресурсами, и сегодня мы наблюдаем постепенный перевод документов и п’рограммных средств на ун’иверсал’ьную систему кодирован’ия. Для индивидуал’ьных пол’ьзователей это еще бол’ьше добавило забот по согласован’ию документов, выполненных в разных системах кодирован’ия, с п’рограммными средствами, но это надо пон’имат’ь как трудности переходного периода.[2,4]

2.5 Кодирование графических данных

Если рассмотрет’ь с помощ’ью увеличител’ьного стекла черно-белое графическое изображен’ие, напечатанное в газете или кн’иге, то можно увидет’ь, что оно состоит из мел’ьчайших точек, образующих характерный узор, называемый растром. Растровое изображен’ие п’редставлено на рисунке 3.

C:\Documents and Settings\Admin\Мои документы\реферат информ\Безымянный5.bmp

Рисунок 3 - Растровое изображен’ие

Растр - это метод кодирован’ия графической информации (точечная структура графического изображен’ия).

Поскол’ьку линейные координаты и индивидуал’ьные свойства каждой точки (яркост’ь) можно выразит’ь с помощ’ью целых чисел, то можно сказат’ь, что растровое кодирован’ие позволяет испол’ьзоват’ь двоичный код для п’редставлен’ия графических данных. Общеп’ринятым на сегодняшн’ий ден’ь считается п’редставлен’ие черно-белых иллюстраций в виде комбинации точек с 256 градациями серого цвета, и, таким образом, для кодирован’ия яркости любой точки обычно достаточно вос’ьмиразрядного двоичного числа.

Для кодирован’ия цветных графических изображен’ий п’рименяется п’ринцип декомпозиции п’роизвол’ьного цвета на основные составляющие. В качестве таких составляющих испол’ьзуют три основных цвета:

  1. красный (Red, R);
  2. зеленый (Green, G);
  3. син’ий (Blue, В).

На п’рактике считается, что любой цвет, видимый человеческим глазом, можно получит’ь путем механ’ического смешен’ия этих трех основных цветов. Такая система кодирован’ия называется системой RGB (по первым буквам назван’ий основных цветов).

Если для кодирован’ия яркости каждой из основных составляющих испол’ьзоват’ь по 256 значен’ий (восем’ь двоичных разрядов), как это п’ринято для полутоновых черно-белых изображен’ий, то на кодирован’ие цвета одной точки надо затратит’ь 24 разряда. П’ри этом система кодирован’ия обеспечивает однозначное оп’ределен’ие 16,5 млн. различных цветов, что на самом деле близко к чувствител’ьности человеческого глаза. Режим п’редставлен’ия цветной графики с испол’ьзован’ием 24 двоичных разрядов называется полноцветным (True Color).

Каждому из основных цветов можно поставит’ь в соответствие дополн’ител’ьный цвет, то ест’ь цвет, дополняющий основной цвет до белого. Нетрудно заметит’ь, что для любого из основных цветов дополн’ител’ьным будет цвет, образованный суммой пары остал’ьных основных цветов. Соответственно, дополн’ител’ьными цветами являются:

    1. голубой (Cyan, С);
    2. пурпурный (Magenta., М);
    3. желтый (yellow, Y).

П’ринцип декомпозиции п’роизвол’ьного цвета на составляющие компоненты можно п’рименят’ь не тол’ько для основных цветов, но и для дополн’ител’ьных, то ест’ь любой цвет можно п’редставит’ь в виде суммы голубой, пурпурной и желтой составляющей. Такой метод кодирован’ия цвета п’ринят в полиграфии, но в полиграфии испол’ьзуется еще и четвертая краска — черная (Black, К). Поэтому данная система кодирован’ия обозначается четыр’ьмя буквами CMYK (черный цвет обозначается буквой К, потому, что буква В уже занята син’им цветом), и для п’редставлен’ия цветной графики в этой системе надо имет’ь 32 двоичных разряда. Такой режим тоже называется полноцветным (True Color).

Если умен’ьшит’ь количество двоичных разрядов, испол’ьзуемых для кодирован’ия цвета каждой точки, то можно сократит’ь объем данных, но п’ри этом диапазон кодируемых цветов заметно сокращается. Кодирован’ие цветной графики 16-разрядными двоичными числами называется режимом High Color.

П’ри кодирован’ии информации о цвете с помощ’ью вос’ьми бит данных можно передат’ь тол’ько 256 цветовых оттенков. Такой метод кодирован’ия цвета называется индексным. Смысл назван’ия в том, что, поскол’ьку 256 значен’ий совершенно недостаточно, чтобы передат’ь вес’ь диапазон цветов, доступный человеческому глазу, код каждой точки растра выражает не цвет сам по себе, а тол’ько его номер (индекс) в некоей сп’равочной таблице, называемой палитрой. Разумеется, эта палитра должна п’рикладыват’ься к графическим данным — без нее нел’ьзя воспол’ьзоват’ься методами восп’роизведен’ия информации на экране или бумаге (то ест’ь, воспол’ьзоват’ься, конечно, можно, но из-за неполноты данных полученная информация может быт’ь неп’равил’ьной: листва на дерев’ьях может оказат’ься красной, а небо — зеленым).

2.6 Кодирование звуковой информации

П’риемы и методы работы со звуковой информацией п’ришли в вычислител’ьную техн’ику позднее. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было стол’ь же длител’ьной и п’роверенной истории кодирован’ия. В итоге методы кодирован’ия звуковой информации двоичным кодом далеки от стандартизации. Множество отдел’ьных компан’ий разработали свои корпоративные стандарты, но если говорит’ь обобщенно, то можно выделит’ь два основных нап’равлен’ия.

  1. Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложит’ь на последовател’ьност’ь п’ростейших гармон’ических сигналов разных частот, каждый из которых п’редставляет собой п’равил’ьную синусоиду, а следовател’ьно, может быт’ь описан числовыми параметрами, то ест’ь кодом. В п’рироде звуковые сигналы имеют неп’рерывный спектр, то ест’ь являются аналоговыми. Их разложен’ие в гармон’ические ряды и п’редставлен’ие в виде дискретных цифровых сигналов выполняют специал’ьные устройства — аналогово-цифровые п’реобразователи (АЦП). Обратное п’реобразован’ие для восп’роизведен’ия звука, закодированного числовым кодом, выполняют цифро-аналоговые п’реобразователи (ЦАП). П’ри таких п’реобразован’иях неизбежны потери информации, связанные с методом кодирован’ия, поэтому качество звукозаписи обычно получается не вполне удовлетворител’ьным и соответствует качеству звучан’ия п’ростейших электромузыкал’ьных инструментов с окрасом, характерным для электронной музыки. В то же время данный метод кодирован’ия обеспечивает вес’ьма компактный код, и потому он нашел п’рименен’ие еще в те годы, когда ресурсы средств вычислител’ьной техн’ики были явно недостаточны.
  2. Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техн’ики. Если говорит’ь уп’рощенно, то можно сказат’ь, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкал’ьных инструментов (хотя не тол’ько для н’их). В техн’ике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, п’родолжител’ьност’ь и интенсивност’ь звука, динамику его изменен’ия, некоторые параметры среды, в которой п’роисходит звучан’ие, а также п’рочие параметры, характеризующие особенности звука. Поскол’ьку в качестве образцов испол’ьзуются «реал’ьные» звуки, то качество звука, полученного в резул’ьтате синтеза, получается очен’ь высоким и п’риближается к качеству звучан’ия реал’ьных музыкал’ьных инструментов.

Заключение

В информатике различают два понятия "данные" и "информация". Данные представляют собой информацию, находящуюся в формализованном виде и предназначенную для обработки техническими системами. Под информацией понимается совокупность представляющих интерес фактов, событий, явлений, которые необходимо зарегистрировать и обработать. Информация в отличие от данных - это то, что нам интересно, что можно хранить, накапливать, применять и передавать. Данные только хранятся, а не используются. Но как только данные начинают использоваться, то они преобразуются в информацию. В процессе обработки информация изменяется по структуре и форме. Признаками структуры является взаимосвязь элементов информации. Структура информации классифицируется на формальную и содержательную. Формальная структура информации ориентирована на форму представления информации, а содержательная - на содержание.

К электронным носителям относят носители для однократной или многократной записи (обычно цифровой) электрическим способом:

  • оптические диски (CD-ROM, DVD-ROM, Blu-ray Disc);
  • полупроводниковые (флеш-память, дискеты и т. п.); 
  • CD-диски (CD – Compact Disk, компакт диск), на который может быть записано до 700 Мбайт информации;
  • DVD-диски (DVD – Digital Versatile Disk, цифровой универсальный диск), которые имеют значительно большую информационную емкость (4,7 Гбайт), так как оптические дорожки на них имеют меньшую толщину и размещены более плотно;
  • диски HR DVD и Blu-ray, информационная емкость которых в 3–5 раз превосходит информационную емкость DVD-дисков за счет использования синего лазера с длиной волны 405 нанометров.

Список использованной литературы

1. Непейвода Н.Н., Скопин И.Н. Основания программирования-Институт компьютерных исследований, 2015.

2. Гордеев А.В., Молчанов А.Ю. Системное программное обеспечение - Питер, 2018.

3. Окулов С. Основы программирования - Бином. Лаборатория знаний, 2012.

4. Гофман В.Э., ХомоненкоА.Д. Delphi. Быстрый старт. - СПб.: БХВ-Петербург, 2017.

5. Митчелл К. Керман Программирование и отладка в Delphi: Учебный курс: М.; СПб.; Киев, 2013.

6. Бондаренко М.Ф., Качко Е.Г. Операционные системы - Компания СМИТ, 2016.

7. Леонтьев В.П. Windows XP - ОЛМА Медиа Групп, 2017.

8. Степаненко О.С. Установка и настройка Windows XP - Вильямс, 2015.

9. Карп Дэвид Хитрости Windows 7. Для профессионалов - Питер, 2014.

10. Чекмарев А. Н. Microsoft Windows 7. Руководство администратора - MicrosoftWinБХВ-Петербург, 2016.

11. Аванесов В.С. Композиция тестовых заданий. - М., Центр тестирования, 2017.

12. Кабанова Т.А., Новиков В.А. Тестирование в современном образовании. Уч. Пособие. - М.: Высшая школа, 2016.

13. Челышкова М.Б. Теория и практика конструирования педагогических тестов. Уч. Пособие. - М.: Логос, 2013.

14. Журавлева Т.Ю. Системное и прикладное программное обеспечение: Учебное пособие - Издательство Московского государственного открытого университета, 2010.

15. Зинкевич В.П. Вычислительная техника и программирование: учебное пособие - Издательство Московского государственного открытого университета, 2011.

16. Карл И. Вигерс Разработка требований к программному обеспечению - Русская Редакция, 2004.