Что понимается под кодированием данных

Кодирование информации

Вы будете перенаправлены на Автор24

Общие понятия

Кодирование — это преобразование информации из одной ее формы представления в другую, наиболее удобную для её хранения, передачи или обработки.

Кодом называют правило отображения одного набора знаков в другом.

Длина кода – это количество знаков, используемых для представления кодируемой информации.

Виды кодирования информации

Различают кодирование информации следующих видов:

Кодирование текстовой информации

Любой текст (к примеру, студенческий реферат) состоит из последовательности символов. Символами могут быть буквы, цифры, знаки препинания, знаки математических действий, круглые и квадратные скобки и т.д.

Текстовая информация, как и любая другая, хранится в памяти компьютера в двоичном виде. Для этого каждому ставится в соответствии некоторое неотрицательное число, называемое кодом символа, и это число записывается в память ЭВМ в двоичном виде. Конкретное соотношение между символами и их кодами называется системой кодировки. В персональных компьютерах обычно используется система кодировки ASCII (American Standard Code for Informational Interchange – Американский стандартный код для информационного обмена).

Готовые работы на аналогичную тему

Восьмибитными кодировками, распространенными в нашей стране, являются KOI8, UTF8, Windows-1251 и некоторые другие.

Кодирование цвета

Чтобы сохранить в двоичном коде фотографию, ее сначала виртуально разделяют на множество мелких цветных точек, называемых пикселями (что-то на подобии мозаики). После разбивки на точки цвет каждого пикселя кодируется в бинарный код и записывается на запоминающем устройстве.

Если говорят, что размер изображения составляет, например, х 512х512 точек, это значит, что оно представляет собой матрицу, сформированную из 262144 пикселей (количество пикселей по вертикали, умноженное на количество пикселей по горизонтали).

Однако качество кодирования фотографий в бинарный код зависит не только от количества пикселей, но также и от их цветового разнообразия. Алгоритмов записи цвета в двоичном коде существует несколько. Самым распространенным из них является RGB. Эта аббревиатура – первые буквы названий трех основных цветов: красного – англ.Red, зеленого – англ. Green, синего – англ. Blue. Смешивая эти три цвета в разных пропорциях, можно получить любой другой цвет или оттенок.

На этом и построен алгоритм RGB. Каждый пиксель записывается в двоичном коде путем указания количества красного, зеленого и синего цвета, участвующего в его формировании.

Чем больше битов выделяется для кодирования пикселя, тем больше вариантов смешивания этих трех каналов можно использовать и тем значительнее будет цветовая насыщенность изображения.

Цветовое разнообразие пикселей, из которых состоит изображение, называется глубиной цвета.

Кодирование графической информации

Описанная выше техника формирования изображений из мелких точек является наиболее распространенной и называется растровой. Но кроме растровой графики, в компьютерах используется еще и так называемая векторная графика.

Векторные изображения создаются только при помощи компьютера и формируются не из пикселей, а из графических примитивов (линий, многоугольников, окружностей и др.).

Чтобы записать на запоминающем устройстве векторное изображение круга, компьютеру достаточно в двоичный код закодировать тип объекта (окружность), координаты его центра на холсте, длину радиуса, толщину и цвет линии, цвет заливки. В растровой системе пришлось бы кодировать цвет каждого пикселя. И если размер изображения большой, для его хранения понадобилось бы значительно больше места на запоминающем устройстве.

Тем не менее, векторный способ кодирования не позволяет записывать в двоичном коде реалистичные фото. Поэтому все фотокамеры работают только по принципу растровой графики. Рядовому пользователю иметь дело с векторной графикой в повседневной жизни приходится не часто.

Кодирование числовой информации

При кодировании чисел учитывается цель, с которой цифра была введена в систему: для арифметических вычислений или просто для вывода. Все данные, кодируемые в двоичной системе, шифруются с помощью единиц и нолей. Эти символы еще называют битами. Этот метод кодировки является наиболее популярным, ведь его легче всего организовать в технологическом плане: присутствие сигнала – 1, отсутствие – 0. У двоичного шифрования есть лишь один недостаток – это длина комбинаций из символов. Но с технической точки зрения легче орудовать кучей простых, однотипных компонентов, чем малым числом более сложных.

Целые числа кодируются просто переводом чисел из одной системы счисления в другую. Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число преобразуют в стандартный вид.

Кодирование звуковой информации

Принцип разделения звуковой волны на мелкие участки лежит в основе двоичного кодирования звука. Аудиокарта компьютера разделяет звук на очень мелкие временные участки и кодирует степень интенсивности каждого из них в двоичный код. Такое дробление звука на части называется дискретизацией. Чем выше частота дискретизации, тем точнее фиксируется геометрия звуковой волны и тем качественней получается запись.

Качество записи сильно зависит также от количества битов, используемых компьютером для кодирования каждого участка звука, полученного в результате дискретизации. Количество битов, используемых для кодирования каждого участка звука, полученного при дискретизации, называется глубиной звука.

Кодирование видеозаписи

Видеозапись состоит из двух компонентов: звукового и графического.

Учитывая эту особенность, алгоритмы кодирования видео, как правило, предусматривают запись лишь первого (базового) кадра. Каждый же последующий кадр формируются путем записи его отличий от предыдущего.

Источник

Кодирование информации

Определение:
Кодирование информации (англ. information coding) — отображение данных на кодовые слова.

Обычно в процессе кодирования информация преобразуется из формы, удобной для непосредственного использования, в форму, удобную для передачи, хранения или автоматической обработки. В более узком смысле кодированием информации называют представление информации в виде кода. Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.

Содержание

Код [ править ]

Виды кодов [ править ]

Все вышеперечисленные коды являются однозначно декодируемыми — для такого кода любое слово, составленное из кодовых слов, можно декодировать только единственным способом.

Примеры кодов [ править ]

Однозначно декодируемый код [ править ]

Определение:
Однозначно декодируемый код (англ. uniquely decodable code) — код, в котором любое слово составленное из кодовых слов можно декодировать только единственным способом.

Пусть есть код заданный следующей кодовой таблицей:

[math]a_1 \rightarrow b_1[/math]

[math]a_2 \rightarrow b_2[/math]

[math]a_k \rightarrow b_k[/math]

Код является однозначно декодируемым, только тогда, когда для любых строк, составленных из кодовых слов, вида:

Всегда выполняются равенства:

Заметим, что если среди кодовых слов будут одинаковые, то однозначно декодировать этот код мы уже не сможем.

Префиксный код [ править ]

Определение:
Префиксный код (англ. prefix code) — код, в котором никакое кодовое слово не является префиксом какого-то другого кодового слова.

Предпочтение префиксным кодам отдается из-за того, что они упрощают декодирование. Поскольку никакое кодовое слово не выступает в роли префикса другого, кодовое слово, с которого начинается файл, определяется однозначно, как и все последующие кодовые слова.

Пример кодирования [ править ]

Закодируем строку [math]abacaba[/math] :

Такой код можно однозначно разбить на слова:

[math]00\ 01\ 00\ 1\ 00\ 01\ 00[/math]

Преимущества префиксных кодов [ править ]

Недостатки префиксных кодов [ править ]

Пример неудачного декодирования [ править ]

Предположим, что последовательность [math]abacaba[/math] из примера передалась неверно и стала:

[math]c^<**>(abacaba) = 0001001\ 1\ 00100[/math]

Разобьем ее согласно словарю:

[math] 00\ 01\ 00\ 1\ 1\ 00\ 1\ 00[/math]

[math]a\quad b\quad a\ c\ c\quad a\ c\ a[/math]

Полученная строка совпадает только в битах, которые находились до ошибочного, поэтому декодирование неравномерного кода, содержащего ошибки, может дать абсолютно неверные результаты.

Не префиксный однозначно декодируемый код [ править ]

Как уже было сказано, префиксный код всегда однозначно декодируем. Обратное в общем случае неверно:

Мы можем ее однозначно декодировать, так как знаем, что слева от двойки и справа от тройки всегда стоит единица.

После декодирования получаем: [math]abbca[/math]

Источник

Кодирование для чайников, ч.1

Не являясь специалистом в обозначенной области я, тем не менее, прочитал много специализированной литературы для знакомства с предметом и прорываясь через тернии к звёздам набил, на начальных этапах, немало шишек. При всём изобилии информации мне не удалось найти простые статьи о кодировании как таковом, вне рамок специальной литературы (так сказать без формул и с картинками).

Статья, в первой части, является ликбезом по кодированию как таковому с примерами манипуляций с битовыми кодами, а во второй я бы хотел затронуть простейшие способы кодирования изображений.

0. Начало

Давайте рассмотрим некоторые более подробно.

1.1 Речь, мимика, жесты

1.2 Чередующиеся сигналы

В примитивном виде кодирование чередующимися сигналами используется человечеством очень давно. В предыдущем разделе мы сказали про дым и огонь. Если между наблюдателем и источником огня ставить и убирать препятствие, то наблюдателю будет казаться, что он видит чередующиеся сигналы «включено/выключено». Меняя частоту таких включений мы можем выработать последовательность кодов, которая будет однозначно трактоваться принимающей стороной.

Что понимается под кодированием данных

1.3 Контекст

2. Кодирование текста

Текст в компьютере является частью 256 символов, для каждого отводится один байт и в качестве кода могут быть использованы значения от 0 до 255. Так как данные в ПК представлены в двоичной системе счисления, то один байт (в значении ноль) равен записи 00000000, а 255 как 11111111. Чтение такого представления числа происходит справа налево, то есть один будет записано как 00000001.

Итак, символов английского алфавита 26 для верхнего и 26 для нижнего регистра, 10 цифр. Так же есть знаки препинания и другие символы, но для экспериментов мы будем использовать только прописные буквы (верхний регистр) и пробел.

Тестовая фраза «ЕХАЛ ГРЕКА ЧЕРЕЗ РЕКУ ВИДИТ ГРЕКА В РЕЧКЕ РАК СУНУЛ ГРЕКА РУКУ В РЕКУ РАК ЗА РУКУ ГРЕКУ ЦАП».

Что понимается под кодированием данных

2.1 Блочное кодирование

Информация в ПК уже представлена в виде блоков по 8 бит, но мы, зная контекст, попробуем представить её в виде блоков меньшего размера. Для этого нам нужно собрать информацию о представленных символах и, на будущее, сразу подсчитаем частоту использования каждого символа:

Источник

Кодирование информации

1.3.1 Системы кодирования

Под кодированием понимается процесс присвоения условных обозначений (кодов) признакам объектов. Кодирование используется для представления информации в ЭВМ при хранении, передаче и обработке. Вопросам кодирования, связанным с хранением и передачей информации (представление в ЭВМ, шифрование, сжатие, помехозащищённость), посвящены соответствующие разделы теории информации.

Здесь же рассматриваются основы кодирования, связанного с обработкой информации. Цель такого кодирования – обеспечение более удобной и эффективной обработки информации (путём представления информации в соответствующей форме). Система кодирования – совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, который может состоять из букв, цифр и других символов. Наибольшее распространение при обработке информации с помощью ЭВМ получили цифровые коды. Код характеризуется длиной, структурой и степенью информативности. Длина – количество позиций (знаков, разрядов) в коде. Структура – порядок расположения в коде символов, используемых для обозначения классификационного признака. Степень информативности – отношение числа закодированных признаков к длине кода.

К системам кодирования предъявляются следующие требования:

— идентификация каждого объекта кодируемого множества;

— отображение необходимой информации об объектах;

— достаточная гибкость и резерв кодовых обозначений при минимальной длине кода;

— ориентация на автоматическую обработку информации, возможность обнаружения ошибок.

Существующие системы кодирования информации можно разбить на два основных вида (рис. 3.3):

регистрационные системы кодирования, не требующие предварительной классификации объектов;

классификационные системы кодирования, ориентированные на проведение предварительной классификации объектов.

Регистрационное кодирование, в свою очередь, может быть представлено порядковой и серийно-порядковой системами, а классификационное – последовательной и параллельной системами. Каждая из них имеет преимущества и недостатки, поэтому в зависимости от конкретных обстоятельств и целей необходимо выбирать наиболее рациональную систему.

Что понимается под кодированием данныхЧто понимается под кодированием данных

Рис. 3.3. Классификация основных систем кодирования

Особо следует выделить комбинированные системы кодирования, представляющие собой сочетание нескольких различных систем кодирования. Они используются для кодирования больших номенклатур объектов, которые можно группировать по нескольким соподчинённым или независимым признакам. Комбинированные системы кодирования дают возможность получить более информативный код.

1.3.2 Порядковое кодирование

Порядковая система кодирования не требует предварительной классификации объектов и основана на наиболее простом методе. Его суть заключается в последовательной нумерации объектов натуральными числами. Таким образом, каждый объект идентифицируется регистрационным номером. Объекты при регистрации могут располагаться как случайно, так и в определённом порядке, например алфавитном (список студентов группы) или хронологическом (журнал регистрации событий).

Достоинствами порядковой системы являются простота кодирования и минимальная длина кода. Долговечность порядкового кода практически всегда достигается за счёт незначительной избыточности, так как добавление только одного разряда увеличивает ёмкость кода вА раз.

Недостатком порядковой системы кодирования является отсутствие в коде информации о свойствах объектов (даже зная, что список группы составляется в лексикографическом порядке, мы не можем по номеру с полной уверенностью назвать начальную букву фамилии, так как все студенты могут оказаться Ивановыми).

1.3.3 Серийно-порядковое кодирование

Используемый в серийно-порядковой системе метод отличается от порядкового кодирования тем, что объекты предварительно разбиваются на подмножества, а порядковые номера – на серии. Элементы каждого подмножества регистрируются в пределах отведённой для него серии номеров. В каждой серии обычно предусматриваются резервные номера (на случай появления новых позиций).

По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Обычно применяется в тех случаях, когда деление на подмножества осуществляется только по одному классификационному признаку, а их количество невелико.

Пример.Для нумерации аудиторий некоего вуза, размещённого в четырёх небольших близкорасположенных зданиях, имеющих по 20 используемых для занятий помещений, можно использовать четыре серии по 25 номеров (00–24; 25–49; 50–74; 75–99). При этом в каждой серии остаётся резерв из пяти номеров (на случай перепланировки), а длина кода аудитории остаётся прежней – двузначной. Другой пример: использование «нечётной» серии для нумерации почтовых адресов домов, расположенных на левой, а «чётной» – на правой стороне улицы.

Серийно-порядковой системе присущи в основном те же достоинства и недостатки, что и порядковому кодированию. Но здесь коды, помимо идентификации объекта, несут некоторую дополнительную информацию, хотя её восприятие человеком может быть затруднено. Резервирование, с одной стороны, является достоинством, обеспечивающим некоторую долговечность кода, а с другой – серийно-порядковая система может стать непригодной из-за переполнения только одной серии, при этом резервы других серий ещё не будут исчерпаны. Поэтому серийно-порядковый код в сравнении с порядковым оказывается менее долговечным и более избыточным.

1.3.4 Последовательное кодирование

Последовательное кодирование, как и параллельное (рис. 3.3), требует проведения предварительной классификации кодируемых объектов. Классификационные системы кодирования называются также позиционными, так как для выражения каждого классификационного признака в структуре кода выделяется позиция (группа символов) из одного или нескольких разрядов.

Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, а после код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. При этом значение характеристики объекта, выраженного каким-либо числом на определённой позиции, зависит от конкретного значения предыдущих разрядов кодовой комбинации (за исключением разрядов старшей группировки).

Пример. Проведём кодирование информации, классифицированной с помощью двухуровневой иерархической схемы (рис. 3.3). Количество позиций определяется глубиной классификации и равно двум. Присвоим на каждом уровне код «Л» для левых группировок (Регистрационные, Порядковая, Последовательная), «П» – для правых (Классификационные, Серийно-порядковая, Параллельная). Структура кода задаётся последовательностью «ХY», где «Х» – код группировки первого уровня, «Y» – второго. Теперь легко получить коды всех группировок второго уровня:

— ЛЛ – (Система кодирования) Регистрационная, Порядковая;

— ЛП – Регистрационная, Серийно-порядковая;

— ПЛ – Классификационная, Последовательная;

— ПП – Классификационная, Параллельная.

Следует обратить внимание на то, что символ «Л» в позиции «Х» имеет значение – «Регистрационные», а значение этого же символа, но расположенного в позиции «Y», уже зависит от предыдущего знака (ЛЛ – Порядковая, а ПЛ – Последовательная). То есть извлечение информации из кода (как и кодирование) осуществляется последовательно: сначала определяется значение признака, соответствующего первому уровню, а только потом – второму.

Последовательная система кодирования обладает теми же основными достоинствами и недостатками, что и иерархическая система классификации. Если же сравнивать с порядковой системой, то представление дополнительной информации достигается за счёт увеличения длины и избыточности кода.

1.3.5 Параллельное кодирование

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга (параллельно, одновременно); для каждого фасета в структуре кода определяется позиция из одного или нескольких разрядов.

Параллельная система кодирования обладает основными достоинствами и недостатками, присущими фасетной системе классификации. Однако параллельный код оказывается ещё более избыточным, чем последовательный, так как на практике многие сочетания признаков могут вообще не существовать и, следовательно, ёмкость кода будет использоваться не полностью.

Пример. Проведём кодирование сведений, представленных на рисунке 3.2. фасетами «Направление», «Форма обучения», «Курс». Количество кодовых группировок определяется количеством фасетов и равно трём. Для кодирования фасетов следует проанализировать их номенклатуру и выбрать наиболее рациональный метод, учитывая предъявляемые к системам кодирования требования.

Для использования в процессе автоматизированной обработки и обмена информацией на всех установленных государством образовательных уровнях в Российской Федерации с охватом как государственных, так и негосударственных образовательных учреждений предназначен Общероссийский классификатор специальностей по образованию (ОКСО). Но в учебных целях рассматриваемого примера (удобство восприятия, понимание) можно закодировать каждое направление первыми тремя буквами его наименования. Для кодирования фасета «Форма обучения» будем использовать первую букву значения, а для номера курса – соответствующую десятичную цифру.

Структуру полученного кода можно выразить записью «ННН Ф К», где ННН – присвоенный нами код направления; Ф – код формы обучения, К – курс. В отличие от последовательного кодирования, порядок (очерёдность) кодирования фасетов значения не имеет. Поэтому по обозначению «Сер О 2» мы независимо от других позиций можем определить и направление – Сервис; и форму обучения – очная; и курс – второй.

1.3.6 Штриховое кодирование

В настоящее время для автоматической идентификации признаков объектов широко используется штриховое кодирование, основанное на оптическом считывании информации различными техническими устройствами – сканерами штрих-кода. В качестве примера можно привести такие широко известные штриховые коды, как:

— UРC (Universal Product Code) – универсальный товарный код, разработанный в США;

— EAN (European Article Number) – европейский товарный код, созданный на базе UРC;

Опуская особенности преобразования штрихового года в цифровой, рассмотрим подробнее структуру широко распространённого в России товарного кода EAN-13. Он состоит из тринадцати цифр, которые можно разделить на четыре части:

— первые три цифры обозначают код страны-производителя (точнее – код регионального представителя глобальной организации по стандартизации). Но некоторые коды имеют специальное значение. Так, использование кодов, начинающихся с цифры 2, разрешено для внутренних целей любого предприятия, но запрещено за его пределами (применяется, например, для весового товара при розничной торговле);

— следующие четыре цифры (в России начиная с 2000 г. – шесть) – код предприятия-производителя для данной страны;

— следующие пять цифр (в России – три) – код продукта, устанавливаемый предприятием-производителем;

— последняя цифра является контрольной.

Таким образом, в основе кода EAN-13 лежит последовательная система кодирования, так как определение значения второй части кода возможно только после определения первой, а третьей – после второй. При этом в первой части кода используется серийно-порядковое кодирование, так как, например, России соответствует серия 460–469.

Классификаторы

Для обеспечения взаимодействия различных ИС и сопоставимости получаемой из них информации осуществляется разработка и внедрение классификаторов, представляющих собой систематизированную совокупность наименований и кодов классификационных группировок. В зависимости от применения классификаторы можно разделить на следующие группы:

— общероссийские, используемые во всех секторах экономики;

— классификаторы, используемые в пределах определённого сектора экономики;

— локальные, используемые в пределах отдельных предприятий и организаций.

В любой стране разработаны и применяются государственные и отраслевые классификаторы. Например, классифицированы отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д. С целью обеспечения совместимости государственных информационных систем и ресурсов, создаваемых на федеральном и региональном уровнях управления в Российской Федерации разработан Общероссийский классификатор информации об общероссийских классификаторах (ОКОК).

Все общероссийские классификаторы являются составной частью Единой системы классификации и кодирования технико-экономической и социальной информации (ЕСКК ТЭИ), используемой в различных ИС, и их применение в формах первичных документов, а также при обработке информации средствами вычислительной техники, является обязательным условием для предприятий, организаций и фирм всех секторов экономики.

Практически любое юридическое лицо так или иначе использует общероссийские классификаторы органов власти и управления (ОКОГУ), территорий (ОКАТО), видов экономической деятельности (ОКВЭД), форм собственности (ОКФС), организационно-правовых форм (ОКОПФ).

Рассмотрим в качестве примера общероссийский классификатор услуг населению (ОКУН), утверждённый Постановлением Госстандарта РФ от 28 июня 1993 г. № 163 (в редакции изменений 12/2010, утверждённых Приказом Росстандарта от 23.12.2010 № 1072-ст).

Этот классификатор разработан для решения задач развития и совершенствования стандартизации в сфере услуг населению; осуществления сертификации услуг с целью обеспечения безопасности жизни, здоровья потребителей и охраны окружающей среды, предотвращения причинения вреда имуществу потребителей; повышения эффективности применения средств вычислительной техники; учёта и прогнозирования объёмов реализации услуг населению; изучения спроса населения на услуги; предоставления услуг населению предприятиями и организациями различных организационно-правовых форм собственности и гражданами-индивидуа-лами; гармонизации классификации услуг населению с международными классификациями; актуализации видов услуг с учётом новых социально-экономических условий в Российской Федерации.

Объектами классификации являются услуги населению, оказываемые предприятиями и организациями различных организационно-пра-вовых форм собственности и гражданами-индивидуалами, использующими различные формы и методы обслуживания.

Для классификатора услуг населению принята иерархическая классификация с делением всего классификационного множества объектов на группы. Затем каждую группу делят на подгруппы, которые в свою очередь делят на виды деятельности по целевому функциональному назначению. В ОКУН используют последовательную систему кодирования.

Кодовое обозначение объекта классификации включает шесть цифровых десятичных знаков (ГГПВУУ) и контрольное число (К). Общая структура кодового обозначения классификатора услуг населению представлена следующей схемой:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *