Информационно-образовательный портал СОДРУЖЕСТВА НЕЗАВИСИМЫХ ГОСУДАРСТВ
ИНФОРМАТИЗАЦИЯ ОБРАЗОВАНИЯ
И ДИСТАНЦИОННОЕ ОБУЧЕНИЕ В СНГ
Информационно-образовательный портал СОДРУЖЕСТВА НЕЗАВИСИМЫХ ГОСУДАРСТВ  

Страны
Азербайджанская Республика
Республика Армения
Республика Беларусь
Республика Казахстан
Кыргызская Республика
Республика Молдова
Российская Федерация
Республика Таджикистан
Туркменистан
Республика Узбекистан
Украина

Типы материала
Информационно-коммуникационные технологии
Дополнительные информационные материалы
Нормативно-правовое обеспечение
Организация и методики обучения
Экономика образования
Межгосударственное сотрудничество
Образовательные центры
Методики обучения
Межвузовское сотрудничество
Повышение квалификации
Международные проекты и гранты, конкурсы
Конференции, симпозиумы, семинары и др.
Библиотека
 
Журнал «Вестник РУДН» серия «Информатизация образования»
 
2014, №4
2014, №3
2014, №2
2014, №1
2013, №4
2013, №3
2013, №2
2013, №1
2012, №4
2012, №3
2012, №2
2012, №1
2011, №4
2011, №3
2011, №2
2011, №1
2010, №4
2010, №3
2010, №2
2010, №1
2009, №4
2009, №3
2009, №2
2009, №1
2008, №4
2008, №3
2008, №2
2008, №1
2007, №4
2007, №3
2007, №2-3
2007, №1
2006, №1(3)
2005, №1(2)
2004, №1
Научные и специальные электронные ресурсы
Учебная, научная и специальная литература
Комиссия по дистанционному обучению совета по сотрудничеству в области образования государств-участников СНГ
Новости

Символьное представление информации и её измерение


Аннотация
В статье анализируется количественная мера информации. Приведены расчеты измерения информации на примере текстов классиков русской поэзии. Ключевые слова: Информация, представление информации, измерение информации, информатика, компьютер.

Текст документа

В.А. Бубнов

Общеинститутская кафедра естественнонаучных дисциплин

Московский городской педагогический университет

  

Слово «информация» вошло в  международный обиход от латинского слова «information», что в переводе означает – осведомление, просвещение. Такой перевод указанного слова дает право понятие «информация» трактовать как «сообщение, осведомляющее о положении дел, о состоянии чего-либо». Процесс уточнения понятия «информация» привел к различным его толкованиям, среди которых встречаются и такие, в которых данное понятие объясняется с помощью других, имеющих столь же неопределенное значение, например, таких как «сведения», «содержание», «данные» и т.д.

Среди различных толкований понятия «информация» встречается такое:

Если наименование некоторого понятия х обозначить Тх, а определяющее его выражение (содержание) через Dx, то информация – это предложение типа Тх есть Dx [5].

Другими словами – информация это содержание, заключенное в символе, которым обозначается то или иное понятие как название определенного объекта. Наиболее легко такое толкование рассматриваемого понятия иллюстрируется анализом содержания математических символов. Общеизвестно, что математические знаки (символы) служат для записи математических понятий, предложений и выкладок. Первыми математическими знаками были символы для изображения чисел – цифры, возникновение которых предшествовало введению письменности. Например, число π – отношение длины окружности к диаметру. В первой строке таблицы 1 последнее предложение переписано в форме  «Тх есть Dx».

Таблица 1

Примеры раскрытия информации

х

(понятие)

Тх

(наименование понятия)

Dx

(выражение понятия)

Число π

π

Отношение длины окружности к диаметру

Функция

Закон по которому произвольному числу х ставится в соответствие строго определенное число у

Производная функции

Предел отношения приращения функции к приращению аргумента, если последний стремится к нулю

 

Здесь же приведены предложения «Тх есть Dx» для раскрытия информации, которая содержится в математических символах  и .

О роли математических знаков и важности точного определения их смысла русский математический гений Н.И. Лобачевский писал, что подобно тому как дар слова обогащает нас мнениями других, так язык математических знаков служит средством еще более совершенным, более точным и ясным, чтобы один передавал другому понятия, которые он приобрел, истину, которую он постигнул, и зависимость между частями, которую он открыл. Но так как мнения могут казаться ложными от того, что разумеют иначе слова, то всякое суждение в математике останавливается, как скоро перестаем понимать под знаком то, что оно собой представляет [1].

Более того использование математической символики способствовало созданию математического языка, который преобладает над естественным языком при описании математических знаний.

Выдающийся русский физиолог и психолог Иван Михайлович Сеченов (1829-1905) при изучении различных форм человеческого мышления определил форму, которую назвал мышление символами [6].

Действительно, окружающий мир наполнен различными предметами, которые человек может запоминать c их индивидуальными различиями. Но в силу подмеченного опытным путем закона регистрации впечатлений по сходству в человеческой памяти все сходные предметы, по мнению Сеченова И.М., смешиваются в средние итоги.

Эти средние продукты мышления не есть точное воспроизведение действительности, но по смыслу они представляют знаки, заменяющие собой множество однородных предметов.

Такие знаки Сеченов И.М. называл символами первой инстанции.

Далее в так называемых средних итогах того или иного предмета человек ??аучился различать отдельные части данного предмета. Расчленение ??елого предмета на части и оценка математических соотношений между частями И.М. Сеченов назвал символами второй ступени.

Очевидно, что знаковое письмо древнего человека служит доказательством того, что на данном этапе своего умственного развития человечество мыслило символами второй ступени.

При передаче информации в форме сообщения, следует отметить, что сообщение – это последовательность символов набранных из букв некоторого алфавита. Слово – это последовательность букв определенной длины. Слово характеризуется длиной и длина слов зависит от количества букв алфавита.

В информатике все слова набираются из букв двоичного алфавита z=(0;1). Для этого  существует международный код, с помощью которого буквы русского алфавита кодируются словами из z алфавита.

Пусть m – длина слова (число букв, число двоичных разрядов) тогда число слов N, как число возможных наборов из 0 и 1 длиной m равно

                                                                    (1)

Например, если m=1, то число слов N=2. Это слова 0 и 1. Если же слово m=2, то по (1) будем иметь число N=4. В этом случае это будут слова: 00, 01, 10, 11.

Число слов N – это число сообщений длиной m или информаций, которые можно воспроизвести по каналу связи или в информационном канале.

Для получения количественной меры информации формулу (1)  подвергают операции логарифмирования по основанию два.

После чего вместо (1), получаем

                                                             (2)

Формула (2)трактуется следующим образом. Если по каналу связи передается слово  длиной m, то оно идентифицируется N описательными информациями как максимально возможными. Поэтому считают

                                                             (3)

то есть Н – это количество возможных информаций идентифицирующих любое двоичное слово длины m. Другими словами числом всевозможных двоичных слов диной m можно передать N описательных информаций.

Величина Н принимается за количественную меру информации в информатике, а формула (3), была введена Л. Хартли в 1928г. Таким образом, согласно формуле (3) величина Н представляет длину двоичного слова, которая равна количеству двоичных разрядов. Следовательно, единица информации равна одному двоичному разряду, в котором может быть либо 0, либо 1. По этому поводу говорят так: количество информации, заключающееся в одном двоичном разряде, равно одному биту (от английского binary digit).

            Обобщение формулы (3) на случай, когда рассматриваются слова различной длины выполнимо в [1].

Пусть имеет место N слов как объем некоторой статистической выборки, состоящей из нескольких групп слов. Далее предположим, что в пределах каждой группы слова имеют одинаковую длину. Обозначим через ni объем каждой группы слов, тогда очевидно, что

По формуле (2) вычислим длину слова из группы n1, после будем иметь

                                                             (4)

Теперь вычислим разность левых и правых частей в формулах (2) и (4):

                                                   (5)

из (5) известно, что Н1 суть длина не идентифицированных слов.

Аналогично можно составить следующие соотношения

                                                                        (6)

        Затем составим среднюю статистическую сумму

,

которую с учетом (5) – (6) перепишем так:

                                        (7)

        Если в каждой группе число слов равно единице (ni=1) и число групп k равно N, то формула (7) переходит в формулу Хартли (3). В противном случае обозначим через pi частоту появления i-ой группы, которую  определим общеизвестным способом

                                               (8)

        Теперь после подстановки (8) в (7), получим формулу Шеннона.

                                         (9)

        Очевидно, что формула (9) применима к количественным измерениям информации, содержащейся в текстах естественного языка.

Величину H, определяющую по формуле (9), называют энтропией информации.

Группы слов, ??стречающихся в текстах, можно классифицировать по начальной бу??ве. Тогда величины pi в (8) будет означать частоты появления слов имеющихся в тексте, на конкретную начальную букву, а энтропию вычисленную согласно (9) по указанным частотам будем называть энтропией по начальным буквам и обозначать H1. Величина H1 для поэтических текстов Николая Рубцова вычислялась в [2] с помощью программы Microsoft Excel.

Можно также под pi подрегулировать частоты появления в тексте той или иной буквы русского алфавита. Энтропию вычисленную по таким частотам обозначать H2 и называть энтропией текста по всем буквам [3].

В таблице 2 приведены значения энтропий H1  и H2 , заимствованные из [2]-[3], для сорокачетырех поэтических текстов Н.Рубцова.

Анализ данных таблицы 2 показывает, что диапазон изменения величин H1 больше диапазона H2 и есть тексты, для которых числовые значения H1  и H2 близки (см. таблицу 3).

Таблица 2      

Значения энтропий H1  и H2

Названия стихотворения

H1 бит

H2

бит

 

1

Элегия

3,6294

4,3116

2

Ось

4,0043

4,4513

3

На вокзале

3,9064

4,4802

4

Весна на берегу Бии

4,0055

4,5382

5

Прощальная песня

4,0215

4,5462

6

В лесу

3,1878

4,3346

7

Ветер всхлипывал словно дитя

3,895

4,3763

8

У церковных берез

3,9637

4,4996

9

В московском кремле

7,1349

4,4231

10

Поэзия

3,4573

4,5084

11

С??нтябрь

3,7171

4,4649

12

По дороге к морю

8,2939

4,6126

13

Стоит жара

4,0368

4,4342

14

Плыть, плыть

6,4871

4,4778

15

Волнуется море

4,1101

4,5217

16

Гость молчит и я ни слова

3,7901

4,4911

17

В пустыне

3,7915

4,4016

18

Увлекаюсь нечаянно

3,4473

4,2204

19

В горной деревне

4,0075

4,5289

20

Мечты

3,7149

4,4679

21

Видения на холме

4,2156

4,4618

22

Грани

4,0147

4,1788

23

По мокрым скверам проходит осень

3,8397

4,2117

24

В полях смеркалось. Близилась гроза

3,6658

4,1651

25

Привет Россия

3,9456

3,8839

26

В горнице

3,8638

4,3709

27

Родная деревня

4,1048

4,4437

28

Вологодский пейзаж

4,1059

4,4986

29

Далекое

7,1822

4,5458

30

Старик

3,7852

4,4542

31

Сапоги мои - скрип да скрип

3,8066

4,4202

32

Памяти матери

3,87

4,3806

33

В сибирской деревне

4,0113

4,4737

34

Зимним вечерком

3,9955

4,4054

35

Меж болотных стволов красовался восток огнеликий

3,9847

4,4701

36

Синенький платочек

 

4,1398

37

Острова свои оберегаем

3,9407

4,4129

38

А между прочим осень на дворе

4,0818

4,1676

39

Есть пора - души моей отрада

4,2165

4,4475

40

Старый конь

3,9524

4,2452

41

Прекрасное небо голубое

 

4,4840

42

На реке Сухоне

3,6389

4,3361

43

Добрый Филя

3,9008

4,5050

44

Оттепель

3,7292

4,4821

 

Таблица 3

Числовые значения H1  и H2

 

Название

Н1

H2

Ось

4,0043

4,4513

Весна на берегу Бии

4,0055

4,5382

Прощальная песня

4,0215

4,5462

Стоит жара

4,0368

4,4342

Волнуется море

4,1101

4,5217

Видения на холме

4,2156

4,4618

Грани

4,0147

4,1788

Родная деревня

4,1048

4,4437

Вологодский пейзаж

4,1059

4,4986

 В сибирской деревне

4,0113

4,4737

А между прочим осень на дворе

4,0818

4,1676

Слез не лей

4,2165

4,4475

Прекрасное небо голубое

4,0479

4,4840

 

Для более широкого изучения факта близости величин Н1 и Н2 обратимся к текстам классиков русской поэзии. Выдающийся русский поэт Юрий Кузнецов в размышлениях о русской поэзии [7] выделяет в ней две характерные темы. Одна из них – это любовная череда, начатая А. С. Пушкиным, а другая – дорожная череда, начатая М. Ю. Лермонтовым.

Таблица 4

 

Любовная череда в русской поэзии, начатая А.  С.  Пушкиным (тема 1)

 

№ стих

название

автор

Н1

Н2

1

Я помню чудное мгновенье

А. С. Пушкин

4,0163

4,4958

2

Средь шумного бала случайно

А. К. Толстой

3,9922

4,5610

3

К. Б.

Ф. И. Тютчев

3,2041

4,3764

4

Сияла ночь

А. А. Фет

4,0213

4,5122

5

Незнакомка

А. А. Блок

4,0503

4,5093

6

За дорожной случайной беседой

Ю. П. Кузнецов

4,0407

4,4605

Дорожная череда в русской поэзии, начатая М. Ю. Лермонтовым (тема 2)

7

Выхожу один я на дорогу

М. Ю. Лермонтов

4,0871

4,5144

8

Тройка

Н. А. Некрасов

3,9837

4,5852

9

Накануне годовщины

Ф. И. Тютчев

3,7152

4,3921

10

Осенняя воля

А. А. Блок

4,0756

4,5543

11

Распутье

Ю. П. Кузнецов

3,9345

4,3805

 

В таблице 4 приведены названия текстов, отобранные Ю. Кузнецовым и числовые значения Н1 и Н2 для них, заимствованные из [4]. Оказалось, что тексты Н.Рубцова из таблицы 3 по числовым значениям Н1 и Н2 близки к текстам таблицы 4. Подмеченная близость указанных текстов установлена формально и только мнения экспертов могут охарактеризовать эту близость с литературоведческих позиций.

ЛИТЕРАТУРА

[1] Бубнов В.А. О толковании понятия «информация» и о количественной мере информации // Вестник Московского городского педагогического университета. Серия «Естественные науки», 2009. – № 1(3). – С.69-75.

[2] Бубнов В.А., Ануфриев С.В., Казакова И.С.  Анализ поэтических текстов на уроках литературы с помощью информационных технологий // Информационные технологии в предметной области: Сб. науч. тр. / Под ред. проф. В.А. Бубнова. – М.: МГПУ, 2002. – Вып. 1.  – С.82–102.

[3] Бубнов В.А., Огородников А.Ю. Частотный анализ поэтических текстов Н. Рубцова // Информационные технологии в предметной области: Сб. науч. тр. / Под ред. проф. В.А. Бубнова. – М.: МГПУ, 2004. – Вып. 2. – С.86–111.

[4] Бубнов В.А., Огородников А.Ф. Формальный анализ поэтических текстов русской поэзии // Сб. науч. тр. кафедры естественнонаучных дисциплин / Под ред. проф. В.А. Бубнова. – М.: МГПУ, 2005. – Вып. 1. – С. 197–219.

[5] Мазур М. Количественная теория информации. –М.: Мир, 1971. – 289 с.

[6] Сеченов И.М. Элементы мысли. – СПб.: Питер, 2004. – 416 с.

[7] Кузнецов Ю.П. Воззрение // Наш современник.– 2000. – № 1. – С.101–115.


Автор оригинала: В.А. Бубнов
Источник оригинала: Журнал Вестник РУДН серия «Информатизация образования», №3, 2011

Новости
16.06.2017

Российский университет дружбы народов объявляет о проведение первой волны вступительных испытаний среди иностранных граждан для обучения на программах магистратуры на контрактной основе. Первая ...

13.10.2016

26 октября-27 октября 2016 года Российский университет дружбы народов проводит Международную конференцию «Сетевые университеты и международный рынок труда (пространства БРИКС, СНГ, ШОС)».

19.05.2016

The Peoples’ Friendship University of Russia (PFUR) announces the beginning of admission of foreign citizens who graduated from Bachelor and Specialist Degree programs of PFUR and other Russian and ...

19.05.2016

Российский университет дружбы народов (РУДН) объявляет о наборе иностранных граждан -выпускников бакалавриата и специалитета РУДН и других российских и зарубежных ВУЗов на программы магистратуры на ...

11.12.2015

Проект рекомендаций Семинара-совещания научной общественности по проблемам международного научно-технического и образовательного сотрудничества