Представление текстовой информации в памяти компьютера

Автор работы: Пользователь скрыл имя, 07 Января 2013 в 14:02, курсовая работа

Описание работы

Разработка цифрового образовательного ресурса на тему «Представление текстовой информации в памяти компьютера» в среде Adobe Flash.

Содержание работы

Введение…………………………………………………………………………3
1. ЦОР……………………………………………………………………………5
2. Структура ЦОРа………………………………………………………………8
3. Представление текстовой информации в памяти компьютера……………9
4. Кодировка ASCII……………………………………………………………11
5. Кодировка Unicode………………………………………………………….18
6. Контрольное тестирование …………………………………………………23
Заключение……………………………………………………………………..25
Литература ……………………………………………………………………...26

Файлы: 1 файл

Курсовая.doc

— 1.90 Мб (Скачать файл)

  • Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств. В этой области размещаются управляющие коды, которым не соответствуют ни какие символы языков.
  • Коды с 33 по 127 — интернациональные и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
  • Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду отвечают различные символы. К сожалению, в настоящее время существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, Мае, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
  • Таблица1.  Управляющие коды системы ASCII.
  • Управляющий символ
  • Восьмиричный код
  • Описание
  • NUL
  • 00000000
  • NULL, пусто. Используется во многих языках программирования как конец строки (строка понимается как последовательность символов). В некоторых операционных системах NUL - последний символ любого текстового файла.
  • SOH
  • 00000001
  • Start Of Heading, начало заголовка.
  • STX
  • 00000010
  • Start of Text, начало текста. Текстом называлась часть сообщения телетайпа, предназначенная для печати.
  • ETX
  • 00000011
  • End of Text, конец текста. Здесь телетайп прекращал печатать. Отсюда происходит использование символа Ctrl-C, имеющего код 03, для прекращения работы чего-то (обычно программы).
  • EOT
  • 00000100
  • End of Transmission, конец передачи. В системе UNIX Ctrl-D, имеющий тот же код, означает конец файла при вводе с клавиатуры.
  • ENQ
  • 00000101
  • Enquire, "прошу подтверждения".
  • ACK
  • 00000110
  • Acknowledgement, "подтверждаю".
  • BEL
  • 00000111
  • Bell, звонок. Часто используется для подачи звукового сигнала.
  • BS
  • 00001000
  • Backspace, возврат на один символ.
  • TAB
  • 00001001
  • Табуляция. Обозначается также HT - Horizontal Tabulation, горизонтальная табуляция. Во многих языках программирования обозначается \t.
  • LF
  • 00001010
  • Line Feed, перевод строки. Сейчас в конце каждой строчки текстового файла ставится либо этот символ, либо CR, либо и тот и другой (CR, затем LF), в зависимости от операционной системы. Во многих языках программирования этот символ обозначается \n и при выводе текста приводит к переводу строки.
  • VT
  • 00001011
  • Vertical Tab, вертикальная табуляция.
  • FF
  • 00001100
  • Form Feed, новая страница.
  • CR
  • 00001101
  • Carriage Return, возврат каретки. Во многих языках программирования этот символ, обозначаемый \r, можно использовать для возврата в начало строчки без перевода строки. В некоторых операционных системах этот же символ, обозначаемый Ctrl-M, ставится в конце каждой строчки текстового файла перед LF.
  • SO
  • 00001110
  • Shift Out, начало использования национальной кодировки.
  • SI
  • 00001111
  • Shift In, обратно к Shift Out.
  • DLE
  • 00010000
  • Data Link Escape, следующие символы имеют специальный смысл.
  • DC1
  • 00010001
  • Device Control 1, 1-й символ управления устройством - включить устройство чтения перфоленты.
  • DC2
  • 00010010
  • Device Control 2, 2-й символ управления устройством - включить перфоратор.
  • DC3
  • 00010011
  • Device Control 3, 3-й символ управления устройством - выключить устройство чтения перфоленты.
  • DC4
  • 00010100
  • Device Control 4, 4-й символ управления устройством — выключить перфоратор.
  • NAK
  • 00010100
  • Negative Acknowledgment, "не подтверждаю". Обратно к Acknowledgment.
  • SYN
  • 00010101
  • Synchronization. Этот символ передавался, когда для синхронизации было необходимо что-нибудь передать.
  • ETB
  • 00010110
  • End of Text Block, конец текстового блока.
  • CAN
  • 00010111
  • Cancel, отмена (того, что было передано ранее).
  • EM
  • 00011000
  • End of Medium, например, "кончилась перфолента"
  • SUB
  • 00011001
  • Substitute, подставить. Следующий символ — другого цвета или из дополнительного набора символов.
  • ESC
  • 00011010
  • Escape. Следующие символы — что-то специальное.
  • FS
  • 00011011
  • File Separator, разделитель файлов.
  • GS
  • 00011100
  • Group Separator, разделитель групп.
  • RS
  • 00011101
  • Record Separator, разделитель записей.
  • US
  • 00011110
  • Unit Separator, разделитель юнитов. Когда-то поддерживалось 4 уровня структуризации данных: сообщение могло состоять из файлов, файлы из групп, группы из записей, записи из юнитов.
  • SP
  • 00011111
  • Space, пробел.

  • Таблица 2. Базовая таблица системы ASCII.
  •  

  • Таблица 3. Расширенная таблица системы ASCII.
  •  

  •  

  • 5. Кодировка Unicode

  • Рис.5.1. Кодировка Unicode (фрейм 1)
  • Рис.5.2. Кодировка Unicode (фрейм 2)

    Рис.5.3. Кодировка Unicode (фрейм 3)

  • Рис.5.4. Кодировка Unicode (фрейм 4)
  • Рис.5.5. Кодировка Unicode (фрейм 5)
  • Рис.5.6. Кодировка Unicode (фрейм 6)

  •  

  • Этот раздел представлен шестью фреймами. Каждый фрейм содержит кнопки навигации текста и кнопку возврата к разделу «Представление текстовой информации в памяти компьютера».
  • В данном разделе представлена информация о системе кодирования Unicode:
  • Юникод, или Уникод (Unicode) - это стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.
  • Чаще всего для обозначения символов Unicode используется запись вида "U+xxxx" (для кодов 0...FFFF), где xxx - шестнадцатеричные цифры. Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65536). Отсюда и происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+0410).
  • Коды в стандарте Unicode разделены на несколько областей, например: Область от U+0000 до U+007F содержит символы набора ASCII.
  • Область от U+0400 до U+052F содержит символы кириллицы, где символы до U+045F - это собственно кириллица, а далее располагаются исторические буквы и дополнительные буквы для разных языков, использующих кириллицу.
  • В дальнейшем было принято решение расширить кодовую область, и коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов. Однако, поскольку в ряде компьютерных систем (например, Windows NT) до изобретения Юникода уже были реализованы 16-битные символы, было решено всё наиболее важное кодировать только в пределах первых 65536 позиций (так наз. Basic Multilingual Plane, BMP). Остальное пространство используется для "дополнительных символов" (Supplementary Characters): систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов.
  • Стандарт Юникода содержит семейство кодировок (форм представления или UTF, Unicode Transformation Format): UTF-8, UTF-16, UTF-32 и некоторые другие, которые отличаются между собой способом хранения данных (количество байт на символ, фиксированное или нефиксированное количество байт на символ). Была разработана также форма представления UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила распространения и не включена в стандарт.
  • UTF-8 - это представление Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Для совместимости со старыми 16-битными системами была изобретена система UTF-16, где первые 65536 позиций отображаются непосредственно как 16-битные числа, а остальные представляются в виде "суррогатных пар".
  • В Microsoft Windows NT/2000/XP в основном используется форма UTF-16. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.
  • В Юникоде нет русских букв с ударением, но по стандарту их можно делать составными, добавляя символ U+0301 ("combining acute accent") после ударной гласной. Вообще, в Юникоде символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character). Cимволы в Юникоде подразделяются на протяжённые и непротяжённые (бесширинные). Непротяжённые символы при отображении не занимают места в строке. К ним относятся, в частности, знаки ударения и прочие диакритические знаки. Как протяжённые, так и непротяжённые символы имеют собственные коды. Протяжённые символы иначе называются базовыми (base characters), а непротяжённые — модифицирующими (combining characters); причём последние не могут встречаться самостоятельно. Например, символ "a" с ударением может быть представлен как последовательность базового символа "a" (U+0061) и модифицирующего символа U+0301, или как монолитный символ "a" с ударением (U+00C1). Примечание: множество символов из языков с алфавитами на основе кириллицы не имеют монолитных форм.
  • В Windows служебная программа "Таблица символов" (для вызова наберите "charmap" в командной строке) позволяет вывести на экран таблицу всех символов от U+0000 до U+FFFF, поддерживаемых конкретным шрифтом. Также эта программа позволяет выделять отдельные символы и копировать их в буфер обмена.
  • В некоторых приложениях, например WordPad и MS Word, работает способ ввода символов по шестнадцатеричному коду: нужно набрать этот код, и нажать Alt+X. Код будет заменён на соответствующий символ. Работает и обратное преобразование: если выделить символ и нажать Alt+X, то этот символ будет заменён на его шестнадцатеричный код.
  • Кроме того, во многих Windows-приложениях будет работать следующее: если нажать клавишу Alt, и не отпуская её, ввести код на блоке дополнительной цифровой клавиатуры, будет введён соответствующий символ. Таким способом могут вводиться символы различных кодировок по достаточно сложным правилам, которые могут срабатывать по-разному в разных программах, и описаны, например, в статье "Вводим отсутствующие на клавиатуре символы" журнала "Компьютерра" (эту статью можно найти в Интернете).
  • В HTML все символы могут быть закодированы в числовом обозначении с использованием десятичного (&#DD;) или шестнадцатеричного (&#xHHHH;) кода Unicode. Hапример, буква "Ё": Ё или Ё.
  • В HTML можно использовать также модифицирующие непротяжённые символы, например, для расстановки ударений. Код:
  • <span style="font-family:Arial">Ма&#x0301;ма мы&#x0301;ла ра&#x0301;му.</span>
  • Будет отображён так:
  • Ма́ма мы́ла ра́му.
  •  

  •  

  • 6. Контрольное тестирование

  • Рис.6.1. Контрольное тестирование (Вопрос №1)
  • Рис.6.2. Контрольное тестирование (Вопрос №2)
  • Рис.6.3. Контрольное тестирование (Вопрос №3)

    Рис.6.4. Контрольное тестирование (Вопрос №4)

    Рис.6.5. Контрольное тестирование (Вопрос №5)

    Рис.6.6. Контрольное тестирование (Вывод результатов)


     

     

     Заключение

  • При выполнении курсовой работы был создан цифровой образовательный ресурс.
  • Для закрепления темы написан тест.
  • Ресурс содержит информацию о представлении текстовой информации в памяти компьютера и системах кодировки текстовой информации. При помощи кнопок осуществляется навигация текста и переход на другие.
  • В будущем планируется глубже изучить Adobe Flash и усовершенствовать созданный ресурс.
  •  

  • Литература

      1. Чанг Т.К., Кларк Ш. и др. «Популярные web-приложения на Flash MX». Пер. с англ. - М.:КУДИЦ-ОБРАЗ, 2003 - 272с.
      2. Уотролл Э., Гербер Н. «Эффективная работа во Flash MX» , - СПБ.: Питер; Киев: BHV, 2003. - 720 с.
      3. Семакин И.Г. «Информатика. Учебник по базовому курсу», - М.: ООО «Издательство Лаборатория Базовых Знаний», 1998. – 464с.: ил.
      4. Угринович Н.Д. «Информатика и ИКТ. Базовый курс: учебник для 8 класса», - М.: Бином. Лаборатория знаний, 2007. – 205 с.: ил.
      5. Чанг Т.К., Кларк Ш. и др. «Популярные web-приложения на Flash MX». Пер. с англ. – М.:КУДИЦ-ОБРАЗ, 2003 – 272с.
      6. Уотролл Э., Гербер Н. «Эффективная работа во Flash MX , - СПБ.:Питер; Киев: BHV, 2003. – 720 с.
      7. Людоговский А., Кодировки и наборы символов. http://www.script-coding.info/CodePages.html
      8. Алешин А., Кодирование символов. Виды кодировок. Таблицы ASCII. Unicode. http://vestikinc.narod.ru/AB/coding.htm

     

     

    Приложение

  •  


  • Информация о работе Представление текстовой информации в памяти компьютера