Состав и ресурсы Internet

Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 09:53, курсовая работа

Описание работы

Около 20 лет назад Министерство Обороны США создало сеть, которая явилась предтечей Internet, - она называлась ARPAnet. ARPAnet была экспериментальной сетью, - она создавалась для поддержки научных исследований в военно-промышленной сфере, - в частности, для исследования методов построения сетей, устойчивых к частичным повреждениям, получаемым, например, при бомбардировке авиацией и способных в таких условиях продолжать нормальное функционирование. Это требование дает ключ к пониманию принципов построения и структуры Internet. В модели ARPAnet всегда была связь между компьютером-источником и компьютером-приемником (станцией назначения). Сеть a priori предполагалась ненадежной: любая часть сети может исчезнуть в любой момент.

Содержание работы

Введение.....................................................................3

Глава I
Состав Интернет
История развития Интернет................................................5
Сети коммутации пакетов...................................................7
Протоколы сети Интернет..................................................8
Доменная система ...........................................................10
Программное Обеспечение...................................................15
Глава II
Ресурсы Интернет
Основные понятия World Wide Web........................................18
Поисковые машины..........................................................23
FTP ............................................................................27 Gopher..........................................................................30
Средства виртуального общения..........................................31
Термины в Интернет.......................................................33

Список используемой литературы..............................36

Скачать архив (94.74 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Состав и ресурсы Internet.doc

— 479.50 Кб (Скачать файл)

Стандарты, утверждённые W3C

Annotea
CC/PP
Compound Document Formats
CSS
DOM
HTML
HTTP
InkML
MathML
OWL
PICS
PNG
P3P
RDF
SMIL
SOAP/XMLP
SPARQL
Style
SVG
TAG
Timed Text
URI/URL
Voice Browser
WAI
WebCGM
Web Services
XForms
XHTML
XInclude
XLink
XML
XML Base
XML Binary Characterization
XML Encryption
XML Key Management
XML Query
XML Schema
XML Signature
XPath
XPointer
MXSL и XSLT

Программы и утилиты, созданные W3C

Amaya (браузер и WYSIWYG-редактор)
CSS Validator
HTML Tidy
HTML Validator
Jigsaw (сервер)
Libwww (Web API, больше не поддерживается)
Quality Assurance, QA (утилиты для проверки качества)
и другие

Поисковые машины

Интернет - это множество сайтов, размещенных на серверах, объединенных каналами связи (телефонными, оптоволоконными и спутниковыми линиями).

Сайт - это совокупность документов в формате html (страниц сайта), связанных между собой гиперссылками.

Большой сайт (например "Medlink" - медицинский тематический каталог http://www.medlinks.ru - состоит из 30000 страниц, а объем дискового пространства, который он занимает на сервере, составляет около 400 Mб).
Небольшой сайт состоит из нескольких десятков - сотен страниц и занимает 1 - 10 Мб (например мой сайт "Врач-аспирант" http://www.disser.ru 25 июля 2004 г. состоял из 280 .htm-страниц и занимал на сервере 6 Мб).

Сервер - это компьютер, подключенный к Интернету и работающий круглосуточно. На сервере могут быть размещены одновременно от нескольких сотен до нескольких тысяч сайтов.

Сайты, размещенные на компьютере-сервере, могут просматривать и копировать пользователи Интернета.

Для обеспечения бесперебойного доступа к сайтам, электроснабжение сервера осуществляется через источники бесперебойного питания, а помещение, где работают серверы (дата-центр), оборудовано автоматической системой пожаротушения, организовано круглосуточное дежурство технического персонала.

За более чем 10 лет своего существования Рунет (русскоязычный Интернет) стал упорядоченной структурой и поиск информации в Сети стал более предсказуем.

Основной инструмент поиска информации в Интернете - поисковые машины.

Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.

По заявке веб-мастера робот-паук заходит на сайт и просматривает страницы сайта, занося в индекс поисковой машины информацию о страницах сайта. Поисковая машина может сама найти сайт, даже если его веб-мастер и не подавал заявку на регистрацию. Если ссылка на сайт попадется где-либо на пути поисковой машины (на другом сайте, например), то она сайт тут же проиндексирует.

Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое. Поэтому индекс поисковой машины в несколько раз меньше, чем объем проиндексированной информации.

Что и как ищет поисковая машина в Интернете?

Поисковую машину придумали люди, чтобы она помогала им искать информацию. Что такое информация в нашем человеческом понимании и наглядном представлении? Это не запахи или звуки, не ощущения и не образы. Это просто слова, текст. Когда мы что-то ищем в Интернете, мы запрашиваем слова - поисковый запрос, и в ответ надеемся получить текст, содержащий именно эти слова. Потому что мы знаем, что поисковая система будет искать в массиве информации именно запрошенные нами слова. Потому что именно таковой она была задумана, чтобы искать слова.

Поисковая машина ищет слова не в Интернете, а в своем индексе. В индексе поисковой машины находится информация только о небольшом количестве сайтов Интернета. Существуют поисковые машины, которые индексируют только сайты на английском языке и есть поисковые машины, которые заносят в свой индекс только русскоязычные сайты.

Особенности некоторых поисковых машин Рунета

Поисковая машина Google не учитывает морфологию русского языка. Например, Google слова "диссертация" и "диссертации" считает разными.

Судите сами. Отправим в Google http://www.google.ru поисковый запрос "диссертации". Google в результатах поиска выдаст нам 151000 документов. Обратите внимание в результатах поиска на слова, выделенные жирным шрифтом. Именно эти слова Google считает соответствующими поисковому запросу. При запросе "диссертации" Google пропускает слова "диссертация" и считает только слова "диссертации".

Отправим в Google поисковый запрос "диссертация". Результат будет совершенно другой. Можно даже не сравнивать верхние позиции результата поиска. Посмотрите на количество найденных документов - всего 35300, почти в 4 раза меньше, чем по запросу "диссертации".

Информация о сайте может быть занесена не во все поисковые машины Рунета.

Так, например, 18 июня 2003 г. я отправил заявку на индексацию своего сайта "Врач-аспирант" http://www.disser.ru одновременно в три крупнейшие поисковые машины Рунета - Яндекс, Рамблер и Апорт. Рамблер проиндексировал мой сайт через 2 дня, Яндекс - через неделю, Апорт - 1 августа.

Другой важной характеристикой поисковой машины является способность переиндексировать сайт, т.е. обновлять в своем индексе информацию о сайте. Обычно робот-паук поисковой системы повторно заходит на сайт через 1-2 недели после первой индексации. Мощная поисковая машина обходит всю сеть за неделю (т.е. за месяц поисковая система переиндексирует сайт 3-4 раза). При этом составляется весьма свежий и довольно подробный индекс. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются.

По определенному поисковому запросу поисковая система выдает в результатах поиска только одну страницу с сайта, наиболее релевантную (соответствующую) поисковому запросу.

По умолчанию в результатах поискового запроса поисковая машина показывает по одной странице с каждого сайта, соответствующего поисковому запросу. В противном случае вместо 1283 страниц пользователю пришлось бы перебирать все 74095 с целью отбора нужной информации.

Нахождение сайта по чьему-либо запросу на первой странице результата поискового запроса совершенно не зависит от посещаемости сайта, поэтому и давно созданные сайты, и сайты-новички для поисковой машины равны.

От чего зависит позиция сайта в результате поискового запроса?

Положение страницы в списке результатов зависит от многих факторов. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов.

Вот что определяет положение сайта в результате поискового запроса (при запросе по одному слову).

1. Частота слова в индексе поисковой машины и странице сайта, размер индекса и страницы сайта

2. Привилегированное положение слова в странице сайта (например, заголовок) и наличие его в списке ключевых слов данной страницы (метатег meta NAME="keywords")

3. Присутствие слова в "авторитетных" ссылках на страницу сайта

4. Индекс цитирования сайта

Индекс цитирования ? принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.

Тематический индекс цитирования сайта (тИЦ). Представляет собой "авторитетность" интернет-ресурса с учетом качественной характеристики ссылок на него с других сайтов. Эту качественную характеристику называют "весом" ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Почти все поисковые машины умеют определять тематический индекс цитирования сайта.

Например, тИЦ крупнейшего медицинского сайта Рунета - Русского медицинского сервера http://www.rusmedserv.com 30 августа 2004 года составлял 3900 (по версии Яндекса), а тИЦ сайта "Врач-аспирант" http://www.disser.ru - 375.

Необходимо просматривать не только первую страницу результата поискового запроса, но и остальные.

Потому что нередко сайты, в которых содержится действительно нужная пользователю информация, находятся на 4 - 10 странице результата поискового запроса.

Почему так происходит? Во-первых, многие создатели сайтов не оптимизируют страницы своего сайта для поисковых машин, например, не включают в страницы сайта метатеги.

Метатеги - это служебные элементы web-документа, которые на экране не видны, но имеют важное значение при нахождении вашего сайта поисковыми системами. Метатеги облегчают поиск поисковым машинам, чтобы тем не нужно было лезть вглубь документа и анализировать весь текст сайта для составления определенной картины о нем. Наиболее важный метатег - meta NAME="keywords" - ключевые слова страницы сайта. Если слово из основного текста документа не расценено как "поисковый спам" и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.

Во-вторых, между веб-мастерами сайтов существует жесткая конкуренция за первые позиции в результате поискового запроса.

Согласно статистике, 80% посетителей на сайт приходит именно с поисковых машин. Рано или поздно веб-мастера осознают это и начинают адаптировать свои сайты к законам поисковых машин.

К сожалению, некоторые из создателей сайтов применяют нечестный метод раскрутки своего сайта через поисковые системы - так называемый "поисковый спам" для создания как будто бы соответствия содержания метатегов и остального текста сайта - размещают на страницах сайта скрытые слова, набранные цветом фона, так что они не мешают посетителям сайта. Однако создатели поисковых машин отслеживают подобные хитрости и сайт "поискового спамера" падает с достигнутых высот на самое дно.

В Интернете малопригодны метафоры и образные сравнения. Они искажают истину, уводят пользователей Интернета от точной и однозначной информации. Чем меньше художественности и больше точности в стиле автора сайта - тем более высокие позиции в результатах поискового запроса занимает сайт.

В свою очередь, если вы хотите, чтобы поисковая машина находила для вас статьи в Интернете - думайте как машина, станьте машиной. Хотя бы на время. На время поиска.

FTP

FTP (англ. File Transfer Protocol — протокол передачи файлов) — протокол, предназначенный для передачи файлов в компьютерных сетях. FTP позволяет подключаться к серверам FTP, просматривать содержимое каталогов и загружать файлы с сервера или на сервер; кроме того, возможен режим передачи файлов между серверами (см. FXP).

Информация о работе Состав и ресурсы Internet