Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 09:53, курсовая работа
Около 20 лет назад Министерство Обороны США создало сеть, которая явилась предтечей Internet, - она называлась ARPAnet. ARPAnet была экспериментальной сетью, - она создавалась для поддержки научных исследований в военно-промышленной сфере, - в частности, для исследования методов построения сетей, устойчивых к частичным повреждениям, получаемым, например, при бомбардировке авиацией и способных в таких условиях продолжать нормальное функционирование. Это требование дает ключ к пониманию принципов построения и структуры Internet. В модели ARPAnet всегда была связь между компьютером-источником и компьютером-приемником (станцией назначения). Сеть a priori предполагалась ненадежной: любая часть сети может исчезнуть в любой момент.
Введение.....................................................................3
Глава I
Состав Интернет
История развития Интернет................................................5
Сети коммутации пакетов...................................................7
Протоколы сети Интернет..................................................8
Доменная система ...........................................................10
Программное Обеспечение...................................................15
Глава II
Ресурсы Интернет
Основные понятия World Wide Web........................................18
Поисковые машины..........................................................23
FTP ............................................................................27 Gopher..........................................................................30
Средства виртуального общения..........................................31
Термины в Интернет.......................................................33
Список используемой литературы..............................36
Поисковые машины
Интернет - это множество сайтов, размещенных на серверах, объединенных каналами связи (телефонными, оптоволоконными и спутниковыми линиями).
Сайт - это совокупность документов в формате html (страниц сайта), связанных между собой гиперссылками.
Большой сайт (например "Medlink" - медицинский
тематический каталог http://www.medlinks.ru - состоит из 30000
страниц, а объем дискового пространства,
который он занимает на сервере, составляет
около 400 Mб).
Небольшой сайт состоит из нескольких
десятков - сотен страниц и занимает 1 -
10 Мб (например мой сайт "Врач-аспирант" http://www.disser.ru 25 июля 2004 г. состоял
из 280 .htm-страниц и занимал на сервере 6
Мб).
Сервер - это компьютер, подключенный к Интернету и работающий круглосуточно. На сервере могут быть размещены одновременно от нескольких сотен до нескольких тысяч сайтов.
Сайты, размещенные на компьютере-сервере, могут просматривать и копировать пользователи Интернета.
Для обеспечения бесперебойного доступа к сайтам, электроснабжение сервера осуществляется через источники бесперебойного питания, а помещение, где работают серверы (дата-центр), оборудовано автоматической системой пожаротушения, организовано круглосуточное дежурство технического персонала.
За более чем 10 лет своего существования Рунет (русскоязычный Интернет) стал упорядоченной структурой и поиск информации в Сети стал более предсказуем.
Основной инструмент поиска информации в Интернете - поисковые машины.
Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.
По заявке веб-мастера робот-паук заходит на сайт и просматривает страницы сайта, занося в индекс поисковой машины информацию о страницах сайта. Поисковая машина может сама найти сайт, даже если его веб-мастер и не подавал заявку на регистрацию. Если ссылка на сайт попадется где-либо на пути поисковой машины (на другом сайте, например), то она сайт тут же проиндексирует.
Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое. Поэтому индекс поисковой машины в несколько раз меньше, чем объем проиндексированной информации.
Что и как ищет поисковая машина в Интернете?
Поисковую машину придумали люди, чтобы она помогала им искать информацию. Что такое информация в нашем человеческом понимании и наглядном представлении? Это не запахи или звуки, не ощущения и не образы. Это просто слова, текст. Когда мы что-то ищем в Интернете, мы запрашиваем слова - поисковый запрос, и в ответ надеемся получить текст, содержащий именно эти слова. Потому что мы знаем, что поисковая система будет искать в массиве информации именно запрошенные нами слова. Потому что именно таковой она была задумана, чтобы искать слова.
Поисковая машина ищет слова не в Интернете, а в своем индексе. В индексе поисковой машины находится информация только о небольшом количестве сайтов Интернета. Существуют поисковые машины, которые индексируют только сайты на английском языке и есть поисковые машины, которые заносят в свой индекс только русскоязычные сайты.
Особенности некоторых поисковых машин Рунета
Поисковая машина Google не учитывает морфологию русского языка. Например, Google слова "диссертация" и "диссертации" считает разными.
Судите сами. Отправим в Google http://www.google.ru поисковый запрос "диссертации". Google в результатах поиска выдаст нам 151000 документов. Обратите внимание в результатах поиска на слова, выделенные жирным шрифтом. Именно эти слова Google считает соответствующими поисковому запросу. При запросе "диссертации" Google пропускает слова "диссертация" и считает только слова "диссертации".
Отправим в Google поисковый запрос "диссертация". Результат будет совершенно другой. Можно даже не сравнивать верхние позиции результата поиска. Посмотрите на количество найденных документов - всего 35300, почти в 4 раза меньше, чем по запросу "диссертации".
Информация о сайте может быть занесена не во все поисковые машины Рунета.
Так, например, 18 июня 2003 г. я отправил заявку на индексацию своего сайта "Врач-аспирант" http://www.disser.ru одновременно в три крупнейшие поисковые машины Рунета - Яндекс, Рамблер и Апорт. Рамблер проиндексировал мой сайт через 2 дня, Яндекс - через неделю, Апорт - 1 августа.
Другой важной характеристикой поисковой машины является способность переиндексировать сайт, т.е. обновлять в своем индексе информацию о сайте. Обычно робот-паук поисковой системы повторно заходит на сайт через 1-2 недели после первой индексации. Мощная поисковая машина обходит всю сеть за неделю (т.е. за месяц поисковая система переиндексирует сайт 3-4 раза). При этом составляется весьма свежий и довольно подробный индекс. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются.
По определенному поисковому запросу поисковая система выдает в результатах поиска только одну страницу с сайта, наиболее релевантную (соответствующую) поисковому запросу.
По умолчанию в результатах поискового запроса поисковая машина показывает по одной странице с каждого сайта, соответствующего поисковому запросу. В противном случае вместо 1283 страниц пользователю пришлось бы перебирать все 74095 с целью отбора нужной информации.
Нахождение сайта по чьему-либо запросу на первой странице результата поискового запроса совершенно не зависит от посещаемости сайта, поэтому и давно созданные сайты, и сайты-новички для поисковой машины равны.
От чего зависит позиция сайта в результате поискового запроса?
Положение страницы в списке результатов зависит от многих факторов. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов.
Вот что определяет положение сайта в результате поискового запроса (при запросе по одному слову).
1. Частота слова в индексе поисковой машины и странице сайта, размер индекса и страницы сайта
2. Привилегированное положение
слова в странице сайта (
3. Присутствие слова в "
4. Индекс цитирования сайта
Индекс цитирования ? принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.
Тематический индекс цитирования сайта (тИЦ). Представляет собой "авторитетность" интернет-ресурса с учетом качественной характеристики ссылок на него с других сайтов. Эту качественную характеристику называют "весом" ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Почти все поисковые машины умеют определять тематический индекс цитирования сайта.
Например, тИЦ крупнейшего медицинского
сайта Рунета - Русского медицинского
сервера http://www.rusmedserv.
Необходимо просматривать не только первую страницу результата поискового запроса, но и остальные.
Потому что нередко сайты, в которых содержится действительно нужная пользователю информация, находятся на 4 - 10 странице результата поискового запроса.
Почему так происходит? Во-первых, многие создатели сайтов не оптимизируют страницы своего сайта для поисковых машин, например, не включают в страницы сайта метатеги.
Метатеги - это служебные элементы web-документа, которые на экране не видны, но имеют важное значение при нахождении вашего сайта поисковыми системами. Метатеги облегчают поиск поисковым машинам, чтобы тем не нужно было лезть вглубь документа и анализировать весь текст сайта для составления определенной картины о нем. Наиболее важный метатег - meta NAME="keywords" - ключевые слова страницы сайта. Если слово из основного текста документа не расценено как "поисковый спам" и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.
Во-вторых, между веб-мастерами сайтов существует жесткая конкуренция за первые позиции в результате поискового запроса.
Согласно статистике, 80% посетителей на сайт приходит именно с поисковых машин. Рано или поздно веб-мастера осознают это и начинают адаптировать свои сайты к законам поисковых машин.
К сожалению, некоторые из создателей сайтов применяют нечестный метод раскрутки своего сайта через поисковые системы - так называемый "поисковый спам" для создания как будто бы соответствия содержания метатегов и остального текста сайта - размещают на страницах сайта скрытые слова, набранные цветом фона, так что они не мешают посетителям сайта. Однако создатели поисковых машин отслеживают подобные хитрости и сайт "поискового спамера" падает с достигнутых высот на самое дно.
В Интернете малопригодны метафоры
и образные сравнения. Они искажают
истину, уводят пользователей Интернета
от точной и однозначной информации.
Чем меньше художественности и больше
точности в стиле автора сайта - тем
более высокие позиции в
В свою очередь, если вы хотите, чтобы поисковая машина находила для вас статьи в Интернете - думайте как машина, станьте машиной. Хотя бы на время. На время поиска.
FTP (англ. File Transfer Protocol — протокол передачи файлов) — протокол, предназначенный для передачи файлов в компьютерных сетях. FTP позволяет подключаться к серверам FTP, просматривать содержимое каталогов и загружать файлы с сервера или на сервер; кроме того, возможен режим передачи файлов между серверами (см. FXP).