Яндекс - основные сведения по популярному индексу
Яндекс - основные сведения по популярному индексу
Введение
История компании "Яндекс" началась в 1990 году с разработки поискового
программного обеспечения в компании "Аркадия". За два года работ были
созданы две информационно-поисковые системы - Международная Классификация
Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе
системы работали под DOS и позволяли проводить поиск, выбирая слова из
заданного словаря, с использованием стандартных логических операторов.
В 1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994
годы программные технологии были существенно усовершенствованы благодаря
сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи
Информации РАН). В частности, словарь, обеспечивающий поиск с учетом
морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в
оперативную память и работал очень быстро. С этого момента пользователь мог
задавать в запросе любые формы слов.
На основе новой технологии в 1994 году был создан "Библейский компьютерный
справочник" (информационно-поисковая система, обеспечивающая работу с
Синодальным переводом Ветхого и Нового Заветов). В 1995 году стартовал
проект "Академическое издание классиков на CD ROM", разрабатываемый
совместно с НТЦ "Информрегистр" и ИМЛИ им. М.Горького РАН при поддержке
Роскоминформа. Для этого проекта была создана универсальная технология
"Аргонавт", которая включала как средства разметки и отображения текстов,
так и средства навигации, а так же различные поиски - и текстовые, и
атрибутные. На основе этой технологии вышло 3 издания - справочник
стандартов "Информ - Норматив", электронное научное издание "А.С.
Грибоедов" и "Пушкин. Электронный фонд русской классической литературы".
Также был создан словарь языка Грибоедова.
В начале 1996 года был разработан алгоритм построения гипотез. Отныне
морфологический разбор перестал быть привязан к словарю - если какого-либо
слова в словаре нет, то находятся наиболее похожие на него словарные слова
и по ним строится модель словоизменения.
В это время Интернет в России только начинался...
1. История Yandex.Ru
Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997
года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот
момент были проверка уникальности документов (исключение копий в разных
кодировках), а также ключевые свойства поискового ядра Яndex, а именно:
учет морфологии русского языка (в том числе и поиск по точной словоформе),
поиск с учетом расстояния (в том числе в пределах абзаца, точное
словосочетание), и тщательно разработанный алгоритм оценки релевантности
(соответствия ответа запросу), учитывающий не только количество слов
запроса, найденных в тексте, но и "контрастность" слова (его относительную
частоту для данного документа), расстояние между словами, и положение слова
в документе.
Чуть позже в разделе «Сказки» (наблюдения за содержанием русского
Интернета) появилась первая сказка Рунета — «Web – гуманизм или чернуха?».
А в разделе «Числа» — первая оценка объема Рунета, 5 тысяч серверов и 4Гб
текстов.
Через два месяца, в ноябре 1997 года, был реализован естественно-языковый
запрос. Отныне к Yandex.Ru можно обращаться просто «по-русски», задавать
длинные запросы, например: «где купить компьютер», «генетически
модифицированные продукты» или «коды международной телефонной связи» и
получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас — 2,7
слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых
машин были приучены к телеграфному стилю.
В 1998 году на Yandex.Ru появилась возможность «найти похожий документ»,
список найденных серверов, поиск в заданном диапазоне дат и сортировка
результатов поиска по времени последнего изменения. За этот год «объем»
Русского Интернета удвоился, что привело к необходимости оптимизации
поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость
поиска на Yandex.Ru — доли секунды.
За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в
количестве пользователей. Это был год бурного развития и для Yandex.Ru.
Новый поисковый робот позволил оптимизировать и ускорить обход сайтов
Рунета. Сегодня поисковая база Yandex.Ru вдвое больше, чем у ближайших
конкурентов.
Новый робот позволил предоставить пользователям новые возможности – поиск
по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям
к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и
изображениям, а также выделять документы на русском языке. Появился поиск в
категориях каталога и впервые в Рунете было введено понятие «индекс
цитирования» — количество ресурсов, ссылающихся на данный.
В течение всего года продолжалась работа по количественному и качественному
анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов
Населения Интернет»), показывающий динамику изменения интересов
пользователей Интернета. Открылся поисковый Форум и новый сервис — подписка
на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно
получать по электронной почте информацию о появлении новых и/или измененных
документов, соответствующих этому запросу. К началу учебного года был
открыт «Семейный Яndex», фильтрация результатов поиска от мата и
порнографии.
2. Яндекс — 2000
В этом году образовалась компания "Яндекс". "Яндекс" был учрежден
акционерами CompTek - компании, создавшей и в течение долгого времени
развивавшей проект Яndex. Компания ru-Net Holdings инвестировала 5
миллионов 280 тысяч долларов и получила в новой компании долю в 35,72%. В
число акционеров входят также менеджмент и ведущие разработчики поисковой
системы. Генеральным директором стал Аркадий Волож.
В новообразованную компанию перешли все права на торговую марку Яndex и
сайт www.yandex.ru, а также на поисковую технологию Яndex и семейство
одноименных программных продуктов. Кроме того, в "Яндекс" был передан
недавно стартовавший проект www.narod.ru.
В апреле на канале НТВ прошла рекламная кампания Яндекса, в которой впервые
был озвучен слоган "Найдется все!".
В июне открытием нового дизайна сайта Yandex.Ru началась "неделя Яндекса",
каждый день которой был посвящен одному из проектов. Тогда были открыты
Почта Яндекса, Яндекс.Новости, Яндекс.Открытки и Яндекс.Закладки, а также
"аскетический Яндекс" - для тех, кто торопится. Завершилась неделя
праздником Яндекса.
В этом же году Яндекс стал искать не только по веб-страницам, но и по
специализированным ("параллельным") массивам данных - новостям и товарам.
Был открыт свой собственный каталог c новым (фасетным) принципом описания
ресурсов. Его концепция и принципы классификации были разработаны
специалистами Яндекса.
3. Яндекс — 2001
Новый 2001-й год Яндекс ознаменовал акцией «Новогоднее обращение Народа
России к Президенту» и переездом в новый офис с собственной серверной.
В этом году Яндекс стал лауреатом Национальной Интел Интернет Премии,
получив призы в следующих номинациях:
Лучший сайт в области «Сетевые сервисы»
Лучший сайт в области «Рубрикаторы, поисковые системы, каталоги товаров и
услуг»
Человек Года: Аркадий Волож
Гран-при Российской академии Интернета
Специальный приз прессы (присуждается журналистским сообществом)
Веб Выбирает Вас (результат общего голосования пользователей Рунета)
Две последние номинации - особые. "Специальный приз прессы" присуждается
журналистским сообществом (400 анкет было разослано региональным
журналистам). "Веб Выбирает Вас" - результат общего голосования
пользователей Рунета.
В апреле Яндекс учредил новое интернет-соревнование — Открытый Кубок России
по поиску в интернете. В чемпионате могут принять участие все желающие,
владеющие русским языком и клавиатурой. Никаких ограничений на
использование инструментов поиска нет. Официальный сайт Кубка —
kubok.yandex.ru.
Первый розыгрыш Кубка прошел весной. Более 1000 человек состязались за
звание «Человек, который нашел все», и более 60.000 человек наблюдало за
играми. Второй розыгрыш Кубка состоялся осенью, сайт посетило более 100
тысяч человек.
Летом этого года Яндекс впервые вышел на первое место в Рунете по объему
аудитории, согласно данным исследовательских компаний Комкон-2 и Gallup
Media.
4. Яндекс — 2002
2002-й год Яндекс встретил информационной компанией новой европейской
валюты, за что получил первый в России наличный евро.
Яндексом был опубликован рейтинг потребительских торговых марок «Выбор
интернета 2001».
По решению Совета директоров был приближен срок выхода на самоокупаемость с
первой половины 2003 года на четвертый квартал 2002, в итоге уже в августе
2002 года было достигнуто превышение доходов над расходами, и в ноябре
Яндекс рапортовал о досрочном выходе на самоокупаемость.
Весной Яндекс зафиксировал объем русского интернета, равный одному
терабайту (2 в 40 степени байт).
Летом Яндексу был делегирован домен yandex.com, отобранный у
недобросовестного владельца. Это послужило началом борьбы Яндекса с
киберсквотингом.
«Яндекс» и группа компаний PayCash вывели на рынок новую систему цифровой
наличности Яндекс.Деньги, задачей которых стало создание в российском
интернете универсальной платежной среды.
Был внедрен новый сервис Яндекс.Почты - фильтрации массовых рассылок (bulk
mail).
В октябре на Яндексе был открыт официальный сайт проекта «Фабрика звезд»
(Первый канал) в формате «реальное шоу», таким образом Яндекс опробовал
взаимодействие трех информационных сред: телевидения, телефонии и
интернета.
Тогда же стартовал розыгрыш III Открытого Кубка России по поиску в
интернете.
Завершением 2002 года стало открытие нового торгового центра -
Яндекс.Маркет, который объединил все разработки Яндекса в сфере электронной
коммерции — Подбери, Товары и Гуру.
5. Яндекс — 2003
2003 — первый Новый год, который Яндекс встретил как самоокупаемая
компания. В этом же году Совет директоров компании "Яндекс" принял решение
о выплате дивидендов – первых в российском интернете.
Яндекс.Почта предоставила пользователям возможность выбора: смотреть или не
смотреть рекламу, освободила миллион неиспользуемых имен (логинов), а во
втором полугодии - удвоила размер почтового ящика и объявила борьбу со
спамом своей приоритетной задачей.
Яндекс научился находить документы не только в формате HTML, но и в
форматах RTF, PDF и DOC, а также заявил, что готов давать каждому жителю
страны по одному ответу в месяц - количество ответов Яндекса на поисковые
запросы превысило 147 миллионов.
На официальном сайте Президента России была запущена поисковая система
Яndex.Site.
По лицензии "Яндекса" был успешно проведен израильский Кубок по поиску в
интернете, организованный Яндексом и компаниями кабельного телевидения.
Летом служба Яндекс.Новости радикально преобразилась. Пользователям был
предложен совершенно новый и оригинальный сервис: автоматическое
объединение содержательно близких новостей в сюжеты и выделение главных тем
дня.
Яндекс в очередной раз изменил дизайн главной страницы и страницы выдачи
результатов поиска, но в этот пользователям была предоставлена возможность
протестировать новый дизайн до его окончательного внедрения и высказать
свое мнение.
В октябре прошел традиционный, четвертый по счету, розыгрыш Открытого Кубка
России по поиску в интернете.
Яндекс выпустил новую серию поисковых решений: Яndex.Server,
Яndex.Publisher и Яndex.SDK.
В ноябре служба автоматического размещения контекстных объявлений
Яндекс.Директ перешла на новую модель работы: оплату по кликам.
Яндекс открыл экспорт результатов поиска в формате XML.
Компании «1С», «Никита» и «Яндекс» запустили первую российскую онлайновую
многопользовательскую игру «Сфера».
6. Яндекс — 2004
2004 год принес компании «Яндекс» утроение рекламных оборотов. Основной
движущей силой стала поисковая реклама («Купи слова»), которая составила
80% оборота.
В этом году существенное внимание было уделено регионам. Проект
Яндекс.Города привлек много новых партнеров. Проведена «регионализация»
проектов — Новостей и Маркета. В 9 городах России прошло 10 семинаров
Яндекса, которые посетило более 1000 слушателей. 100 человек были
сертифицированы Яндексом как специалисты по интернет-рекламе.
Компания «Яндекс» приняла участие в создании Национального корпуса русского
языка и учредила научные стипендии в области автоматической обработки веб-
данных.
Поиск Яндекса научился понимать новые форматы файлов — PDF, DOC, RTF,
Flash, XLS и PPT. Среди новых сервисов стоит отметить поиск по Картам и
поиск по блогам и форумам.
На Яндекс.Почте внедрена защита от спама — Спамооборона и предложен
неограниченный размер почтового ящика.
Новый проект Яндекс.WiFi стимулировал развитие бесплатного беспроводного
доступа в интернет. За полгода Яндекс.WiFi стал крупнейшей сетью хот-спотов
России, к ней подключилось более 50-и участников.
7. Результаты поиска
После того, как вы задали запрос, Яндекс выведет список ссылок на
документы, наиболее точно ему соответствующие. На этой странице результатов
вы обнаружите некоторые специальные обозначения и ссылки, предназначенные
облегчить просмотр и сортировку найденных страниц. Ниже приведен общий вид
страницы результатов.
1. Поисковая форма. Главный ее элемент - строка запроса. При желании можно
искать только в результатах предыдущего поиска ("искать в найденном").
Можно также задать запрос по любому из источников информации ("Рунет",
"Новости", "Товары", "Энциклопедии", "Картинки").
2. Статистика поиска: число найденных документов и частота заданных в
запросе слов. По ссылке "страниц" можно перейти на несгруппированную по
серверам выдачу.
3. Рубрики каталога . По нажатию на ссылку происходит переход в
соответствующий раздел каталога (выводится только при точном соответствии
запросу).
4. Результаты поиска по вебу. Для каждого документа выдается следующая
информация: заголовок - ссылка на ресурс, [Показать найденные слова] -
переход на "подсвеченный" документ, в котором контекст запроса выделен
стрелочками, поиск похожего документа и, если найденный сайт описан в
каталоге, переход в рубрику каталога. Кроме этого, информация о размере,
кодировке и, дате документа, его URL.
5. Переход на следующие страницы результата. Сортировка по убыванию дат.
6. "Колдунщик запросов". Здесь даются советы и предложения по уточнению
вашего запроса. Можно сузить поиск по рубрике каталога или по региону.
7. Популярные находки наших пользователей - ссылки на документы (не с
первой страницы результатов!), выбранные пользователями по этому запросу
(выводится только при точном соответствии).
[pic]
8. Возможность поискать в других русскоязычных поисковых машинах.
9. Результат поиска в новостных лентах информационных агентств (выводится
только при точном соответствии запросу). При высоком соответствии и
актуальности эта секция может оказаться над результатами поиска по вебу.
10. Ссылки на прочие службы Яндекса.
11. Результат поиска в энциклопедических статьях (выводится только при
точном соответствии запросу).
12. Результат поиска в базе товарных предложений магазинов (выводится
только при точном соответствии запросу).
8. Советы по поиску в Яндексе
Проверяйте орфографию
Если поиск не нашел ни одного документа, то вы, возможно, допустили
орфографическую ошибку в написании слова. Проверьте правильность написания.
Если вы использовали при поиске несколько слов, то посмотрите на количество
каждого из слов в найденных документах (перед их списком после фразы
"Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего,
его вы и написали неверно.
Используйте синонимы
Если список найденных страниц слишком мал или не содержит полезных страниц,
попробуйте изменить слово. Например, вместо "рефераты" возможно больше
подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска
три-четыре слова-синонима сразу. Для этого перечислите их через
вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя
бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото
| фотоснимки".
Ищите больше, чем по одному слову
Слово "психология" или "продукты" дадут при поиске поодиночке большое число
бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с
искомой темой. Например, "психология Юнга" или "продажа и покупка
продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы
интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или
"автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые
автомобили".
Не пишите большими буквами
Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой
буквы, если это слово не первое в предложении. Поэтому не набирайте обычные
слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу.
Заглавные буквы в запросе рекомендуется использовать только в именах
собственных. Например, "группа Черный кофе", "телепередача Здоровье".
Найти похожие документы
Если один из найденных документов ближе к искомой теме, чем остальные,
нажмите на ссылку "найти похожие документы". Ссылка расположена под
краткими описаниями найденных документов. Яndex проанализирует страницу и
найдет документы, похожие на тот, что вы указали. Но если эта страница была
стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите
сообщение "Запрошенный документ не найден".
Используйте знаки "+" и "-"
Чтобы исключить документы, где встречается определенное слово, поставьте
перед ним знак минуса. И наоборот, чтобы определенное слово обязательно
присутствовало в документе, поставьте перед ним плюс. Обратите внимание,
что между словом и знаком плюс-минус не должно быть пробела. Например, если
вам нужно описание Парижа, а не предложения многочисленных турагентств,
имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур".
Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-
слова (наиболее частотные слова русского языка, в основном это местоимения,
предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос
"+быть или +не быть".
Попробуйте использовать язык запросов
С помощью специальных знаков вы сможете сделать запрос более точным.
Например, укажите, каких слов не должно быть в документе, или что два слова
должны идти подряд, а не просто оба встречаться в документе. (Описание
синтаксиса языка запросов)
Искать без морфологии
Вы можете заставить Яндекс не учитывать формы слов из запроса при поиске.
Например, запрос !иванов найдет только страницы с упоминанием этой фамилии,
а не города "Иваново".
Поиск картинок и фотографий
Яндекс умеет искать не только в тексте документа, но и отыскивать картинки
по названию файла или подписи. Для этого на первой странице yandex.ru
нажмите ссылку "расширенный поиск". Для поиска картинки предусмотрены два
поля. В поле "Название картинки" вписываются слова для поиска по названиям
картинок, обычно появляющихся, когда к картинке подводится курсор.
Например, название картинки "Венера" выдаст все страницы с картинками
Венеры (всего, что можно понимать под этим словом).
В поле "Подпись к картинке" вписывается название файла, содержащего
картинку. Например, запрос dog найдет в Интернете все картинки, в имени
файла которых встречается слово "dog". С большой вероятностью эти картинки
связаны с собаками.
Тонкий поиск
Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий
поиск. Для того, чтобы воспользоваться широким спектром возможностей,
используйте страницу "расширенный поиск", где большая часть настроек
Яндекса задается простым образом. Обратите внимание, что, при заполнении
нескольких полей, запрос будут составлен таким образом, чтобы все условия
выполнялись одновременно (через документное "И" - &&).
Если вас интересуют операторы языка запросов, обратитесь к странице
формального описания.
9. Расширенный поиск
Словарный фильтр
Здесь вы можете указать, какие слова обязательно должны встретиться в
документе, каких быть не должно, а какие желательны (то есть могут быть, а
могут не быть). Поле "все формы" или "точная форма" указывает Яндексу, надо
ли учитывать при запросе все словоформы. "Точная форма" обычно требуется
только для поиска цитат.
Зоной поиска слова может быть как текст документа (слова находятся в одном
предложении или всем документе), так и его заголовок, аннотация (тэг
description), ссылка (подпись URL) или адрес (сам URL). Вариант "во фразе"
означает необходимость искать слова в том порядке, в котором они введены.
Вы можете задать несколько слов через запятую.
Дата
Ограничение выдачи документов по дате. Документы с неизвестной датой в этот
список не включаются.
Сайт/вершина
Запрос идет только по страницам указанного сайта или поддиректории
(вершины) сайта. Поиск будет проведен среди всех поддиректорий. Здесь же (в
соседнем поле) вы можете исключить из поиска страницы определенного сайта.
Вы можете внести несколько адресов, перечислив их через пробел.
Таким образом, вы можете сделать поиск по своему личному сайту через Яндекс
- то есть ограничить поиск только вашим сайтом.
Ссылка
Как узнать, кто ссылается на ваш ресурс? Введите в этом поле адрес вашей
страницы, и вы это узнаете. Если адрес вашего сайта начинается с www, то
впишите его целиком, включая www. Здесь же вы можете исключить из поиска
страницы, где стоит ссылка на определенный адрес.
На основе этой возможности рассчитывается индекс цитируемости. Чтобы
исключить все внутренние ссылки (то есть с одних страниц вашего ресурса на
другие его страницы), используйте поле сайт/вершина и исключите ресурс из
поиска ссылок.
Изображение
Поиск документов, содержащих картинку с определенным названием или
подписью. Файл картинки может называться, например, applegreen.jpg. Тогда
найти такие файлы можно запросом: apple. Запрос аналогичен apple*.*. Для
поиска в подписи к изображению (тэг alt) впишите запрос в соседнее поле.
Специальные объекты
Поиск страницы, содержащих файлы объектов: скрипт, объект, апплет, java. В
поле указывается имя объекта.
Язык
Яндекс умеет определять язык документа. Вы можете задать язык документа,
где надо провести поиск: русский (кириллица) или не русский. В базе Яндекса
находятся только документы русскоязычного Интернета (по умолчанию в
поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz,
md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для
русскоязычного поиска.
Формат выдачи
"Краткая выдача" показывает только список заголовков документов. "Только
URL" - только адреса найденных страниц.
10. Детальное описание языка запросов
Как трактуются слова
Независимо от того, в какой форме вы употребили слово в запросе, поиск
учитывает все его формы по правилам русского языка.
Например, если задан запрос 'идти', то в результате поиска
будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел',
'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово
'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'.
Если вы набрали в запросе слово с большой буквы, будут найдены только слова
с большой буквы (если это слово не первое в предложении), в противном
случае будут найдены как слова с большой, так и с маленькой буквы.
Например, по запросу 'путина' найдется и президент, и сезон
интенсивного рыболовства. А по запросу 'Путина' - президент и те случаи
упоминания рыболовного сезона, когда он написан с большой буквы (например,
если с него начинается предложение).
По умолчанию поиск учитывает все формы заданного слова согласно правилам
русского языка. Однако существует возможность поиска по точной словоформе,
для этого перед словоформой надо поставить восклицательный знак '!'.
Так по запросу '!Лужкову' будут найдены все документы,
содержащие словоформу 'Лужкову', а по запросу 'Лужков ~~ !Лужкову' -
документы, в которых упоминается Лужков, кроме тех, которые были найдены по
первому запросу.
Естественно-языковый поиск
Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были
найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие-
либо слова из результата поиска, поставьте перед каждым из них "-".
Например, запрос 'частные объявления продажа велосипедов',
выдаст много ссылок на сайты с разнообразными частными объявлениями. А
запрос с "+" 'частные объявления продажа +велосипедов' покажет объявления о
продаже именно велосипедов.
Если вам нужно описание Парижа, а не предложения многочисленных
турагентств, имеет смысл задать такой запрос 'путеводитель по парижу
-агентство -тур'
Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак
"-" надо писать через пробел от предыдущего и слитно с последующим словом,
вот так: 'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак -
гороскоп', то знак "-" будет проигнорирован.
11. Основные операторы
Несколько набранных в запросе слов, разделенных пробелами, означают, что
все они должны входить в одно предложение искомого документа. Тот же самый
эффект произведет употребление символа '&'.
Например, при запросе 'лечебная физкультура' или 'лечебная &
физкультура'), результатом поиска будет список документов, в которых в
одном предложении содержатся и слово 'лечебная', и слово 'физкультура'.
(Эквивалентно запросу '+лечебная +физкультура')
Между словами можно поставить знак '|', чтобы найти документы, содержащие
любое из этих слов. (Удобно при поиске синонимов).
Запрос вида 'фото | фотография | фотоснимок | снимок |
фотоизображение' задает поиск документов, содержащих хотя бы одно из
перечисленных слов.
Еще один знак, тильда '~', позволит найти документы с предложением,
содержащим первое слово, но не содержащим второе.
По запросу 'банки ~ закон' будут найдены все документы,
содержащие слово 'банки', рядом с которым (в пределах предложения) нет
слова 'закон'.
Чтобы подняться на ступеньку выше, от уровня предложения до уровня
документа, просто удвойте соответствующий знак. Одинарный оператор (&, ~)
ищет в пределах предложения, двойной (&&, ~~) - в пределах документа.
Например, по запросу 'рецепты && (плавленый сыр)' будут найдены
документы, в которых есть и слово 'рецепты' и словосочетание '(плавленый
сыр)' (причем '(плавленый сыр)' должен быть в одном предложении. А запрос
'руководство Visual C ~~ цена' выдаст все документы со словами 'руководство
Visual C', но без слова 'цена'
Поиск с расстоянием
Часто в запросах ищут устойчивые словосочетания. Если поставить их в
кавычки, то будут найдены те документы, в которых эти слова идут строго
подряд.
Например, по запросу "красная шапочка" будут найдены документы
с этой фразой. (При этом контекст "а шапочка у нее была красная" найден не
будет.)
Как Яndex адресует слова? Если все слова в тексте перенумеровать по порядку
их следования, то расстояние между словами a и b - это разница между
номерами слов a и b. Таким образом, расстояние между соседними словами
равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том
порядке", равно -1. То же самое относится и к предложениям.
Если между двумя словами поставлен знак '/', за которым сразу напечатано
число, значит, требуется, чтобы расстояние между ними не превышало этого
числа слов.
Например, задав запрос 'поставщики /2 кофе', вы требуете найти
документы, в которых содержатся и слово 'поставщики' и слово 'кофе', причем
расстояние между ними должно быть не более двух слов и они должны
находиться в одном предложении. (Найдутся "поставщики колумбийского кофе",
"поставщики кофе из Колумбии" и т.д.)
Если порядок слов и расстояние точно известны, можно воспользоваться
пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд.
Запрос 'синяя /+1 борода' означает, что слово 'борода' должно
следовать непосредственно за словом 'синяя'. (К тому же результату приведет
запрос "синяя борода")
В общем виде ограничение по расстоянию задается при помощи пунктуации вида
'/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние.
Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n'
эквивалентна '/(+n +n)'.
Запрос 'музыкальное /(-2 4) образование' означает, что
'музыкальное' должна находиться от 'образование' в интервале расстояний от
2 слов слева до 4 слов справа.
Практически все знаки можно комбинировать с ограничением расстояния.
Например, результатом поиска по запросу 'вакансии ~ /+1
студентов' будут документы, содержащие слово 'вакансии', причем в этих
документах слово 'студентов' не следует непосредственно за словом
'вакансии'.
Когда знаки ограничения по расстоянию стоят после двойных операторов, то
употребленные там числа - это расстояние не в словах, а в предложениях.
Расстояние в абзацах определяется аналогично расстоянию в словах.
Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно
находиться в том же самом, либо в соседнем со словом 'банк' предложении.
Скобки
Вместо одного слова в запросе можно подставить целое выражение. Для этого
его надо взять в скобки.
Например, запрос '(история | технология | изготовление) /+1
(сыра | творога)' задает поиск документов, которые содержат любую из фраз
'история сыра', 'технология творога', 'изготовление сыра', 'история
творога'.
Поиск в зонах
Можно искать информацию в "зонах" - заголовках (имя "зоны": Title), ссылках
(имя "зоны": Anchor) и адресе (имя "зоны": Address).
Синтаксис: $имя_зоны (поисковое выражение).
Запрос '$title CompTek' ищет в заголовках документов слово
'CompTek'.
Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри
которых есть одно из слов 'CompTek' или 'Dialogic'.
Поиск в определенных элементах
Можно ограничить поиск информации списком серверов или наоборот исключить
сервера из поиска (url). Можно также искать документы, содержащие ссылки на
определенные URL (link), и файлы картинок (image). Если вы хотите работать
не с конкретным URL (image), а со всеми, начинающимися с данной
последовательности символов, используйте "*".
Синтаксис: #имя_элемента="имя_файла (URL)".
По запросу 'CompTek ~~ #url="www.comptek.ru*"' будут искаться
упоминания компании 'CompTek' везде, кроме ее собственного сервера
(www.comptek.ru). А запрос '#link="www.comptek.ru*"' покажет все документы,
которые сослались на сервер компании.
Запрос ' #image="tort*"' даст ссылки на документы с изображениями тортов
(хотя, возможно, найдется и портрет черепахи Тортиллы).
Можно также искать по ключевым словам (keywords), аннотациям (abstract) и
подписям под изображениями (hint).
Синтаксис: #имя_элемента=(поисковое выражение).
Запросу '#keywords=(поисковая система) | #abstract=(поисковая
система)' будут искаться все страницы, в meta тегах которых есть эти слова.
По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с
такой подписью.
Ранжирование результата поиска
При поиске для каждого найденного документа Яндекс вычисляет величину
релевантности (соответствия) содержания этого документа поисковому запросу.
Список найденных документов перед выдачей пользователю сортируется по этой
величине в порядке убывания. Релевантность документа зависит от ряда
факторов, в том числе от частотных характеристик искомых слов, веса слова
или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Пользователь может повлиять на порядок сортировки, используя операторы веса
и уточнения запроса.
Задание веса слова или выражения применяется для того, чтобы увеличить
релевантность документов, cодержащих "взвешенное" выражение.
Синтаксис: слово:число или (поисковое_выражение):число
По запросу 'поисковые механизмы:5' будут найдены те же
документы, что и по запросу 'поисковые механизмы'. Разница состоит в том,
что наверху списка найденного окажутся документы, где чаще встречается
именно слово 'механизмы'.
Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу
'поисковые (механизмы:5 | машины:5 | аппараты:5)'.
Задание уточняющего слова или выражения применяется для того, чтобы
увеличить релеватность документов, cодержащих уточняющее выражение.
Синтаксис: ), описания (тэг ) или начала документа (если этого тэга нет) и контекстов -
фрагментов вашего текста, содержащих слова запроса. Если страница не
находится по тем словам, по которым вам бы хотелось, или находится не в
первых рядах списка, обратите внимание на нижеследующие советы.
Если же речь идет о каталоге Яндекса, то все описания в нем делаются
составителями (гидами) по строгим инструкциям. Так, например, запрещены
тексты рекламного характера, слова «самый», «главный», «уникальный»,
прилагательные в превосходных степенях и т.дю
13. Индексирование
Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует.
В процессе этого страница разбивается на элементы (текст, заголовки,
подписи к картинкам, ссылки и так далее), содержание которых заносится в
индекс. При этом учитываются позиции слов, то есть их положение в документе
или его элементе. Сам документ в базе не хранится.
Яндекс создает очень компактный индекс.
Индексирование документов
Правила индексации в машине Яндекс
Яндекс индексирует страницы по их истинным адресам. Это значит, что, если
на странице стоит redirect, робот воспримет его как ссылку на новый адрес и
внесет ее в очередь на индексирование (если она удовлетворяет описанным
выше правилам). То же самое произойдет, если в одном из фреймов будет
стоять ссылка на другой сервер. В частности, если эта ссылка находится вне
доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.
Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее
изменения (присланную Web-сервером) и дату внесения последних изменений в
базу поиска (дату индексации). Он оптимизирует обход Сети таким образом,
чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает
автоматически и обычно переиндексация происходит раз в две-три недели.
Изменения уже проиндексированных страниц робот Яндекс отслеживает
самостоятельно при следующем заходе на сайт. У робота свой график работы и
изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как
.
Яндекс индексирует документ полностью: текст, заголовок, подписи к
картинкам, описание (description), ключевые слова и некоторую другую
информацию.
Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из
файла robots.txt, находящегося в корневом каталоге сервера. Запрет на
индексацию ряда страниц может появиться, например, из соображений
секретности или из желания не индексировать одинаковые документы в разных
кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому
запретите в файле robots.txt все документы, которые не имеет смысла
индексировать (например, файлы статистики или списки файлов в директориях).
Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует
их наравне с другими документами.
В простейшем виде (разрешено все, кроме директории скриптов) файл
robots.txt выглядит следующим образом:
User-Agent: *
Disallow: /cgi-bin/
Детальное описание спецификации файла можно прочитать на странице:
«Стандарт исключений для роботов».
При написании robots.txt обратите внимание на следующие часто встречающиеся
ошибки:
Строка с полем User-Agent является обязательной и должна предшествовать
строкам с полем Disallow. Так, приведенный ниже файл robots.txt не
запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum
Пустые строки в файле robots.txt являются значимыми, они разделяют записи,
относящиеся к разным роботам. Например, в следующем фрагменте файла
robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет
строки с полем User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum
Строка с полем Disallow может запретить индексирование документов только с
одним префиксом. Для запрета нескольких префиксов нужно написать несколько
строк. Например, нижеприведенный файл запрещает индексирование документов,
начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а
не документов с префиксами “/cgi-bin” и “/forum”).
User-Agent: *
Disallow: /cgi-bin /forum
В строках с полем Disallow записываются не абсолютные, а относительные
префиксы. То есть файл:
User-Agent: *
Disallow: www.myhost.ru/cgi-bin
запрещает, например, индексирование документа
http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,
но НЕ запрещает индексирование документа
http://www.myhost.ru/cgi-bin/counter.cgi.
В строках с полем Disallow указываются именно префиксы, а не что-нибудь
еще. Так, файл:
User-Agent: *
Disallow: *
запрещает индексирование документов, начинающихся с символа «* » (которых в
природе не существует), и сильно отличается от файла:
User-Agent: *
Disallow: /
который запрещает индексирование всего сайта.
Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно
— достаточно добавить дополнительный тег в HTML-код вашей страницы
(внутри тега ):
Тогда данный документ также не будет проиндексирован.
Вы также можете использовать тэг
Он означает, что робот поисковой машины не должен идти по ссылкам с данной
страницы.
Для одновременного запрета индексирования страницы и обхода ссылок с нее
используется тэг
Как запретить индексацию определенных частей текста?
Чтобы запретить индексирование определенных фрагментов текста в документе,
пометьте их тегами
.
Как выбрать главный виртуальный хост из нескольких зеркал?
Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем
мире под разными именами (зеркала, разные виртуальные хосты), Яндекс
рекомендует вам выбрать то имя, под которым вы хотите быть
проиндексированы. В противном случае Яндекс выберет главное зеркало
самостоятельно, а остальные имена будут запрещены к индексации.
Для того, чтобы индексировалось выбранное вами зеркало, достаточно
запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно
сделать, используя нестандартное расширение robots.txt — директиву Host, в
качестве ее параметра указав имя основного зеркала. Если www.glavnoye-
zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так:
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru
В целях совместимости с роботами, которые не полностью следуют стандарту
при обработке robots.txt, директиву Host необходимо добавлять в группе,
начинающейся с записи User-Agent, непосредственно после записей Disallow.
Аргументом директивы Host является доменное имя с номером порта (80 по
умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в
качестве аргумента для Host, для него подразумевается наличие директивы
Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы
одной корректной директивы Host). Таким образом, файлы robots.txt вида
User-Agent: *
Host: www.myhost.ru
и
User-Agent: *
Host: www.myhost.ru:80
эквивалентны и запрещают индексирование как www.otherhost.ru, так и
www.myhost.ru:8080.
Параметр директивы Host обязан состоять из одного корректного имени хоста
(т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого
номера порта. Некорректно составленные строчки Host игнорируются.
# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Если у вас сервер Apache, то можно вместо использования директивы Host
задать robots.txt с использованием директив SSI:
User-Agent: *
Disallow: /
В этом файле роботу запрещен обход всех хостов, кроме
www.главное_имя.ru.
Как включать SSI, можно прочесть в документации по вашему серверу или
обратиться к вашему системному администратору. Проверить результат можно,
просто запросив страницы:
http://www.главное_имя.ru/robots.txt
http://www.другое_имя.ru/robots.txt
и т.д. Результаты должны быть разные.
Рекомендации для веб-сервера Русский Apache
В robots.txt на сайтах с русским апачем должны быть запрещены для роботов
все кодировки, кроме основной.
Если кодировки разложены по портам (или серверам), то надо выдавать на
разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах
robots.txt для всех портов/серверов, кроме «основного», должно быть
написано:
User-Agent: *
Disallow: /
Для этого можно использовать механизм SSI, описанный выше.
Если кодировки в вашем Apache выделяются по именам «виртуальных»
директорий, то надо написать один robots.txt, в котором должны быть
примерно такие строчки (в зависимости от названий директорий):
User-Agent: *
Disallow: /dos
Disallow: /mac
Disallow: /koi
Как выяснить, что Yandex проиндексировал на моем сервере?
Подставьте ваш ресурс в форму на странице AddURL.
Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в
нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь
он добавлен и будет проиндексирован в ближайшее время.
Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex.
Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще
пару дней.
Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете
посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к
настоящему времени», то, нажав на ссылку со слов «проиндексированы в
Яndex.Ru», вы получите весь список документов вашего ресурса,
проиндексированных в нашей поисковой машине.
Заключение
Принято считать, что в Интернете есть все и на любой вкус. Если сравнить
его с городом, то в нем можно найти дворцы и лачуги, музеи и бары, и,
конечно, улицы.
Роль улицы выполняют, в частности, Интернет-ресурсы «для взрослых». И, как
и в реальной жизни, многие хотят защититься сами и оградить своих детей от
влияния улицы. Чтобы помочь тем, кому это актуально, мы сделали "Семейный"
Яндекс. Делая запрос в "Семейном" Яндексе, вы не найдете мата и
порнографии, то есть ничего, что не разрешено «детям до 16».
Воспользоваться этим можно двумя способами - во-первых, задавать запрос не
на www.yandex.ru, а на family.yandex.ru . Во-вторых, настроить свой браузер
- тогда даже при работе с обычным Яндексом "взрослые" ресурсы будут
отфильтрованы.
В опросе на тему «Ваше отношение к Интернет-ресурсам "для взрослых"»,
проведенном на Yandex.Ru, 15% ответило, что эти ресурсы "раздражают" и
"отвлекают", из них 2% - что "из-за них не пускаю детей в Сеть". Раздражает
обычно то, что человек находит мат и порнографию, совершенно на это не
рассчитывая, при абсолютно "нормальных" запросах.
Сегодня фильтр строится полуавтоматически - в него включаются «взрослые»
сайты, а также все страницы, содержащие «нехорошие» слова. Если,
воспользовавшись фильтром, вы, тем не менее, найдете «нехорошую» страницу,
пожалуйста, пришлите нам URL на адрес webadmin@yandex.ru. Мы рассчитываем
на широкое сотрудничество в этой области с добровольцами, в первую очередь
из числа родителей и учителей.
Использованные ресурсы:
http://yandex.ru
http://forum.yandex.ru
http://xml.yandex.ru
http://dzen.yandex.ru
http://www.ya.ru
|