info@alextop.ru +7 (473) 258-56-65


Как функционирует алгоритм «Палех»

В ноябре 2016 года был запущен новый поисковый алгоритм «Палех», который оказывает существенную помощь системе Яндекс, досконально распознавая запросы людей. Алгоритм занимается поиском информации по ключевым словам и смысловому содержанию набранного задания. Сочетание смысловых сведений и документальной базы осуществляется благодаря поисковой модели, функционирующей на базисе нейронных сетей.

«Длинный хвост»

 

algiritm-palekh

Ежедневно поисковая машина Яндекс обрабатывает около 280 миллионов запросов: некоторые слова вводятся практически ежесекундно, другие отличаются уникальностью и могут больше никогда не повториться. Количество редких запросов насчитывает около 100 миллионов фраз за одни сутки.

Частотное выражение запросов в Яндексе ассоциируется с птицей, состоящей из клюва, тела и длинного хвоста. Клюв животного представляет список популярных запросов, запросы средней частотности складываются в торс. Редко запрашиваемые слова занимают значительную часть поискового ресурса и формируют длинный хвост. Алгоритм «Палех» предназначен для анализа обособленных запросов из хвоста птицы. Название программы посвящено палехской миниатюре, на которой изображена сказочная жар-птица с огромным разноцветным хвостом.

Разнообразие вводимых слов


Разновидности запросов позволяют объединить вводные ключевые слова в несколько категорий:

 

 

Вводимые слова из хвоста птицы предполагают сложный процесс поиска системы Яндекс, многократно запрашиваемые фразы являются основной массой пользовательской статистики. Релевантность результатов зависит от накопленных сведений поисковой базы, сформированной с учетом запросов и действий пользователей, существующих страниц порталов. Редкие запросы не сопровождаются поведенческим расчетом, поэтому Яндексу трудно выбрать наиболее подходящий ответ, открыть необходимую страницу. Сложность процесса поиска определяется несоответствием релевантной страницы с вводными словами. Смысловая информация может содержать различные слова и фразы на страницах и в поисковой строке.

 

Для быстрого нахождения нужного результата запросов из длинного хвоста были привлечены нейронные сети, на основе которых работает алгоритм «Палех».

Искусственные нейронные сети


Нейронная сетевая система представляет собой тип машинного обучения, набирающий популярность благодаря идеальному анализу естественной информации, состоящей из звуковых и текстовых файлов, качественных изображений. Нейронная сеть подвергается процедуре обучения с целью распознавания определенных объектов на картинках. В систему закладывается множество положительных картинок с нужным объектом и такое же количество отрицательных изображений без него. Таким способом нейронный ресурс приобретает способность распознавать заданную информацию на всех предоставляемых изображениях.


Рассмотрим работу системы при поиске текстовых запросов и названий веб-порталов. Обучение нейронной системы происходит с соблюдением правил показа положительных и отрицательных примеров, состоящих из сочетания запроса и заголовка. Примеры комплектуются с учетом аналитической статистики, накопленной за многие годы функционирования поисковой машины Яндекс. Нейросеть привыкает к пользовательскому поведению и начинает понимать человеческий язык.


Компьютерные средства и программы рассчитаны на работу с числовыми символами, что приводит к сравнению веб-страниц и запросов с числовыми выражениями. Нейронная система была обучена мгновенному переводу существующих в Яндексе заголовков в числовые группы, состоящие из 300 единиц каждая. Вся документальная база и информационные данные Яндекса преобразовались и приобрели координаты в 300-мерном пространственном поле.


Воображение человека не позволяет представить данную систему координат, поэтому можно свести нахождение данных в поисковом поле к обычной координате из двух осей. Каждая страница соизмеряется с двумя числами и представляет собой определенную точку в координатном пространстве сети Интернет.

Семантический вектор


Текстовые символы в поисковой строке также переводятся в набор чисел, благодаря чему запрос рассредоточивается в едином координатном пространстве с название веб-страниц. Процентная вероятность совпадения их цифровых значений определяет сложность поиска и выдачу достоверной информации.


Данный способ обработки вводимого запроса, сопоставимого с вероятными ответами, получил название семантического вектора. Инновационный метод идеально подходит для поиска слов и фраз, находящихся в длинном хвосте птицы. Семантические векторы оптимально сопоставляются с низкочастотными запросами, имеющими низкую пользовательскую статистику. Представление вводного слова и выдаваемой страницы в виде вектора 300-мерного пространства показывает их соответствие даже при отсутствии общих слов.


Разработанный семантический вектор начал применяться всего несколько месяцев назад, ежедневно происходит преобразование внутренних нейронных моделей. Информация об обучении нейронной системы и преобразовании информации в векторные координаты размещена в блогах Яндекса, посвященных этому открытию.

Прогрессивное развитие семантического вектора


Применение семантического вектора осуществляется в поисковой машине Яндекс, других сервисных программах. К примеру, в картинках вектор находит изображения, максимально соответствующие заданному параметру.


В основе программной технологии заложен большой потенциал, который позволит в дальнейшем переводить в числовые координаты не только наименования страниц, но и большие текстовые документы. Семантический вектор может быть использован для личного профиля в социальных сетях, переходов по указанным ссылкам и предыдущих ключевых запросов. Нейронные сети смоделированы специально для того, чтобы научить компьютер понимать человека на уровне разговорного языка, что приведет к 100% точности выдачи информации поискового Яндекса.

 

Читайте также — Обновление алгоритма Владивосток