Основные цифры и фактыПо данным поиска Яндекса, общая поисковая активность мужчин и женщин практически не различается — она совпадает с активностью всех пользователей Яндекса в среднем. Мужчины тратят на поиск немного меньше времени, чем женщины.Основные различия между поисковым поведением мужчин и женщин — в самих поисковых запросах.Мужские запросы к Яндексу немного короче женских — в среднем 3,2 и 3,5 слова соответственно. Ошибки в запросах немного чаще делают мужчины — в 12% запросов, а женщины — в 11%.Названия цветов чаще встречаются в женских запросах, чем в мужских (в 0,5% и 0,3% запросов соответственно). Самые популярные цвета у представителей обоих полов — красный, белый и чёрный. Самый «женский» цвет — коричневый, а самый «мужской» — синий.Женщины чаще, чем мужчины, добавляют в запросы названия городов (в 3,7% и 2,9% запросов соответственно). По данным поиска Яндекса, и мужчинам, и женщинам одинаково нужны банки, рестораны и учебные заведения. У мужчин сильнее интерес к вокзалам, такси и автосервисам, а у женщин — к фитнес-центрам, больницам и государственным организациям.Мужчины чаще женщин используют в запросах числа (в 15% и 9% запросов соответственно). У мужчин это в первую очередь артикулы различных товаров, а у женщин — даты и разнообразные номера. Числа в женских запросах часто обозначают вещи, связанные с детьми,— номера детских садов, школ и классов в школе, а также возраст детей.Латиница присутствует почти в трети мужских запросов и всего в 13% женских. Мужчины на латинице ищут бренды и софт. Среди женских запросов на латинице около 40% составляют адреса сайтов, по ошибке введенные в поисковую строку, и запросы, набранные в неправильной раскладке клавиатуры.Мужчины чаще, чем женщины, спрашивают Яндекс об ИТ и компьютерных играх, а женщины чаще, чем мужчины,— об отношениях между людьми, детях и поиске работы. Среди предметов мужчин больше всего интересует электроника, а женщин — одежда и аксессуары.Мужчины чаще ищут материалы, чтобы самостоятельно решить ту или иную проблему — например, спрашивают про документацию и отзывы о товарах и организациях. Женщины склонны искать в интернете готовые ответы на вопросы — они чаще задают запросы, которые требуют однозначного ответа, а документацией и отзывами интересуются реже. | |
Приложение. Автоматическое определение пола пользователейЯндекс определяет пол пользователей автоматически — с помощью технологии машинного обучения Матрикснет. Объяснить, как она работает, можно на примере.Если показать человеку несколько белых предметов, он поймёт, что значит «белый», и сможет находить белые предметы среди множества вещей разных цветов. Ему не помешает, что среди предметов, по которым он учился, некоторые были круглыми и мягкими, некоторые — квадратными и твёрдыми, некоторые — жидкими, а некоторые — сыпучими. Человек поймёт, что в данном случае эти характеристики неважны, а обратит внимание только на цвет. | |
Примерно так же учится и компьютер, только он может обрабатывать гораздо больше разных факторов за гораздо меньшее время. То есть он может проклассифицировать много объектов с учётом многих параметров. Например, Матрикснет используется в ранжировании результатов поиска1.Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей (при этом он учёл «белое», «твёрдое» — отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это — похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своём решении. Примерно так: «Я уверен на 92%, что это женщина». |