Bestmatch и другие релевантности

 

Best match

В любой поисковой системе, в том числе и при поиске на фотобанках основной сортировкой является релевантность.


В отличии от сортировок по новизне или другим параметрам, в сортировке по релевантности происходит сложный расчет множества параметров, чтобы пользователю предоставить наиболее подходящую под его запрос выдачу. Секреты расчета никто не публикует, но работая в этой области, наблюдая за поведением работ как своих так и конкурентов, их позиций относительно друг друга, можно попытаться подробно описать алгоритмы поисковой выдачи чем я и займусь в этой статье.

 

Рассмотрим релевантность на каждом из фотобанков в отдельности:

Relevance на фотобанке Fotolia

Прежде всего обратимся к FAQ самой фотолии, где написано: ...search by relevance (relevance to your keyword), price, date of upload, number of views, popularity (ratio of purchases to image views)... из чего можно сделать вывод, что релевантность для каждого ключевого слова рассчитывается отдельно, кроме того открыто сказано что в сортировке по популярности основой является соотношение просмотров к продажам.

 

Из других источников стало известно что первичную "силу" ключевого слова мы можем установить сами при загрузке, поставив это слово в списке кейвордов наверх, повышенную силу имеют 7 верхних кейвордов. Позже, по результатам нахождения фотографии в базе, релевантность слова меняется и может как повышаться так и уменьшаться в зависимости от предпочтений покупателей. Технически воплотить такое поведение не очень сложно, поэтому скорее всего так и есть. Поэтому не имеет смысла при загрузке ставить наверх спамные слова не подходящие под изображение.

 

Что нужно сделать чтобы попасть повыше в этой сортировке на fotolia? Правильно - определить самые "продающие" для данного изображения ключевые слова и поставить их при загрузке изображения наверх.

 

Relevancy на Dreamstime

По словам самого дримстайма расчет выдачи по релевантности имеет очень сложный алгоритм и в него входит множество факторов, некоторые из которых они озвучили, а именно на релевантность влияют:

  • Качество изображения. Под этим понятием чаще всего подразумевается размер в мегапикселях, т.к. это технический параметр, а программно определить другие параметры качества нереально. Так что чем больше, тем лучше.
  • Эксклюзивность. Ну тут все понятно - если файл эксклюзивен для дримстайма, то его выдача более релевантна.
  • Мнение инспектора. Не секрет, что на дримстайме инспектор может поставить флаг "Editors choice", вот он и влияет положительно на поисковую выдачу. К сожалению знакомых инспекторов дримстайма пока не наблюдается, а ведь возможно при приемке работы в базу происходит и какая-либо оценка изображения.
  • Производительность автора (performance of the contributor). Предполагается что под данным пунктом имеется ввиду процент приемки и общее количество продаж автора, но возможно что учитывается соотношение размера портфолио к количеству продаж.
  • Мнение покупателей. При поиске мы можем наблюдать красный флаг у каждого изображения, нажав на который можно сообщить о нерелевантной выдаче данного изображения текущему поисковому запросу. Именно этими флагами покупатели и двигают позиции в поисковой выдаче.

Кроме этих озвученных факторов на выдачу обязательно влияет ценовой уровень фотографии.

 

Получается, что повышенную релевантность получит более большая по размерам фотография, получившая выбор редакции и загруженная эксклюзивно на фотобанк dreamstime автором со хорошей приемкой, большим количеством продаж. Но самое большое влияние на позиции в поиске окажут покупатели, либо повысив релевантность купив изображение, либо понизив поставив красный флаг.

 

Most popular на Shutterstock

Основной сортировкой на shutterstock является сортировка "most popular" (самые популярные). Шаттерсток вообще отличается простотой и в релевантном ранжировании тоже решил поступить просто, но как оказывается при пристальном рассмотрении тем самым они очень точно поддерживают свою политику продаж по подписке. Ведь покупатель, которому необходимо потратить лимит на покупку, не всегда хочет смотреть на одно и тоже изображение даже в сортировке по популярности.

 

Итак, сортировка по популярности на шаттерстоке считается просто - это соотношение количества продаж ко времени нахождения фотографии в базе. Но поскольку в первые дни у работы могут произойти очень активные продажи, существует коэффициент приглушения действующий в течении нескольких первых дней, а возможно обратно пропорциональный времени нахождения в базе, т.е. со временем сам коэффициент утухает.

 

Для примера рассмотрим такой график продаж одной фотографии: первый день 16 продаж, второй 12, третий 10, далее 8, 8, 8, 8, 8 и т.д. Впринципе потенциал и популярность фотографии это 8 продаж в день, но чтобы фотобанку понять это необходимо было приглушить продажи в первые дни. А глушил он их в первый день коэффициентом 2, во второй 1.5, в третий 1.25 и далее 1, т.е. произошло выравнивание 8, 8, 8, 8 и т.д. таким образом мы имеет точное выявление потенциала фотографии. Это конечно очень идеализированный пример.

 

Великий и ужасный бестматч (Best Match)

Великий и ужасный Best matchВот и подошли к самому спорному и таинственному в кругах микростокеров поисковому алгоритму - бестматчу на istockphoto. На самом деле вся шумиха вокруг БМ связана с его частым изменением. Постоянно поисковая выдача скачет и меняет доходы разных стокеров как в одну так и в другую сторону, а такие изменения вызывают как положительные эмоции так и обоснованный гнев на разработчиков этого поискового алгоритма. Самое популярное высказывание у нас это "формула бестматча", именно ее в конечном итоге мы и попытаемся вывести.

 

Факторы влияющие на бестматч:

  • Популярность работы среди покупателей.
  • Эксклюзивность.
  • Размер.
  • Давность нахождения в базе.
  • Соответствие поисковому запросу.

Знакомо? Правильно, мало чем отличается от релевантности дримстайма.

 

Поскольку сам бестматч это численное значение, его вычисление происходит по формуле, которая постоянно пересчитывается и происходят подвижки в поисковой выдаче. А сама выдача строится просто - у кого число больше, тот и стоит выше. Каждое влияющее значение в формуле это коэффициент, вычислить который доподлинно невозможно, но это и не требуется. Соответствие ключевому слову в выдаче тоже определяется коэффициентом, который постоянно меняется в зависимости от продаж.

 

Основой и самым важным фактором является популярность среди покупателей, которая определяется самым важным фактором - соотношением просмотров к продажам, т.е. чем больше фотографию купят посмотрев ее при этом поменьше раз тем лучше. Например 500 просмотров при 100 продажах означает что покупали изображение каждый пятый просмотр. У коэффициента имеется предел и при определенных условиях его влияние может просто затухнуть. Например фотографии попавшие в "фото недели" как правило имеют просто огромное количество просмотров, при этом не особо большое количество продаж, на них явно перестает действовать этот коэффициент, т.к. по бестматчу они не валятся. Возможно это решается вывешиванием на фотографию флага, говорящего о том, что данным соотношением необходимо пренебречь, такими флагами могут быть - "фото/вектор и т.д. недели", "фри фото/вектор и т.д. недели".

 

Также важное значение имеет ключевое слово, введенное в поисковый запрос. Релевантность ключевому слову считается достаточно просто - если покупатель вышел на вашу работу по определенному запросу и купил ее, то значимость этого слова повышается.

 

Понижающим коэффициентом является время, чем дольше фотография в базе, тем ниже ее бестматч. Но значимость времени не особо важна.

 

Размер изображения тоже имеет значение (для вектора кстати это не размер, это цена), но влияние размера было очень сильно приглушено если мне не изменяет память в начале 2009 года, после долгих дискуссий на форуме, когда массы возмущались тем, что большинство запросов завалены 3d изображениями больших размеров.

Формула бестматча получается такой:

БМ = КЗЗ • БЗ • КР • ПКВ • КСПП • ККПМ • КОКП • КЭ • КНВ

 

Расшифровка:

БМ - бестматч

КЗЗ - коэффициент значимости запроса (введенный поисковый запрос).

БЗ - базовое значение бестматча, которое неизменно и присваивается по типу работы. Для вектора одно, для фото другое, для видео третье и т.д. Именно изменением этого параметра можно выдвигать например видео, при прочих равных параметрах, выше фото и векторов.

КР - коэффициент размера

ПКВ - понижающий коэффициент времени

КСПП - коэффициент соотношения просмотров к продажам

ККПМ - коэффициент количества продаж в месяц

КОКП - коэффициент общего количества продаж

КЭ - коэффициент эксклюзивности

КНВ - коэффициент наличия в Ветта коллекции

 

Получилось 9 факторов влияния, на самом деле факторов больше, но их значимость в любом случае не такая высокая как у этих девяти. Возможны влияния: рейтинга и общего количества оценок, наличия в лайтбоксах, покупок по определенным размерам, процент приемки, канистра и т.д. Для самого сервера айстока вычисление и пересчет бестматча по формуле такого типа не составит особого труда даже для нескольких миллионов работ.

 

Коэффициент значимости запроса при нулевом запросе равен единице, именно поэтому находясь в своем портфолио вы не видите влияний ключевых слов. Ползунок в настройках поиска напрямую влияет на этот коэффициент, что очень даже логично.

 

Рассмотрим на примере:

У вас приняли 2 фотографии с одинаковыми ключевыми словами. Одна имеет размер 12МП, вторая кропнутая до 10МП. Вы эксклюзивщик и вторую фотографию приняли в Ветта коллекцию. При попадании в базу:

 

БМ фото№1 = 1*1000*1*1*1*1*1*1.25*1 = 1250

БМ фото№2 = 1*1000*0.95*1*1*1*1.25*1.25 = 1485

 

В результате в портфолио вторая фотография встанет немного выше первой, в основном за счет наличия в Ветта коллекции. Кстати вполне возможно, что для упрощения расчетов считается не наличие/отсутствие, а просто напросто максимальная цена, потому что для вектора например размер отсутствует, а действует коэффициент цены, т.е. чем дороже вектор тем выше его бестматч по дефолту.

 

В течении месяца фото№1 купили 10 раз, посмотрели 100 раз, все 10 раз купили по запрос№1. Фото№2 купили 3 раза, по запросу№1, №2, №3, посмотрели 200 раз. В результате внутри портфолио (без учета ключевых слов) бестматч будет такой:

 

БМ фото№1 = 1*1000*1*0.995*1*1.1*1.1*1.25*1 = 1505

БМ фото№2 = 1*1000*0.95*0.995*0.9*1.03*1.25*1.25 = 1370

 

Результат такой - первая фото обошла по бестматчу вторую, вторая стала даже ниже чем была сразу после приемки, но при этом выше чем встают новые не Ветта картинки. Вторая фото потеряла БМ за счет плохого соотношения просмотров к продажам, первая наоборот за счет хорошего приподняла БМ.

 

Теперь пользователь вводит запрос№1:

 

БМ фото№1  = 1505*2 = 3010

БМ фото№2 = 1370*1.33 = 1822

 

Это результат того, что фото№1 покупали по запросу№1, и этот запрос усилен. Вторую фотку тоже покупали по этому запросу, он тоже усилен, но в меньшей степени.

 

Естественно все коэффициенты вымышлены и мало того, их постоянно меняют, стараясь прийти к компромиссу. Бывалые помнят что год назад был период когда перестали считаться просмотры, и соотношение просмотров к продажам улучшалось с каждой продажей независимо от всего, весело было, когда количество продаж превышало количество просмотров то фото просто рушилось по бестматчу в результате ошибки формулы, но при максимальном приближении просмотров к продажам она была мегапопулярна. Это был глюк бестматча открывающий наличие этого коэффициента. Коэффициент эксклюзивности был мною рассчитан при переходе в эксклюзив, рассчитан просто - я отмониторил нахождении выборки моих работ в общем бестматче по крупным запросам где я находился в районе 100-200 позиции выдачи, после перехода позиции поменялись и я просто разделил старые позиции на новые. Коэффициент был равен 1.75! я был очень рад. Сейчас он не больше 1.25, а скорее всего меньше. Важно еще понять какие параметры приняты за единицу, например какой размер считается нормальным, какое соотношение просмотров к продажам. Но к сожалению вычислить это нереально.

 

Учтите еще тот факт, что коэффициенты растут или падают не линейно, т.е. например первые 100 продаж дадут КОКП один, а последующие 100 уже в меньшей степени увеличат коэффициент. Иначе бы получилось что фотографии с 10000 продаж допустим по дефолту всегда бы стояли на первых местах.

 

Самое главное - присмотритесь ко всем расчетам релевантностей, вы НИНАЧТО не можете повлиять честными методами после попадания работы в базу любого фотобанка. Но вы МОЖЕТЕ повлиять до попадания в базу. Общие принципы:

  • Чем шедевральнее работа тем лучше (огромное влияние).
  • Чем лучше качество (размер) тем лучше (малое влияние).
  • Чем эксклюзивнее фотография для выбранного фотобанка тем лучше (среднее влияние).
  • Чем больше спамных ключевых тем хуже (малое влияние).

 

Если вы нашли какие-то ошибки в статье, либо у вас есть свои предложения, мнения и т.д. высказывайте их на форуме. Всегда можно подправить статью, чтобы она стала наиболее объективной по данному вопросу.