Список стоп-слов Яндекс.Директа
Стоп-слова в Яндекс.Директе — это служебные части речи и местоимения, а также любые слова, не несущие дополнительного смысла, которые автоматически исключаются из запроса пользователя при отборе объявлений для показа. Например, при запросе пользователя “Как и когда купить слона” для показа будут отобраны объявления, у которых в ключевых словах присутствует фраза “Купить слона”. “Как”, “и”, “когда” будут в этом случае являться стоп-словами. Для их принудительного включения во фразу перед ними нужно поставить знак плюс, например «+как +и +когда купить слона».
Не путайте стоп-слова и минус-слова. Минус-слова — это слова, по запросам с которыми рекламное объявление показываться не будет. Минус-слова можно указать на уровне кампании, группы объявлений или ключевой фразы. Например, если мы укажем минус-слово «скачать» на уровне кампании, то ни одно из объявлений кампании не будет показываться по любым поисковым запросам пользователя, содержащим «скачать».
Мне понадобилось определить какие слова Яндекс.Директ считает стоп-словами. Сначала я задумал использовать для этой задачи список всех предлогов, союзов, междометий и местоимений. Но оказалось, что не все слова этих частей речи используются Директом в качестве стоп-слов. Например, союз «со» и предлог «между» к стоп-словам не относятся. Проверить это просто: если в сервис прогноза бюджета добавить предлог «в» и нажать «Посчитать», то сервис сообщит об ошибке:
Итоговый список получился таким:
a |
about |
all |
am |
an |
and |
any |
are |
as |
at |
be |
been |
but |
by |
can |
could |
do |
for |
from |
has |
have |
i |
if |
in |
is |
it |
me |
my |
no |
not |
of |
on |
one |
or |
so |
that |
the |
them |
there |
they |
this |
to |
was |
we |
what |
which |
will |
with |
would |
you |
а |
будем |
будет |
будете |
будешь |
буду |
будут |
будучи |
будь |
будьте |
бы |
был |
была |
были |
было |
быть |
в |
вам |
вами |
вас |
весь |
во |
вот |
все |
всё |
всего |
всей |
всем |
всём |
всеми |
всему |
всех |
всею |
всея |
всю |
вся |
вы |
да |
для |
до |
его |
едим |
едят |
ее |
её |
ей |
ел |
ела |
ем |
ему |
емъ |
если |
ест |
есть |
ешь |
еще |
ещё |
ею |
же |
за |
и |
из |
или |
им |
ими |
имъ |
их |
к |
как |
кем |
ко |
когда |
кого |
ком |
кому |
комья |
которая |
которого |
которое |
которой |
котором |
которому |
которою |
которую |
которые |
который |
которым |
которыми |
которых |
кто |
меня |
мне |
мной |
мною |
мог |
моги |
могите |
могла |
могли |
могло |
могу |
могут |
мое |
моё |
моего |
моей |
моем |
моём |
моему |
моею |
можем |
может |
можете |
можешь |
мои |
мой |
моим |
моими |
моих |
мочь |
мою |
моя |
мы |
на |
нам |
нами |
нас |
наса |
наш |
наша |
наше |
нашего |
нашей |
нашем |
нашему |
нашею |
наши |
нашим |
нашими |
наших |
нашу |
не |
него |
нее |
неё |
ней |
нем |
нём |
нему |
нет |
нею |
ним |
ними |
них |
но |
о |
об |
один |
одна |
одни |
одним |
одними |
одних |
одно |
одного |
одной |
одном |
одному |
одною |
одну |
он |
она |
оне |
они |
оно |
от |
по |
при |
с |
сам |
сама |
сами |
самим |
самими |
самих |
само |
самого |
самом |
самому |
саму |
свое |
своё |
своего |
своей |
своем |
своём |
своему |
своею |
свои |
свой |
своим |
своими |
своих |
свою |
своя |
себе |
себя |
собой |
собою |
та |
так |
такая |
такие |
таким |
такими |
таких |
такого |
такое |
такой |
таком |
такому |
такою |
такую |
те |
тебе |
тебя |
тем |
теми |
тех |
то |
тобой |
тобою |
того |
той |
только |
том |
томах |
тому |
тот |
тою |
ту |
ты |
у |
уже |
чего |
чем |
чём |
чему |
что |
чтобы |
эта |
эти |
этим |
этими |
этих |
это |
этого |
этой |
этом |
этому |
этот |
этою |
эту |
я |
мені |
наші |
нашої |
нашій |
нашою |
нашім |
ті |
тієї |
тією |
тії |
теє |
Список не претендует на полную точность и вполне вероятно, что существуют еще какие-то стоп-слова. Учитывая, что у Яндекса есть турецкий поиск, то должны быть специфичные для этого языка стоп-слова.
Немного интересных и необъяснимых аномалий:
- В список стоп-слов Яндекс.Директа входит слово «наса» (предполагаю, что это что-то вроде склонения слова «нас»).
- Есть странные стоп-слова: «оне», «емъ», «комья», «томах», «имъ».
Но судя по разнице в количестве показов это всё стоп-слова только для валидатора сервиса прогноза бюджета:
- Есть некоторые слова, которые в Вордстате имеют количество показов больше 0, но прогноз бюджета Яндекс.Директа говорит о том, что слово является стоп-словом. Например, слово «будете» — это стоп-слово для сервиса прогноза бюджета:
будете |
будучи |
едим |
едят |
ел |
ела |
ем |
емъ |
ест |
ешь |
имъ |
комья |
наса |
оне |
сама |
сами |
самим |
самими |
самих |
само |
самого |
самом |
самому |
саму |
томах |
тою |
этою |
am |
could |
me |
them |
мені |
наші |
нашої |
нашій |
нашою |
нашім |
ті |
тієї |
тією |
тії |
теє |
Фактически, эти слова учитываются при показе объявлений и стоп-словами не являются. Я включил их в список стоп-слов, так как завязывался на получение данных из API Яндекс.Директа с помощью метода CreateNewForecast. Этот метод не позволяет создать новый расчет если фраза состоит только из стоп-слов, поэтому мне нужно было точно знать список стоп-слов, которые не принимает метод. Использовать ли полный список или список без этих слов-аномалий — это зависит от решаемой задачи.
UPD: Благодаря Татьяне Михальченко и Олегу Саламаха список пополнился украинскими стоп-словами.
Вступайте в группу на Facebook и подписывайтесь на мой канал в Telegram, там публикуются интересные статьи про анализ данных и не только.
Объёмный получился список. Спасибо! Рынку пригодятся ;)
Благодарю за столь подробное рассмотрение темы, очень полезная информация, странно что так мало комментариев:-)
Большое спасибо за результаты исследования!
Благодарю
Спасибо за полезную работу и идеи!
Автору Памятник!
Так разобраться с Его Святейшеством, Непогрешимейшим и Непредсказуемейшим Яшей..... однозначно Памятник, хотя бы нерукотворный!
Спасибо Большое!!!
Благодарю Вас за проделанную работу!
Очень полезная инфа, спасибо за труд! + 10 к карме.
Респект и Большие человеческие сяпки!
Огромное спасибо. Самое то для лингвостатистических исследований
Огромнейшее спасибо за труд автору статьи! Очень полезно! Дай Бог Вам здоровья!
Спасибо за хорошую работу и пользу людям! Удачи!)
Спасибо большое!
«Благодаря Татьяне Михальченко и Олегу Саламаха список пополнился украинскими стоп-словами.» Мужские фамилии в русском языке СКЛОНЯЮТСЯ! Поэтому нужно писать «...и Олегу Саламахе...»
Да уж. Загадочный яндекс.
А вот этот список стоп-слов значит неполный?
https://yandex.ru/support/direct/keywords/keywords.html?lang=ru