Ручная настройка парсеров

Настоящая статья описывает настройку непосредственно парсеров, т.е. указание используемых аккаунтов, прокси, сервисов решения капчи и других настроек, присущих конкретному парсеру на протяжении всего его жизненного цикла. Настройка процесса парсинга, т.е. постановка задач созданным в этой статье парсерам (например, «собрать статистику показов таких-то ключевых слов из такого-то сервиса, для такого-то региона»), описана в статье «Управление парсингом»!

Список активных парсеров находится в правой половине главного окна программы. Там же находятся кнопки, позволяющие добавить в список новые парсеры:

 — кнопка создания парсеров «Директа» («Вордстата»)

 — кнопка создания парсеров «Подсказок» Яндекса

Создание локального парсера

Разберем создание локального парсера на примере парсера «Вордстата». Нажмите кнопку с изображением логотипа «Вордстата», в появившемся меню выберите пункт «Локальный парсер».

В появившемся окне «Настройка локального парсера» вы увидите перечень настроек парсера, сгруппированных на нескольких вкладках. В данном случае это вкладки «Аккаунт и прокси» и «Капча». Переключаться между вкладками можно при помощи списка, расположенного в левой части экрана:

На вкладке «Аккаунт и прокси» расположены наиболее важные настройки, в частности, поля ввода данных аккаунта Яндекса, который будет использоваться создаваемым парсером.

Введите данные аккаунта в поля, отмеченные на иллюстрации. Обратите внимание на то, что данные аккаунта, включая пароль, будут сохранены на диск, поэтому для парсинга «Директа» следует использовать только специально созданные аккаунты Яндекса, не содержащие никакой важной информации. Никто не несет ответственности за сохранность ваших паролей и прочих данных!

Если вы планируете парсить ключевые слова с использованием прокси, самое время ввести данные доступа в отмеченные на следующей иллюстрации поля.

Следует напомнить, что речь идет о HTTP-прокси, используемом для парсинга целевого сервиса, а не о прокси, который, возможно, используется вами для доступа в Интернет!

Настройки сервиса решения капчи вводятся на вкладке «Капча». Переключитесь на нее, используя список слева, затем отметьте галочку «Сервис решения капчи» и в разблокированных полях настроек введите хост и ключ доступа, полученные у поставщика услуг по решению капчи.

Вы можете включать и выключать использование парсером сервиса решения капчи при помощи галочки «Сервис решения капчи». Настройки сервиса для конкретного парсера при этом будут сохраняться для повторного использования.

В поле «Пресет» можно выбрать несколько предустановленных профилей для существующих русскоязычных сервисов разгадывания капчи. Выбор профиля (пресета) приведет к подстановке требуемого значения в поля «API» и «Хост».

Если используемый вами сервис или программа решения капчи не найдена в списке готовых пресетов, выберите пункт «Произвольный сервис Antigate API». Можно вообще не выбирать пресет, а просто указать используемый API, хост и ключ.

Поле «API» задает используемый указанным сервисом API. В подавляющем большинстве случаев оно должно принимать значение «Antigate API», особенно если речь идет о русскоязычных сервисах и программах решения капчи.

Вот, в принципе, и все! Нажмите кнопку «Сохранить» и убедитесь, что все прошло гладко: во-первых, парсер должен появиться в общем списке в главном окне; во-вторых, его иконка должна не должна быть отмечена никакими восклицательными знаками и прочими индикаторами проблем; в-третьих, сразу после добавления парсера, в нижней части главного окна должна появиться запись Журнала «Соединение успешно сохранено» (текст может варьироваться в зависимости от используемой версии «Солнечного», но смысл тот же).

Что дальше?

После того как операция завершилась успехом, можно переходить к созданию списков ключевых слов для парсинга. Соответствующий раздел Инструкции находится в разработке, но вот подсказка: используйте пункт «Сбор информации» главного меню программы.