514 просмотров

Настройка прокси в ScraperAPI

Scraper API - это платформа с открытым исходным кодом для автоматизированного извлечения данных с сайтов, другими словами инструмент для скрапинга. Это гибкая система с возможностью добавлять свои скрипты и совместно управлять проектом.

Особенность в том, что платформа предоставляет API облачного сервиса. Пользователь может написать свой скрипт, чтобы адаптировать ее под конкретный ресурс. Например, Scraper API подходит для Facebook, Linkedin, страниц выдачи Google, маркетплейса Amazon и других сервисов. Можно настроить извлечение html-документов или отдельных данных со страниц, например, таблиц, текста, изображений, а также данных, которые хранятся внутри файлов с расширением .js и др.

Во время веб скрапинга Scraper API отправляет тысячи запросов, что привлекает внимание антифрод-систем. Это скрипты, предназначенные для защиты от парсинга данных. Когда они обнаруживают много запросов с одного IP или трафик с подозрительных адресов, то запускают страницу проверки капчи. Чтобы обойти антифрод-системы, а также другие ограничения, перед тем как использовать Scraper API, необходимо настроить прокси.

Видео по настройке прокси в ScraperAPI

Как настроить прокси в ScraperAPI для парсинга

Scraper API поддерживает команды, совместимые с командной оболочкой для UNIX-систем Bash, а также языки программирования JavaScript (Node), Phyton/Scrapy, PHP, Ruby, Java. Платформа позволяет настроить свой прокси следуя следующей инструкции.

  1. Войдите в учетную запись Scraper API. На главной странице (Dashboard) появятся такие данные: ключ API, команда для подключения сервиса по API, команда для подключения прокси.
  2. Screenshot_3.png

  3. Данные из пункта «Sample Proxy Code» выглядят так:
  4. curl -x "http://scraperapi:[email protected]:8001" -k "http://httpbin.org/ip"

  5. Чтобы подключить свой прокси, скопируйте данные в скрипт и отредактируйте, заменив «scraperapi» на логин, «APIKEY» на пароль прокси. После символа @ укажите через двоеточие IP прокси-сервера и порт. "http://httpbin.org/ip" замените на адрес страницы, на которую подается запрос для скрапинга данных. Должна получиться команда такого вида:
  6. curl -x "http://LOGIN:PAROL@IP-proxy:Port" -k "http://adres_stranicy_dlja_izvlechenija"

Подобную концепцию используйте и для подключения прокси при написании скриптов на других языках программирования.

Например, для Python должно получиться так:

1.png

Пример запроса для Ruby:

2.png

Настройка прокси в Scraper API при скрапинге данных решает сразу несколько проблем. Во-первых, обеспечивает полноценную автоматизацию сбора данных, защищая от антифрод-систем, которые срабатывают при большом количестве запросов с одного IP. В таком случае прокси минимизирует риск блокировок и запуска страниц защиты от ботов. Во-вторых, подмена адреса открывает доступ к данным, которые недоступны в вашем регионе.