635 просмотров

Как настроить прокси в ParseHub

ParseHub – это инструмент, который обеспечивает автоматизированный сбор информации с различных веб-ресурсов с целью дальнейшего анализа. Из основных характеристик и функций краулера:

  • Сервис для веб-скрапинга прост в использовании – вы можете выбирать элементы страницы, которые вы хотите извлечь, просто щелкая по ним мышью. Также в настройках можно указать, какие данные вам нужны для парсинга, например, текст, изображения, ссылки и т. д.
  • Инструмент для скрапинга поддерживает выполнение нескольких задач, то есть обрабатывает данные с нескольких страниц или сайтов одновременно. Дополнительно можно создавать последовательности действий, чтобы выполнить скрапинг данных из разных частей страницы.
  • ParseHub API позволяет экспортировать извлеченные данные в различные форматы, такие как CSV, Excel, JSON, Google Sheets и другие. Это упрощает анализ и обработку полученной информации.

Вебскрапер ParseHub популярен среди маркетологов, аналитиков и компаний, которые нуждаются в регулярном сборе данных с веб-сайтов не только благодаря широкому функционалу, но и за возможность интеграции прокси в ParseHub.

Прокси-серверы для парсинга данных значительно повышают результативность работы скраперов. Они обеспечивают повышение безопасности при сборе данных, позволяют скрыть ваш реальный IP-адрес при работе. Дополнительно:

  • Предотвращают блокировки со стороны анализируемых сайтов, особенно если они замечают необычно высокую активность с одного и того же IP-адреса.
  • Позволяют равномерно распределить запросы к веб-ресурсу между несколькими IP-адресами, что может снизить нагрузку на сервер.
  • Могут эмулировать запросы от разных географических местоположений. Это полезно, если вы хотите получить данные, которые доступны только из определенных регионов или стран.

Оптимизация скрапинга с помощью прокси повысит производительность и КПД анализа данных. О том, как правильно настроить прокси в ParseHub – читайте туториал ниже.

Видео по настройке прокси в ParseHub

Настройка прокси в ParseHub на Windows и MacOS

Загрузите утилиту — она снабжена встроенным браузером, где и будет выполняться настройка прокси. Интерфейсы программы для Windows и MacOS идентичны, поэтому можно использовать одну инструкцию. Далее выполните действия:

  1. Запустите программу и в главном рабочем окне нажмите кнопку «New Project» для создания нового проекта, под который будут настраиваться прокси.
  2. image001.png

  3. В следующем окне с левой стороны введите адрес сайта для парсинга и нажмите кнопку «Start Project on this URL».
  4. image003.png

  5. Далее активируйте бегунок «Browse», который позволит начать работу по парсингу информации с веб-сайта.
  6. image005.png

  7. Для конфигурации прокси перейдите в меню браузера ParseHub. В правом верхнем углу нажмите на значок с тремя горизонтальными линиями.
  8. image007.png

  9. В новом меню выберите кнопку в виде шестеренки «Options».
  10. image009.png

  11. Далее в левом фрейме выберите раздел «Advanced», перейдите во вкладку «Network» и в группе настроек под названием «Connection» нажмите кнопку «Settings».
  12. image011.png

  13. Следующее окно предоставляет возможность ручной настройки прокси. Для этого активируйте «Manual Proxy Configuration», после чего станут активными поля для ввода IP-адреса, порта и аутентификационных данных.
  14. image013.png

  15. В большинстве случаев используется HTTP-прокси. Данные в это поле вводятся в формате «IP:username:password» без кавычек. Если хотите, чтобы IP-адрес и порт подключения были задействованы в таких протоколах, как SOCKS, FTP и SSL, установите галочку на опцию «Use this proxy server for all protocols».
  16. image014.png

  17. Пролистайте страницу чуть ниже и увидите поле, которое позволяет создавать исключения для прокси. Здесь можно указать IP или обычные адреса сайтов, к которым не будет применяться шифрование трафика через прокси. После составления списка и внесения всех настроек, нажмите кнопку OK.
  18. image015.png

Теперь парсинг сайта, указанного в этом проекте, будет выполняться через прокси-сервер, что обеспечит вам анонимный доступ к данным и поможет избежать блокировки за частые запросы к IP-адресу.

Подключение прокси в ParseHub на Linux

После установки ParseHub на устройстве под управлением Linux, можно использовать два способа настройки прокси – через создание файла конфигурации или API. Начнем обзор настройки прокси в Parsehub с первого варианта, как более простого.

  1. Создайте конфигурационный файл для прокси proxy.json. Вы можете использовать любой текстовый редактор. Файл должен содержать имя, адрес и порт сервера, а также логин и пароль. Скопируйте и вставьте в терминал код ниже:
  2. {

    "proxies": [

    {

    "name": "YourProxyName",

    "server": "ProxyServerAddress",

    "port": ProxyServerPort,

    "username": "ProxyUsername",

    "password": "ProxyPassword"

    }

    ]

    }

  3. После копирования замените значения на соответствующие прокси-серверу.
    • YourProxyName – название вашего прокси (выберите любое удобное для вас имя).
    • ProxyServerAddress – адрес вашего сервера в формате «134.08.625.19» без кавычек.
    • ProxyServerPort – порт.
    • ProxyUsername – имя пользователя для аутентификации.
    • ProxyPassword – пароль для верификации.

    image023.png

  4. Сохраните файл конфигурации на ПК. Для запуска ParseHub с настройками прокси выполните следующую команду в терминале, указав путь к файлу конфигурации proxy.json. Например, «parsehub proxy/путь/к/вашему/proxy.json » или как указано на скриншоте ниже.
  5. image024.png

Теперь ParseHub будет использовать настроенный вами прокси-сервер для выполнения задач веб-скрапинга.

Второй метод предполагает интеграцию ParseHub с Python и использование программных библиотек. ParseHub не предоставляет официальной библиотеки Python API, но вы можете использовать библиотеки для HTTP-запросов. Рассмотрим алгоритм подробнее.

  1. Установите библиотеку requests для взаимодействия с ParseHub с прокси. Введите в терминал код «pip install requests».
  2. Инициируйте доступ к ключам API ParseHub, полученным ранее. Используйте код со скриншота, замените на нем часть данных. В поле:
    • parsehub_api_url – укажите адрес к ключу;
    • proxy – внесите технические данные прокси в формате «156.25.7.9:9090»;
    • headers – введите код вашего API-ключа.

    Обратите внимание, что на примере IP для разных протоколов подключения указываются в разных строках.

    image026.png

  3. Инициируйте запрос к ParseHub с использованием новых настроек прокси. Например, код на скриншоте ниже отправляет GET-запрос и обрабатывает ответ.
  4. image027.png

  5. Если вы используете приватные прокси, используйте код ниже:
  6. pip install requests

    import requests

    proxy_ip = 'ваш IP-адрес'

    proxy_port = 'номер порта'

    proxy_username = 'ваш логин'

    proxy_password = 'ваш пароль'

    session = requests.Session()

    session.proxies = {

    'http': f'http://{proxy_username}:{proxy_password}@{proxy_ip}:{proxy_port}',

    'https': f'https://{proxy_username}:{proxy_password}@{proxy_ip}:{proxy_port}'

    }

    url = 'https://example.com'

    response = session.get(url)

    print(response.text)

    Пример кода с заполненными данными на скриншоте:

    Безымянный.jpg

Если ваши настройки прокси корректны, и API-ключ ParseHub действителен, настройка программы в Python пройдет успешно.

Использование приватных прокси поможет сделать работу более безопасной и сохранить анонимность при парсинге. Также их применение даст доступ к сайтам, которые заблокированы провайдером.