ParseHub – это инструмент, который обеспечивает автоматизированный сбор информации с различных веб-ресурсов с целью дальнейшего анализа. Из основных характеристик и функций краулера:
Сервис для веб-скрапинга прост в использовании – вы можете выбирать элементы страницы, которые вы хотите извлечь, просто щелкая по ним мышью. Также в настройках можно указать, какие данные вам нужны для парсинга, например, текст, изображения, ссылки и т. д.
Инструмент для скрапинга поддерживает выполнение нескольких задач, то есть обрабатывает данные с нескольких страниц или сайтов одновременно. Дополнительно можно создавать последовательности действий, чтобы выполнить скрапинг данных из разных частей страницы.
ParseHub API позволяет экспортировать извлеченные данные в различные форматы, такие как CSV, Excel, JSON, Google Sheets и другие. Это упрощает анализ и обработку полученной информации.
Вебскрапер ParseHub популярен среди маркетологов, аналитиков и компаний, которые нуждаются в регулярном сборе данных с веб-сайтов не только благодаря широкому функционалу, но и за возможность интеграции прокси в ParseHub.
Прокси-серверы для парсинга данных значительно повышают результативность работы скраперов. Они обеспечивают повышение безопасности при сборе данных, позволяют скрыть ваш реальный IP-адрес при работе. Дополнительно:
Предотвращают блокировки со стороны анализируемых сайтов, особенно если они замечают необычно высокую активность с одного и того же IP-адреса.
Позволяют равномерно распределить запросы к веб-ресурсу между несколькими IP-адресами, что может снизить нагрузку на сервер.
Могут эмулировать запросы от разных географических местоположений. Это полезно, если вы хотите получить данные, которые доступны только из определенных регионов или стран.
Оптимизация скрапинга с помощью прокси повысит производительность и КПД анализа данных. О том, как правильно настроить прокси в ParseHub – читайте туториал ниже.
Видео по настройке прокси в ParseHub
Настройка прокси в ParseHub на Windows и MacOS
Загрузите утилиту — она снабжена встроенным браузером, где и будет выполняться настройка прокси. Интерфейсы программы для Windows и MacOS идентичны, поэтому можно использовать одну инструкцию. Далее выполните действия:
Запустите программу и в главном рабочем окне нажмите кнопку «New Project» для создания нового проекта, под который будут настраиваться прокси.
В следующем окне с левой стороны введите адрес сайта для парсинга и нажмите кнопку «Start Project on this URL».
Далее активируйте бегунок «Browse», который позволит начать работу по парсингу информации с веб-сайта.
Для конфигурации прокси перейдите в меню браузера ParseHub. В правом верхнем углу нажмите на значок с тремя горизонтальными линиями.
В новом меню выберите кнопку в виде шестеренки «Options».
Далее в левом фрейме выберите раздел «Advanced», перейдите во вкладку «Network» и в группе настроек под названием «Connection» нажмите кнопку «Settings».
Следующее окно предоставляет возможность ручной настройки прокси. Для этого активируйте «Manual Proxy Configuration», после чего станут активными поля для ввода IP-адреса, порта и аутентификационных данных.
В большинстве случаев используется HTTP-прокси. Данные в это поле вводятся в формате «IP:username:password» без кавычек. Если хотите, чтобы IP-адрес и порт подключения были задействованы в таких протоколах, как SOCKS, FTP и SSL, установите галочку на опцию «Use this proxy server for all protocols».
Пролистайте страницу чуть ниже и увидите поле, которое позволяет создавать исключения для прокси. Здесь можно указать IP или обычные адреса сайтов, к которым не будет применяться шифрование трафика через прокси. После составления списка и внесения всех настроек, нажмите кнопку OK.
Теперь парсинг сайта, указанного в этом проекте, будет выполняться через прокси-сервер, что обеспечит вам анонимный доступ к данным и поможет избежать блокировки за частые запросы к IP-адресу.
Подключение прокси в ParseHub на Linux
После установки ParseHub на устройстве под управлением Linux, можно использовать два способа настройки прокси – через создание файла конфигурации или API. Начнем обзор настройки прокси в Parsehub с первого варианта, как более простого.
Создайте конфигурационный файл для прокси proxy.json. Вы можете использовать любой текстовый редактор. Файл должен содержать имя, адрес и порт сервера, а также логин и пароль. Скопируйте и вставьте в терминал код ниже:
{
"proxies": [
{
"name": "YourProxyName",
"server": "ProxyServerAddress",
"port": ProxyServerPort,
"username": "ProxyUsername",
"password": "ProxyPassword"
}
]
}
После копирования замените значения на соответствующие прокси-серверу.
YourProxyName – название вашего прокси (выберите любое удобное для вас имя).
ProxyServerAddress – адрес вашего сервера в формате «134.08.625.19» без кавычек.
ProxyServerPort – порт.
ProxyUsername – имя пользователя для аутентификации.
ProxyPassword – пароль для верификации.
Сохраните файл конфигурации на ПК. Для запуска ParseHub с настройками прокси выполните следующую команду в терминале, указав путь к файлу конфигурации proxy.json. Например, «parsehub proxy/путь/к/вашему/proxy.json » или как указано на скриншоте ниже.
Теперь ParseHub будет использовать настроенный вами прокси-сервер для выполнения задач веб-скрапинга.
Второй метод предполагает интеграцию ParseHub с Python и использование программных библиотек. ParseHub не предоставляет официальной библиотеки Python API, но вы можете использовать библиотеки для HTTP-запросов. Рассмотрим алгоритм подробнее.
Установите библиотеку requests для взаимодействия с ParseHub с прокси. Введите в терминал код «pip install requests».
Инициируйте доступ к ключам API ParseHub, полученным ранее. Используйте код со скриншота, замените на нем часть данных. В поле:
parsehub_api_url – укажите адрес к ключу;
proxy – внесите технические данные прокси в формате «156.25.7.9:9090»;
headers – введите код вашего API-ключа.
Обратите внимание, что на примере IP для разных протоколов подключения указываются в разных строках.
Инициируйте запрос к ParseHub с использованием новых настроек прокси. Например, код на скриншоте ниже отправляет GET-запрос и обрабатывает ответ.
Если вы используете приватные прокси, используйте код ниже:
Если ваши настройки прокси корректны, и API-ключ ParseHub действителен, настройка программы в Python пройдет успешно.
Использование приватных прокси поможет сделать работу более безопасной и сохранить анонимность при парсинге. Также их применение даст доступ к сайтам, которые заблокированы провайдером.