Перейти к содержимому

Как использовать GProxy proxy с Apify Actors

TL;DR

Настройте GProxy residential и datacenter proxy с Apify actors для web scraping. Охватывает proxy configuration, Crawlee integration и cost optimization.

Язык: JavaScript / Platform

Что вам понадобится

  • Аккаунт Apify (бесплатный или платный)
  • Node.js 16+ для локальной разработки
  • Аккаунт GProxy с активным proxy планом
  • Знакомство с Apify actors или Crawlee

Пошаговая настройка

1

Установка Crawlee

Настройте проект Crawlee для вашего актора

npx crawlee create my-scraper
cd my-scraper
npm install
2

Настройка GProxy как внешнего proxy

Настройте ProxyConfiguration с использованием URL GProxy

import { ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
3

Использование с CheerioCrawler

Добавьте proxy в ваш скрапер на базе Cheerio

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ request, $ }) {
    const title = $('title').text();
    console.log(title);
  }
});
4

Использование с PlaywrightCrawler

Добавьте proxy в браузерный скрапер

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ page }) {
    const title = await page.title();
    console.log(title);
  }
});
5

Деплой на Apify

Отправьте вашего актора на платформу Apify

apify login
apify push
6

Настройка proxy в Apify Console

Настройте URL proxy во входных данных актора

Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }

Примеры кода

CheerioCrawler с GProxy · javascript
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 20,
  requestHandlerTimeoutSecs: 30,

  async requestHandler({ request, $, proxyInfo }) {
    console.log(`${request.url} via ${proxyInfo.url}`);
    const title = $('title').text();
    const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
    
    await Dataset.pushData({ url: request.url, title, links });
  },

  async failedRequestHandler({ request }) {
    console.log(`Failed: ${request.url}`);
  }
});

await crawler.run(['https://example.com']);
PlaywrightCrawler с гео-таргетингом · javascript
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: [
    'http://USER-country-us:PASS@proxy.gproxy.net:1000',
    'http://USER-country-de:PASS@proxy.gproxy.net:1000',
    'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
  ]
});

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 5,
  launchContext: {
    launchOptions: { headless: true }
  },

  async requestHandler({ page, request }) {
    await page.waitForLoadState('domcontentloaded');
    const title = await page.title();
    console.log(`${request.url}: ${title}`);
  }
});

await crawler.run(['https://example.com']);

Почему стоит использовать GProxy с Apify?

Apify — это платформа для веб-скрейпинга и автоматизации, которая запускает облачных акторов. Хотя Apify предлагает собственный proxy сервис, GProxy предоставляет экономичную альтернативу с 10M+ residential IP в 150+ странах. Использование GProxy в качестве внешнего proxy с акторами Apify дает вам более выгодные цены, большее разнообразие IP и полный контроль над вашей инфраструктурой proxy.

Конфигурация внешнего Proxy

Акторы Apify, созданные с помощью Crawlee (ранее Apify SDK), поддерживают конфигурацию внешних proxy через класс ProxyConfiguration. Передайте proxy URL от GProxy как кастомный proxy URL, и Crawlee будет автоматически направлять все запросы через него.

Интеграция с Crawlee

Crawlee — это библиотека Apify с открытым исходным кодом для веб-скрейпинга на Node.js. Она поддерживает CheerioCrawler (быстрый HTTP), PlaywrightCrawler (браузер) и PuppeteerCrawler (Chrome). Все три поддерживают внешние proxy через опцию proxyConfiguration.

Оптимизация затрат

Модель ценообразования GProxy может быть более выгодной, чем встроенные proxy от Apify для высокообъемного скрейпинга. Используйте datacenter proxy от GProxy для нечувствительных целей и residential proxy для сайтов с сильной анти-бот защитой. Такой многоуровневый подход оптимизирует ваши общие затраты на скрейпинг.

Управление сессиями

Пул сессий Apify работает с липкими сессиями GProxy. Сохраняйте один и тот же IP для нескольких запросов при скрейпинге защищенных логином страниц или многостраничной навигации. Настройте максимальный возраст сессии и частоту ротации, чтобы сбалансировать свежесть IP и непрерывность сессии.

Лучшие практики масштабирования

При масштабировании акторов Apify с использованием GProxy proxy, установите соответствующие лимиты параллелизма в зависимости от вашего тарифного плана GProxy. Начните с 10-20 параллельных соединений и увеличивайте их количество. Инфраструктура GProxy справляется с высоким параллелизмом, но соблюдение лимитов целевого сайта предотвращает ненужные блокировки.

Сценарии применения

Large-Scale Web Scraping

Запускайте Apify actors с массивным пулом residential прокси от GProxy для надежного крупномасштабного извлечения данных.

E-commerce мониторинг

Отслеживайте цены и уровни запасов у ритейлеров, используя гео-таргетированные прокси для получения локализованных данных.

SEO мониторинг

Проверяйте поисковые рейтинги в разных странах, используя Apify actors с гео-таргетингом от GProxy.

Автоматизация Data Pipeline

Создавайте автоматизированные data pipelines, которые собирают и обрабатывают веб-данные с надежной ротацией прокси.

Pro советы
Используйте datacenter proxy GProxy для незащищенных сайтов и residential для целей с сильной anti-bot защитой. Установите maxConcurrency в соответствии с лимитами вашего тарифного плана GProxy. Включите встроенную ротацию сессий Crawlee для лучшего разнообразия IP. Храните учетные данные GProxy в key-value store Apify, а не в коде.

FAQ

Почему стоит использовать GProxy вместо встроенных прокси Apify? +
GProxy предлагает конкурентоспособные цены, 10M+ residential IPs и работает во всех ваших инструментах — не только в Apify. Если у вас уже есть тарифный план GProxy, его использование с Apify экономит ваши средства.
Можно ли смешивать прокси GProxy и Apify? +
Да, укажите оба варианта в массиве proxyUrls. Crawlee будет переключаться между ними, обеспечивая разнообразие IP из нескольких пулов.
Работает ли GProxy с облачными акторами Apify? +
Да, установите proxyConfiguration во входных данных вашего актора для использования внешних proxy URLs. Изменения в коде не требуются, если ваш актор использует стандартный ProxyConfiguration.
Как обрабатывать неудачные запросы? +
Crawlee автоматически повторяет неудачные запросы с помощью failedRequestHandler. Ротируемые IP в GProxy означают, что повторные попытки используют другой IP, что повышает вероятность успеха.

Готовы попробовать?

Начните с GProxy за минуты — резидентные прокси от $0.85/GB, IPv6 от $0.03/прокси, оплата по факту использования.

Другие интеграции

GProxy + Puppeteer
Настройте GProxy proxy с Puppeteer для автоматизации headless Chrome. Рассматриваются proxy authentication, переключение proxy на уровне page и stealth техники.
GProxy + Selenium
Настройте GProxy proxy с Selenium WebDriver для автоматизации браузера и парсинга. Охватывает Chrome, Firefox, headless режим и proxy аутентификацию.
GProxy + Scrapy
Узнайте, как настроить GProxy residential и datacenter proxy с Scrapy для крупномасштабного web scraping. Рассматриваются настройка middleware, rotation proxy и обработка ошибок.
GProxy + cURL
Используйте GProxy proxy с cURL для HTTP-запросов через командную строку. Охватывает типы proxy HTTP, HTTPS, SOCKS5, аутентификацию и продвинутые опции.
GProxy + Postman
Настройте GProxy proxy в Postman для API тестирования из различных локаций. Охватывает глобальные proxy settings, конфигурацию per-request и environment variables.
GProxy + n8n
Направляйте HTTP requests из workflow n8n через GProxy proxy. Охватывает конфигурацию HTTP Request node, environment variables и паттерны автоматизации.
support_agent
GProxy Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.