Перейти до вмісту

Як використовувати GProxy proxy з Apify Actors

TL;DR

Налаштуйте GProxy residential та datacenter proxy з Apify actors для web scraping. Охоплює proxy configuration, Crawlee integration та cost optimization.

Мова: JavaScript / Platform

Що вам знадобиться

  • Акаунт Apify (free або paid)
  • Node.js 16+ для локальної розробки
  • Акаунт GProxy з активним proxy планом
  • Знайомство з Apify actors або Crawlee

Покрокове налаштування

1

Встановлення Crawlee

Налаштуйте проект Crawlee для вашого актора

npx crawlee create my-scraper
cd my-scraper
npm install
2

Конфігурація GProxy як external proxy

Налаштуйте ProxyConfiguration з GProxy URL

import { ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
3

Використання з CheerioCrawler

Додайте proxy до вашого скрейпера на базі Cheerio

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ request, $ }) {
    const title = $('title').text();
    console.log(title);
  }
});
4

Використання з PlaywrightCrawler

Додайте proxy до browser-based скрейпера

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ page }) {
    const title = await page.title();
    console.log(title);
  }
});
5

Деплой на Apify

Відправте вашого актора на платформу Apify

apify login
apify push
6

Налаштування proxy в Apify Console

Конфігурація proxy URL у вхідних даних актора

Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }

Приклади коду

CheerioCrawler з GProxy · javascript
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 20,
  requestHandlerTimeoutSecs: 30,

  async requestHandler({ request, $, proxyInfo }) {
    console.log(`${request.url} via ${proxyInfo.url}`);
    const title = $('title').text();
    const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
    
    await Dataset.pushData({ url: request.url, title, links });
  },

  async failedRequestHandler({ request }) {
    console.log(`Failed: ${request.url}`);
  }
});

await crawler.run(['https://example.com']);
PlaywrightCrawler з Geo-Targeting · javascript
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: [
    'http://USER-country-us:PASS@proxy.gproxy.net:1000',
    'http://USER-country-de:PASS@proxy.gproxy.net:1000',
    'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
  ]
});

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 5,
  launchContext: {
    launchOptions: { headless: true }
  },

  async requestHandler({ page, request }) {
    await page.waitForLoadState('domcontentloaded');
    const title = await page.title();
    console.log(`${request.url}: ${title}`);
  }
});

await crawler.run(['https://example.com']);

Чому варто використовувати GProxy з Apify?

Apify — це платформа для веб-скрапінгу та автоматизації, яка запускає хмарних акторів. Хоча Apify пропонує власний proxy сервіс, GProxy надає економічно вигідну альтернативу з 10M+ residential IP у 150+ країнах. Використання GProxy як зовнішнього proxy з акторами Apify забезпечує кращу ціну, більшу різноманітність IP та повний контроль над вашою proxy інфраструктурою.

Конфігурація зовнішнього Proxy

Актори Apify, побудовані за допомогою Crawlee (раніше Apify SDK), підтримують конфігурацію зовнішнього proxy через клас ProxyConfiguration. Передайте proxy URL від GProxy як кастомний proxy URL, і Crawlee автоматично спрямовуватиме всі запити через нього.

Інтеграція з Crawlee

Crawlee — це бібліотека Apify з відкритим вихідним кодом для веб-скрапінгу на Node.js. Вона підтримує CheerioCrawler (швидкий HTTP), PlaywrightCrawler (браузер) та PuppeteerCrawler (Chrome). Усі три підтримують зовнішні proxy через опцію proxyConfiguration.

Оптимізація витрат

Модель ціноутворення GProxy може бути вигіднішою, ніж вбудовані proxy від Apify для великих обсягів скрапінгу. Використовуйте datacenter proxy від GProxy для нечутливих цілей та residential proxy для сайтів із сильним anti-bot захистом. Такий багаторівневий підхід оптимізує ваші загальні витрати на скрапінг.

Керування сесіями

Session pool від Apify працює зі sticky сесіями GProxy. Зберігайте ту саму IP для кількох запитів під час скрапінгу з авторизацією або навігації по кількох сторінках. Налаштуйте максимальний вік сесії та частоту ротації, щоб збалансувати свіжість IP та безперервність сесії.

Найкращі практики масштабування

При масштабуванні акторів Apify з proxy від GProxy встановлюйте відповідні ліміти паралельних з'єднань залежно від вашого тарифного плану GProxy. Почніть з 10-20 паралельних з'єднань і масштабуйтеся вгору. Інфраструктура GProxy витримує високу паралельність, але дотримання лімітів цільового сайту запобігає непотрібним блокуванням.

Сценарії використання

Large-Scale Web Scraping

Запускайте Apify actors з масивним пулом residential proxy від GProxy для надійного та масштабного витягування даних.

E-commerce Monitoring

Відстежуйте ціни та рівні запасів у різних ритейлерів, використовуючи геотаргетовані proxy для отримання локалізованих даних.

SEO Monitoring

Перевіряйте пошукові рейтинги з різних країн, використовуючи Apify actors з геотаргетингом від GProxy.

Data Pipeline Automation

Створюйте автоматизовані data pipelines, які збирають та обробляють вебдані з надійною ротацією proxy.

Поради професіоналів
Використовуйте datacenter proxy GProxy для незахищених сайтів та residential для цілей з потужним anti-bot захистом. Встановіть maxConcurrency відповідно до лімітів вашого плану GProxy. Увімкніть вбудовану ротацію сесій Crawlee для найкращої різноманітності IP. Зберігайте облікові дані GProxy у key-value store Apify, а не в коді.

FAQ

Чому варто використовувати GProxy замість вбудованих проксі Apify? +
GProxy пропонує конкурентні ціни, 10M+ residential IPs та працює з усіма вашими інструментами — не лише з Apify. Якщо у вас вже є план GProxy, використання його з Apify заощаджує витрати.
Чи можу я змішувати проксі GProxy та Apify? +
Так, вкажіть обидва у масиві proxyUrls. Crawlee буде чергувати їх, забезпечуючи різноманітність IP з кількох пулів.
Чи працює GProxy з хмарними actors Apify? +
Так, встановіть proxyConfiguration у вхідних даних вашого actor для використання зовнішніх proxy URLs. Зміни у code не потрібні, якщо ваш actor використовує стандартний ProxyConfiguration.
Як обробляти невдалі запити? +
Crawlee автоматично повторює невдалі запити за допомогою failedRequestHandler. Ротація IPs у GProxy означає, що повторні спроби використовують інший IP, що підвищує показники успіху.

Готові спробувати?

Почніть з GProxy за хвилини — резидентні проксі від $0.85/GB, IPv6 від $0.03/проксі, оплата за використання.

Інші інтеграції

support_agent
GProxy Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.