Як використовувати GProxy proxy з Apify Actors
Налаштуйте GProxy residential та datacenter proxy з Apify actors для web scraping. Охоплює proxy configuration, Crawlee integration та cost optimization.
Що вам знадобиться
- ✓Акаунт Apify (free або paid)
- ✓Node.js 16+ для локальної розробки
- ✓Акаунт GProxy з активним proxy планом
- ✓Знайомство з Apify actors або Crawlee
Покрокове налаштування
Встановлення Crawlee
Налаштуйте проект Crawlee для вашого актора
npx crawlee create my-scraper
cd my-scraper
npm install
Конфігурація GProxy як external proxy
Налаштуйте ProxyConfiguration з GProxy URL
import { ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
Використання з CheerioCrawler
Додайте proxy до вашого скрейпера на базі Cheerio
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ request, $ }) {
const title = $('title').text();
console.log(title);
}
});
Використання з PlaywrightCrawler
Додайте proxy до browser-based скрейпера
import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ page }) {
const title = await page.title();
console.log(title);
}
});
Деплой на Apify
Відправте вашого актора на платформу Apify
apify login
apify push
Налаштування proxy в Apify Console
Конфігурація proxy URL у вхідних даних актора
Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }
Приклади коду
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 20,
requestHandlerTimeoutSecs: 30,
async requestHandler({ request, $, proxyInfo }) {
console.log(`${request.url} via ${proxyInfo.url}`);
const title = $('title').text();
const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
await Dataset.pushData({ url: request.url, title, links });
},
async failedRequestHandler({ request }) {
console.log(`Failed: ${request.url}`);
}
});
await crawler.run(['https://example.com']);
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: [
'http://USER-country-us:PASS@proxy.gproxy.net:1000',
'http://USER-country-de:PASS@proxy.gproxy.net:1000',
'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
]
});
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 5,
launchContext: {
launchOptions: { headless: true }
},
async requestHandler({ page, request }) {
await page.waitForLoadState('domcontentloaded');
const title = await page.title();
console.log(`${request.url}: ${title}`);
}
});
await crawler.run(['https://example.com']);
Чому варто використовувати GProxy з Apify?
Apify — це платформа для веб-скрапінгу та автоматизації, яка запускає хмарних акторів. Хоча Apify пропонує власний proxy сервіс, GProxy надає економічно вигідну альтернативу з 10M+ residential IP у 150+ країнах. Використання GProxy як зовнішнього proxy з акторами Apify забезпечує кращу ціну, більшу різноманітність IP та повний контроль над вашою proxy інфраструктурою.
Конфігурація зовнішнього Proxy
Актори Apify, побудовані за допомогою Crawlee (раніше Apify SDK), підтримують конфігурацію зовнішнього proxy через клас ProxyConfiguration. Передайте proxy URL від GProxy як кастомний proxy URL, і Crawlee автоматично спрямовуватиме всі запити через нього.
Інтеграція з Crawlee
Crawlee — це бібліотека Apify з відкритим вихідним кодом для веб-скрапінгу на Node.js. Вона підтримує CheerioCrawler (швидкий HTTP), PlaywrightCrawler (браузер) та PuppeteerCrawler (Chrome). Усі три підтримують зовнішні proxy через опцію proxyConfiguration.
Оптимізація витрат
Модель ціноутворення GProxy може бути вигіднішою, ніж вбудовані proxy від Apify для великих обсягів скрапінгу. Використовуйте datacenter proxy від GProxy для нечутливих цілей та residential proxy для сайтів із сильним anti-bot захистом. Такий багаторівневий підхід оптимізує ваші загальні витрати на скрапінг.
Керування сесіями
Session pool від Apify працює зі sticky сесіями GProxy. Зберігайте ту саму IP для кількох запитів під час скрапінгу з авторизацією або навігації по кількох сторінках. Налаштуйте максимальний вік сесії та частоту ротації, щоб збалансувати свіжість IP та безперервність сесії.
Найкращі практики масштабування
При масштабуванні акторів Apify з proxy від GProxy встановлюйте відповідні ліміти паралельних з'єднань залежно від вашого тарифного плану GProxy. Почніть з 10-20 паралельних з'єднань і масштабуйтеся вгору. Інфраструктура GProxy витримує високу паралельність, але дотримання лімітів цільового сайту запобігає непотрібним блокуванням.
Сценарії використання
Large-Scale Web Scraping
Запускайте Apify actors з масивним пулом residential proxy від GProxy для надійного та масштабного витягування даних.
E-commerce Monitoring
Відстежуйте ціни та рівні запасів у різних ритейлерів, використовуючи геотаргетовані proxy для отримання локалізованих даних.
SEO Monitoring
Перевіряйте пошукові рейтинги з різних країн, використовуючи Apify actors з геотаргетингом від GProxy.
Data Pipeline Automation
Створюйте автоматизовані data pipelines, які збирають та обробляють вебдані з надійною ротацією proxy.
FAQ
Чому варто використовувати GProxy замість вбудованих проксі Apify? +
Чи можу я змішувати проксі GProxy та Apify? +
Чи працює GProxy з хмарними actors Apify? +
Як обробляти невдалі запити? +
Готові спробувати?
Почніть з GProxy за хвилини — резидентні проксі від $0.85/GB, IPv6 від $0.03/проксі, оплата за використання.
