Как использовать GProxy proxy с Apify Actors
Настройте GProxy residential и datacenter proxy с Apify actors для web scraping. Охватывает proxy configuration, Crawlee integration и cost optimization.
Что вам понадобится
- ✓Аккаунт Apify (бесплатный или платный)
- ✓Node.js 16+ для локальной разработки
- ✓Аккаунт GProxy с активным proxy планом
- ✓Знакомство с Apify actors или Crawlee
Пошаговая настройка
Установка Crawlee
Настройте проект Crawlee для вашего актора
npx crawlee create my-scraper
cd my-scraper
npm install
Настройка GProxy как внешнего proxy
Настройте ProxyConfiguration с использованием URL GProxy
import { ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
Использование с CheerioCrawler
Добавьте proxy в ваш скрапер на базе Cheerio
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ request, $ }) {
const title = $('title').text();
console.log(title);
}
});
Использование с PlaywrightCrawler
Добавьте proxy в браузерный скрапер
import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ page }) {
const title = await page.title();
console.log(title);
}
});
Деплой на Apify
Отправьте вашего актора на платформу Apify
apify login
apify push
Настройка proxy в Apify Console
Настройте URL proxy во входных данных актора
Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }
Примеры кода
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 20,
requestHandlerTimeoutSecs: 30,
async requestHandler({ request, $, proxyInfo }) {
console.log(`${request.url} via ${proxyInfo.url}`);
const title = $('title').text();
const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
await Dataset.pushData({ url: request.url, title, links });
},
async failedRequestHandler({ request }) {
console.log(`Failed: ${request.url}`);
}
});
await crawler.run(['https://example.com']);
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: [
'http://USER-country-us:PASS@proxy.gproxy.net:1000',
'http://USER-country-de:PASS@proxy.gproxy.net:1000',
'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
]
});
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 5,
launchContext: {
launchOptions: { headless: true }
},
async requestHandler({ page, request }) {
await page.waitForLoadState('domcontentloaded');
const title = await page.title();
console.log(`${request.url}: ${title}`);
}
});
await crawler.run(['https://example.com']);
Почему стоит использовать GProxy с Apify?
Apify — это платформа для веб-скрейпинга и автоматизации, которая запускает облачных акторов. Хотя Apify предлагает собственный proxy сервис, GProxy предоставляет экономичную альтернативу с 10M+ residential IP в 150+ странах. Использование GProxy в качестве внешнего proxy с акторами Apify дает вам более выгодные цены, большее разнообразие IP и полный контроль над вашей инфраструктурой proxy.
Конфигурация внешнего Proxy
Акторы Apify, созданные с помощью Crawlee (ранее Apify SDK), поддерживают конфигурацию внешних proxy через класс ProxyConfiguration. Передайте proxy URL от GProxy как кастомный proxy URL, и Crawlee будет автоматически направлять все запросы через него.
Интеграция с Crawlee
Crawlee — это библиотека Apify с открытым исходным кодом для веб-скрейпинга на Node.js. Она поддерживает CheerioCrawler (быстрый HTTP), PlaywrightCrawler (браузер) и PuppeteerCrawler (Chrome). Все три поддерживают внешние proxy через опцию proxyConfiguration.
Оптимизация затрат
Модель ценообразования GProxy может быть более выгодной, чем встроенные proxy от Apify для высокообъемного скрейпинга. Используйте datacenter proxy от GProxy для нечувствительных целей и residential proxy для сайтов с сильной анти-бот защитой. Такой многоуровневый подход оптимизирует ваши общие затраты на скрейпинг.
Управление сессиями
Пул сессий Apify работает с липкими сессиями GProxy. Сохраняйте один и тот же IP для нескольких запросов при скрейпинге защищенных логином страниц или многостраничной навигации. Настройте максимальный возраст сессии и частоту ротации, чтобы сбалансировать свежесть IP и непрерывность сессии.
Лучшие практики масштабирования
При масштабировании акторов Apify с использованием GProxy proxy, установите соответствующие лимиты параллелизма в зависимости от вашего тарифного плана GProxy. Начните с 10-20 параллельных соединений и увеличивайте их количество. Инфраструктура GProxy справляется с высоким параллелизмом, но соблюдение лимитов целевого сайта предотвращает ненужные блокировки.
Сценарии применения
Large-Scale Web Scraping
Запускайте Apify actors с массивным пулом residential прокси от GProxy для надежного крупномасштабного извлечения данных.
E-commerce мониторинг
Отслеживайте цены и уровни запасов у ритейлеров, используя гео-таргетированные прокси для получения локализованных данных.
SEO мониторинг
Проверяйте поисковые рейтинги в разных странах, используя Apify actors с гео-таргетингом от GProxy.
Автоматизация Data Pipeline
Создавайте автоматизированные data pipelines, которые собирают и обрабатывают веб-данные с надежной ротацией прокси.
FAQ
Почему стоит использовать GProxy вместо встроенных прокси Apify? +
Можно ли смешивать прокси GProxy и Apify? +
Работает ли GProxy с облачными акторами Apify? +
Как обрабатывать неудачные запросы? +
Готовы попробовать?
Начните с GProxy за минуты — резидентные прокси от $0.85/GB, IPv6 от $0.03/прокси, оплата по факту использования.
