Cómo usar GProxy proxies con Apify Actors
Configura residential y datacenter proxies de GProxy con actors de Apify para web scraping. Cubre la proxy configuration, la integración con Crawlee y la optimización de costes.
Requisitos previos
- ✓Cuenta de Apify (gratuita o de pago)
- ✓Node.js 16+ para desarrollo local
- ✓Cuenta de GProxy con plan de proxy activo
- ✓Familiaridad con Apify actors o Crawlee
Configuración paso a paso
Instalar Crawlee
Configura un proyecto de Crawlee para tu actor
npx crawlee create my-scraper
cd my-scraper
npm install
Configurar GProxy como proxy externo
Configura ProxyConfiguration con la URL de GProxy
import { ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
Usar con CheerioCrawler
Añade un proxy a tu scraper basado en Cheerio
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ request, $ }) {
const title = $('title').text();
console.log(title);
}
});
Usar con PlaywrightCrawler
Añade un proxy al scraper basado en navegador
import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ page }) {
const title = await page.title();
console.log(title);
}
});
Desplegar en Apify
Sube tu actor a la plataforma Apify
apify login
apify push
Configurar proxy en Apify Console
Configura la URL del proxy en el input del actor
Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }
Ejemplos de código
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 20,
requestHandlerTimeoutSecs: 30,
async requestHandler({ request, $, proxyInfo }) {
console.log(`${request.url} via ${proxyInfo.url}`);
const title = $('title').text();
const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
await Dataset.pushData({ url: request.url, title, links });
},
async failedRequestHandler({ request }) {
console.log(`Failed: ${request.url}`);
}
});
await crawler.run(['https://example.com']);
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: [
'http://USER-country-us:PASS@proxy.gproxy.net:1000',
'http://USER-country-de:PASS@proxy.gproxy.net:1000',
'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
]
});
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 5,
launchContext: {
launchOptions: { headless: true }
},
async requestHandler({ page, request }) {
await page.waitForLoadState('domcontentloaded');
const title = await page.title();
console.log(`${request.url}: ${title}`);
}
});
await crawler.run(['https://example.com']);
¿Por qué usar GProxy con Apify?
Apify es una plataforma de web scraping y automatización que ejecuta actores basados en la nube. Aunque Apify ofrece su propio servicio de proxy, GProxy proporciona una alternativa rentable con más de 10M+ de residential IPs en más de 150+ países. El uso de GProxy como un proxy externo con los actores de Apify le brinda mejores precios, más diversidad de IP y un control total sobre su infraestructura de proxy.
Configuración de Proxy Externo
Los actores de Apify creados con Crawlee (anteriormente Apify SDK) admiten la configuración de proxy externo a través de la clase ProxyConfiguration. Pase la URL del proxy de GProxy como una URL de proxy personalizada y Crawlee enrutará todas las solicitudes a través de ella automáticamente.
Integración con Crawlee
Crawlee es la biblioteca de web scraping de código abierto de Apify para Node.js. Admite CheerioCrawler (HTTP rápido), PlaywrightCrawler (navegador) y PuppeteerCrawler (Chrome). Los tres admiten proxies externos a través de la opción proxyConfiguration.
Optimización de Costos
El modelo de precios de GProxy puede ser más rentable que los proxies integrados de Apify para el scraping de alto volumen. Utilice proxies de datacenter de GProxy para objetivos no sensibles y proxies residential para sitios con una fuerte protección anti-bot. Este enfoque por niveles optimiza su costo total de scraping.
Gestión de Sesiones
El grupo de sesiones de Apify funciona con las sesiones persistentes de GProxy. Mantenga la misma IP en múltiples solicitudes para el scraping protegido por inicio de sesión o la navegación de varias páginas. Configure la antigüedad máxima de la sesión y la frecuencia de rotación para equilibrar la frescura de la IP y la continuidad de la sesión.
Mejores Prácticas de Escalamiento
Al escalar actores de Apify con proxies de GProxy, establezca límites de concurrencia adecuados según su plan de GProxy. Comience con 10-20 conexiones concurrentes y aumente la escala. La infraestructura de GProxy maneja una alta concurrencia, pero respetar los límites del sitio de destino evita bloqueos innecesarios.
Casos de uso
Web Scraping a gran escala
Ejecute Apify actors con el pool residencial masivo de GProxy para una extracción de datos a gran escala confiable.
Monitoreo de E-commerce
Rastree precios y niveles de stock en diversos minoristas utilizando proxies geo-localizados para obtener datos localizados.
Monitoreo de SEO
Verifique rankings de búsqueda de diferentes países utilizando Apify actors con el geo-targeting de GProxy.
Automatización de Data Pipelines
Construya data pipelines automatizados que recolecten y procesen datos web con una rotación de proxy confiable.
FAQ
¿Por qué usar GProxy en lugar de los proxies integrados de Apify? +
¿Puedo mezclar proxies de GProxy y Apify? +
proxyUrls. Crawlee rotará entre ellos, dándote diversidad de IP de múltiples pools.¿Funciona GProxy con los cloud actors de Apify? +
proxyConfiguration en el input de tu actor para usar URLs de proxy externas. No se necesitan cambios de código si tu actor utiliza el ProxyConfiguration estándar.¿Cómo manejo las solicitudes fallidas? +
failedRequestHandler. Las IPs rotativas de GProxy significan que los reintentos usan una IP diferente, aumentando las tasas de éxito.¿Listo para empezar?
Comience con GProxy en minutos — proxies residenciales desde $0.85/GB, IPv6 desde $0.03/proxy, pago por uso.
