Ir al contenido

Cómo usar GProxy proxies con Apify Actors

TL;DR

Configura residential y datacenter proxies de GProxy con actors de Apify para web scraping. Cubre la proxy configuration, la integración con Crawlee y la optimización de costes.

Idioma: JavaScript / Platform

Requisitos previos

  • Cuenta de Apify (gratuita o de pago)
  • Node.js 16+ para desarrollo local
  • Cuenta de GProxy con plan de proxy activo
  • Familiaridad con Apify actors o Crawlee

Configuración paso a paso

1

Instalar Crawlee

Configura un proyecto de Crawlee para tu actor

npx crawlee create my-scraper
cd my-scraper
npm install
2

Configurar GProxy como proxy externo

Configura ProxyConfiguration con la URL de GProxy

import { ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
3

Usar con CheerioCrawler

Añade un proxy a tu scraper basado en Cheerio

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ request, $ }) {
    const title = $('title').text();
    console.log(title);
  }
});
4

Usar con PlaywrightCrawler

Añade un proxy al scraper basado en navegador

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ page }) {
    const title = await page.title();
    console.log(title);
  }
});
5

Desplegar en Apify

Sube tu actor a la plataforma Apify

apify login
apify push
6

Configurar proxy en Apify Console

Configura la URL del proxy en el input del actor

Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }

Ejemplos de código

CheerioCrawler con GProxy · javascript
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 20,
  requestHandlerTimeoutSecs: 30,

  async requestHandler({ request, $, proxyInfo }) {
    console.log(`${request.url} via ${proxyInfo.url}`);
    const title = $('title').text();
    const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
    
    await Dataset.pushData({ url: request.url, title, links });
  },

  async failedRequestHandler({ request }) {
    console.log(`Failed: ${request.url}`);
  }
});

await crawler.run(['https://example.com']);
PlaywrightCrawler con Geo-Targeting · javascript
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: [
    'http://USER-country-us:PASS@proxy.gproxy.net:1000',
    'http://USER-country-de:PASS@proxy.gproxy.net:1000',
    'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
  ]
});

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 5,
  launchContext: {
    launchOptions: { headless: true }
  },

  async requestHandler({ page, request }) {
    await page.waitForLoadState('domcontentloaded');
    const title = await page.title();
    console.log(`${request.url}: ${title}`);
  }
});

await crawler.run(['https://example.com']);

¿Por qué usar GProxy con Apify?

Apify es una plataforma de web scraping y automatización que ejecuta actores basados en la nube. Aunque Apify ofrece su propio servicio de proxy, GProxy proporciona una alternativa rentable con más de 10M+ de residential IPs en más de 150+ países. El uso de GProxy como un proxy externo con los actores de Apify le brinda mejores precios, más diversidad de IP y un control total sobre su infraestructura de proxy.

Configuración de Proxy Externo

Los actores de Apify creados con Crawlee (anteriormente Apify SDK) admiten la configuración de proxy externo a través de la clase ProxyConfiguration. Pase la URL del proxy de GProxy como una URL de proxy personalizada y Crawlee enrutará todas las solicitudes a través de ella automáticamente.

Integración con Crawlee

Crawlee es la biblioteca de web scraping de código abierto de Apify para Node.js. Admite CheerioCrawler (HTTP rápido), PlaywrightCrawler (navegador) y PuppeteerCrawler (Chrome). Los tres admiten proxies externos a través de la opción proxyConfiguration.

Optimización de Costos

El modelo de precios de GProxy puede ser más rentable que los proxies integrados de Apify para el scraping de alto volumen. Utilice proxies de datacenter de GProxy para objetivos no sensibles y proxies residential para sitios con una fuerte protección anti-bot. Este enfoque por niveles optimiza su costo total de scraping.

Gestión de Sesiones

El grupo de sesiones de Apify funciona con las sesiones persistentes de GProxy. Mantenga la misma IP en múltiples solicitudes para el scraping protegido por inicio de sesión o la navegación de varias páginas. Configure la antigüedad máxima de la sesión y la frecuencia de rotación para equilibrar la frescura de la IP y la continuidad de la sesión.

Mejores Prácticas de Escalamiento

Al escalar actores de Apify con proxies de GProxy, establezca límites de concurrencia adecuados según su plan de GProxy. Comience con 10-20 conexiones concurrentes y aumente la escala. La infraestructura de GProxy maneja una alta concurrencia, pero respetar los límites del sitio de destino evita bloqueos innecesarios.

Casos de uso

Web Scraping a gran escala

Ejecute Apify actors con el pool residencial masivo de GProxy para una extracción de datos a gran escala confiable.

Monitoreo de E-commerce

Rastree precios y niveles de stock en diversos minoristas utilizando proxies geo-localizados para obtener datos localizados.

Monitoreo de SEO

Verifique rankings de búsqueda de diferentes países utilizando Apify actors con el geo-targeting de GProxy.

Automatización de Data Pipelines

Construya data pipelines automatizados que recolecten y procesen datos web con una rotación de proxy confiable.

Consejos profesionales
Use los proxy de datacenter de GProxy para sitios no protegidos y residential para objetivos con fuertes medidas anti-bot. Establezca maxConcurrency basándose en los límites de su plan de GProxy. Active la rotación de sesiones integrada de Crawlee para obtener la mejor diversidad de IP. Almacene las credenciales de GProxy en el key-value store de Apify, no de forma hardcoded.

FAQ

¿Por qué usar GProxy en lugar de los proxies integrados de Apify? +
GProxy ofrece precios competitivos, más de 10M+ de IPs residenciales y funciona en todas tus herramientas, no solo en Apify. Si ya tienes un plan de GProxy, usarlo con Apify ahorra costos.
¿Puedo mezclar proxies de GProxy y Apify? +
Sí, proporciona ambos en el array proxyUrls. Crawlee rotará entre ellos, dándote diversidad de IP de múltiples pools.
¿Funciona GProxy con los cloud actors de Apify? +
Sí, establece el proxyConfiguration en el input de tu actor para usar URLs de proxy externas. No se necesitan cambios de código si tu actor utiliza el ProxyConfiguration estándar.
¿Cómo manejo las solicitudes fallidas? +
Crawlee reintenta automáticamente las solicitudes fallidas con el failedRequestHandler. Las IPs rotativas de GProxy significan que los reintentos usan una IP diferente, aumentando las tasas de éxito.

¿Listo para empezar?

Comience con GProxy en minutos — proxies residenciales desde $0.85/GB, IPv6 desde $0.03/proxy, pago por uso.

Otras integraciones

support_agent
GProxy Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.