Wie man GProxy Proxies mit Apify Actors verwendet

TL;DR

Konfigurieren Sie GProxy residential und datacenter proxies mit Apify actors für web scraping. Deckt proxy Konfiguration, Crawlee Integration und Kostenoptimierung ab.

Proxies erhalten → Apify Website →

Sprache: JavaScript / Platform

Voraussetzungen

✓Apify-Konto (kostenlos oder kostenpflichtig)
✓Node.js 16+ für die lokale Entwicklung
✓GProxy-Konto mit aktivem Proxy-Plan
✓Vertrautheit mit Apify-Actors oder Crawlee

Schritt-für-Schritt-Einrichtung

Crawlee installieren

Richten Sie ein Crawlee-Projekt für Ihren Actor ein

npx crawlee create my-scraper
cd my-scraper
npm install

GProxy als externen Proxy konfigurieren

ProxyConfiguration mit GProxy-URL einrichten

import { ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

Mit CheerioCrawler verwenden

Proxy zu Ihrem Cheerio-basierten Scraper hinzufügen

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ request, $ }) {
    const title = $('title').text();
    console.log(title);
  }
});

Mit PlaywrightCrawler verwenden

Proxy zu Browser-basiertem Scraper hinzufügen

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ page }) {
    const title = await page.title();
    console.log(title);
  }
});

Auf Apify deployen

Push Ihres Actors auf die Apify-Plattform

apify login
apify push

Proxy in der Apify Console einstellen

Proxy-URL im Actor-Input konfigurieren

Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }

Codebeispiele

CheerioCrawler mit GProxy · javascript

import { CheerioCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 20,
  requestHandlerTimeoutSecs: 30,

  async requestHandler({ request, $, proxyInfo }) {
    console.log(`${request.url} via ${proxyInfo.url}`);
    const title = $('title').text();
    const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
    
    await Dataset.pushData({ url: request.url, title, links });
  },

  async failedRequestHandler({ request }) {
    console.log(`Failed: ${request.url}`);
  }
});

await crawler.run(['https://example.com']);

PlaywrightCrawler mit Geo-Targeting · javascript

import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: [
    'http://USER-country-us:PASS@proxy.gproxy.net:1000',
    'http://USER-country-de:PASS@proxy.gproxy.net:1000',
    'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
  ]
});

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 5,
  launchContext: {
    launchOptions: { headless: true }
  },

  async requestHandler({ page, request }) {
    await page.waitForLoadState('domcontentloaded');
    const title = await page.title();
    console.log(`${request.url}: ${title}`);
  }
});

await crawler.run(['https://example.com']);

Warum GProxy mit Apify verwenden?

Apify ist eine Web-Scraping- und Automatisierungsplattform, die cloudbasierte Actors ausführt. Während Apify einen eigenen proxy-Dienst anbietet, bietet GProxy eine kostengünstige Alternative mit über 10M+ residential IPs in mehr als 150 Ländern. Die Verwendung von GProxy als externer proxy mit Apify-Actors bietet Ihnen bessere Preise, mehr IP-Diversität und die volle Kontrolle über Ihre proxy-Infrastruktur.

Externe Proxy-Konfiguration

Apify-Actors, die mit Crawlee (ehemals Apify SDK) erstellt wurden, unterstützen die externe proxy-Konfiguration über die ProxyConfiguration-Klasse. Übergeben Sie die proxy-URL von GProxy als benutzerdefinierte proxy-URL, und Crawlee wird alle Anfragen automatisch darüber leiten.

Crawlee-Integration

Crawlee ist die Open-Source-Web-Scraping-Bibliothek von Apify für Node.js. Sie unterstützt CheerioCrawler (schnelles HTTP), PlaywrightCrawler (Browser) und PuppeteerCrawler (Chrome). Alle drei unterstützen externe proxies über die proxyConfiguration-Option.

Kostenoptimierung

Das Preismodell von GProxy kann für Scraping mit hohem Volumen kosteneffizienter sein als die integrierten proxies von Apify. Verwenden Sie GProxy-Datacenter-proxies für unempfindliche Ziele und residential proxies für Websites mit starkem Anti-Bot-Schutz. Dieser gestufte Ansatz optimiert Ihre gesamten Scraping-Kosten.

Session-Management

Der Session-Pool von Apify funktioniert mit den Sticky-Sessions von GProxy. Behalten Sie dieselbe IP über mehrere Anfragen hinweg bei, um login-geschütztes Scraping oder mehrseitige Navigation durchzuführen. Konfigurieren Sie das maximale Session-Alter und die Rotationsfrequenz, um ein Gleichgewicht zwischen IP-Frische und Session-Kontinuität zu finden.

Best Practices für die Skalierung

Wenn Sie Apify-Actors mit GProxy-proxies skalieren, legen Sie angemessene Concurrency-Limits basierend auf Ihrem GProxy-Plan fest. Beginnen Sie mit 10-20 gleichzeitigen Verbindungen und skalieren Sie nach oben. Die Infrastruktur von GProxy bewältigt hohe Concurrency, aber das Respektieren der Zielseiten-Limits verhindert unnötige Blocks.

Anwendungsfälle

Large-Scale Web Scraping

Führen Sie Apify actors mit dem massiven Residential-Pool von GProxy aus, um eine zuverlässige Datenextraktion im großen Stil zu gewährleisten.

E-commerce Monitoring

Verfolgen Sie Preise und Lagerbestände bei verschiedenen Einzelhändlern mithilfe von geo-targeted Proxies für lokalisierte Daten.

SEO Monitoring

Überprüfen Sie Suchrankings aus verschiedenen Ländern mit Apify actors und dem Geo-Targeting von GProxy.

Data Pipeline Automation

Erstellen Sie automatisierte Daten-Pipelines, die Webdaten mit zuverlässiger Proxy-Rotation sammeln und verarbeiten.

Profi-Tipps

Verwenden Sie GProxy datacenter proxies für nicht geschützte Websites und residential für Ziele mit starken Anti-Bot-Maßnahmen. Stellen Sie maxConcurrency basierend auf Ihren GProxy-Plan-Limits ein. Aktivieren Sie die integrierte session rotation von Crawlee für die beste IP-Diversität. Speichern Sie GProxy-Zugangsdaten im key-value store von Apify, nicht fest im Code.

FAQ

Warum GProxy anstelle der integrierten Proxys von Apify verwenden? +

GProxy bietet wettbewerbsfähige Preise, 10M+ residential IPs und funktioniert mit all Ihren Tools — nicht nur mit Apify. Wenn Sie bereits einen GProxy-Plan haben, spart die Nutzung mit Apify Kosten.

Kann ich GProxy- und Apify-Proxys mischen? +

Ja, geben Sie beide im proxyUrls-Array an. Crawlee wird zwischen ihnen rotieren, was Ihnen IP-Diversität aus mehreren Pools bietet.

Funktioniert GProxy mit Apify Cloud Actors? +

Ja, stellen Sie die proxyConfiguration in den Eingaben Ihres Actors so ein, dass externe Proxy-URLs verwendet werden. Keine Code-Änderungen erforderlich, wenn Ihr Actor die Standard-ProxyConfiguration verwendet.

Wie gehe ich mit fehlgeschlagenen Anfragen um? +

Crawlee wiederholt fehlgeschlagene Anfragen automatisch mit dem failedRequestHandler. Die rotierenden IPs von GProxy bedeuten, dass Wiederholungen eine andere IP verwenden, was die Erfolgsquoten erhöht.