Zum Inhalt springen

Wie man GProxy Proxies mit Apify Actors verwendet

TL;DR

Konfigurieren Sie GProxy residential und datacenter proxies mit Apify actors für web scraping. Deckt proxy Konfiguration, Crawlee Integration und Kostenoptimierung ab.

Sprache: JavaScript / Platform

Voraussetzungen

  • Apify-Konto (kostenlos oder kostenpflichtig)
  • Node.js 16+ für die lokale Entwicklung
  • GProxy-Konto mit aktivem Proxy-Plan
  • Vertrautheit mit Apify-Actors oder Crawlee

Schritt-für-Schritt-Einrichtung

1

Crawlee installieren

Richten Sie ein Crawlee-Projekt für Ihren Actor ein

npx crawlee create my-scraper
cd my-scraper
npm install
2

GProxy als externen Proxy konfigurieren

ProxyConfiguration mit GProxy-URL einrichten

import { ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
3

Mit CheerioCrawler verwenden

Proxy zu Ihrem Cheerio-basierten Scraper hinzufügen

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ request, $ }) {
    const title = $('title').text();
    console.log(title);
  }
});
4

Mit PlaywrightCrawler verwenden

Proxy zu Browser-basiertem Scraper hinzufügen

import { PlaywrightCrawler } from 'crawlee';

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  async requestHandler({ page }) {
    const title = await page.title();
    console.log(title);
  }
});
5

Auf Apify deployen

Push Ihres Actors auf die Apify-Plattform

apify login
apify push
6

Proxy in der Apify Console einstellen

Proxy-URL im Actor-Input konfigurieren

Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }

Codebeispiele

CheerioCrawler mit GProxy · javascript
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});

const crawler = new CheerioCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 20,
  requestHandlerTimeoutSecs: 30,

  async requestHandler({ request, $, proxyInfo }) {
    console.log(`${request.url} via ${proxyInfo.url}`);
    const title = $('title').text();
    const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
    
    await Dataset.pushData({ url: request.url, title, links });
  },

  async failedRequestHandler({ request }) {
    console.log(`Failed: ${request.url}`);
  }
});

await crawler.run(['https://example.com']);
PlaywrightCrawler mit Geo-Targeting · javascript
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';

const proxyConfig = new ProxyConfiguration({
  proxyUrls: [
    'http://USER-country-us:PASS@proxy.gproxy.net:1000',
    'http://USER-country-de:PASS@proxy.gproxy.net:1000',
    'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
  ]
});

const crawler = new PlaywrightCrawler({
  proxyConfiguration: proxyConfig,
  maxConcurrency: 5,
  launchContext: {
    launchOptions: { headless: true }
  },

  async requestHandler({ page, request }) {
    await page.waitForLoadState('domcontentloaded');
    const title = await page.title();
    console.log(`${request.url}: ${title}`);
  }
});

await crawler.run(['https://example.com']);

Warum GProxy mit Apify verwenden?

Apify ist eine Web-Scraping- und Automatisierungsplattform, die cloudbasierte Actors ausführt. Während Apify einen eigenen proxy-Dienst anbietet, bietet GProxy eine kostengünstige Alternative mit über 10M+ residential IPs in mehr als 150 Ländern. Die Verwendung von GProxy als externer proxy mit Apify-Actors bietet Ihnen bessere Preise, mehr IP-Diversität und die volle Kontrolle über Ihre proxy-Infrastruktur.

Externe Proxy-Konfiguration

Apify-Actors, die mit Crawlee (ehemals Apify SDK) erstellt wurden, unterstützen die externe proxy-Konfiguration über die ProxyConfiguration-Klasse. Übergeben Sie die proxy-URL von GProxy als benutzerdefinierte proxy-URL, und Crawlee wird alle Anfragen automatisch darüber leiten.

Crawlee-Integration

Crawlee ist die Open-Source-Web-Scraping-Bibliothek von Apify für Node.js. Sie unterstützt CheerioCrawler (schnelles HTTP), PlaywrightCrawler (Browser) und PuppeteerCrawler (Chrome). Alle drei unterstützen externe proxies über die proxyConfiguration-Option.

Kostenoptimierung

Das Preismodell von GProxy kann für Scraping mit hohem Volumen kosteneffizienter sein als die integrierten proxies von Apify. Verwenden Sie GProxy-Datacenter-proxies für unempfindliche Ziele und residential proxies für Websites mit starkem Anti-Bot-Schutz. Dieser gestufte Ansatz optimiert Ihre gesamten Scraping-Kosten.

Session-Management

Der Session-Pool von Apify funktioniert mit den Sticky-Sessions von GProxy. Behalten Sie dieselbe IP über mehrere Anfragen hinweg bei, um login-geschütztes Scraping oder mehrseitige Navigation durchzuführen. Konfigurieren Sie das maximale Session-Alter und die Rotationsfrequenz, um ein Gleichgewicht zwischen IP-Frische und Session-Kontinuität zu finden.

Best Practices für die Skalierung

Wenn Sie Apify-Actors mit GProxy-proxies skalieren, legen Sie angemessene Concurrency-Limits basierend auf Ihrem GProxy-Plan fest. Beginnen Sie mit 10-20 gleichzeitigen Verbindungen und skalieren Sie nach oben. Die Infrastruktur von GProxy bewältigt hohe Concurrency, aber das Respektieren der Zielseiten-Limits verhindert unnötige Blocks.

Anwendungsfälle

Large-Scale Web Scraping

Führen Sie Apify actors mit dem massiven Residential-Pool von GProxy aus, um eine zuverlässige Datenextraktion im großen Stil zu gewährleisten.

E-commerce Monitoring

Verfolgen Sie Preise und Lagerbestände bei verschiedenen Einzelhändlern mithilfe von geo-targeted Proxies für lokalisierte Daten.

SEO Monitoring

Überprüfen Sie Suchrankings aus verschiedenen Ländern mit Apify actors und dem Geo-Targeting von GProxy.

Data Pipeline Automation

Erstellen Sie automatisierte Daten-Pipelines, die Webdaten mit zuverlässiger Proxy-Rotation sammeln und verarbeiten.

Profi-Tipps
Verwenden Sie GProxy datacenter proxies für nicht geschützte Websites und residential für Ziele mit starken Anti-Bot-Maßnahmen. Stellen Sie maxConcurrency basierend auf Ihren GProxy-Plan-Limits ein. Aktivieren Sie die integrierte session rotation von Crawlee für die beste IP-Diversität. Speichern Sie GProxy-Zugangsdaten im key-value store von Apify, nicht fest im Code.

FAQ

Warum GProxy anstelle der integrierten Proxys von Apify verwenden? +
GProxy bietet wettbewerbsfähige Preise, 10M+ residential IPs und funktioniert mit all Ihren Tools — nicht nur mit Apify. Wenn Sie bereits einen GProxy-Plan haben, spart die Nutzung mit Apify Kosten.
Kann ich GProxy- und Apify-Proxys mischen? +
Ja, geben Sie beide im proxyUrls-Array an. Crawlee wird zwischen ihnen rotieren, was Ihnen IP-Diversität aus mehreren Pools bietet.
Funktioniert GProxy mit Apify Cloud Actors? +
Ja, stellen Sie die proxyConfiguration in den Eingaben Ihres Actors so ein, dass externe Proxy-URLs verwendet werden. Keine Code-Änderungen erforderlich, wenn Ihr Actor die Standard-ProxyConfiguration verwendet.
Wie gehe ich mit fehlgeschlagenen Anfragen um? +
Crawlee wiederholt fehlgeschlagene Anfragen automatisch mit dem failedRequestHandler. Die rotierenden IPs von GProxy bedeuten, dass Wiederholungen eine andere IP verwenden, was die Erfolgsquoten erhöht.

Bereit loszulegen?

Starten Sie mit GProxy in Minuten — Residential-Proxies ab $0,85/GB, IPv6 ab $0,03/Proxy, nutzungsbasierte Abrechnung.

Weitere Integrationen

support_agent
GProxy Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.