Wie man GProxy Proxies mit Apify Actors verwendet
Konfigurieren Sie GProxy residential und datacenter proxies mit Apify actors für web scraping. Deckt proxy Konfiguration, Crawlee Integration und Kostenoptimierung ab.
Voraussetzungen
- ✓Apify-Konto (kostenlos oder kostenpflichtig)
- ✓Node.js 16+ für die lokale Entwicklung
- ✓GProxy-Konto mit aktivem Proxy-Plan
- ✓Vertrautheit mit Apify-Actors oder Crawlee
Schritt-für-Schritt-Einrichtung
Crawlee installieren
Richten Sie ein Crawlee-Projekt für Ihren Actor ein
npx crawlee create my-scraper
cd my-scraper
npm install
GProxy als externen Proxy konfigurieren
ProxyConfiguration mit GProxy-URL einrichten
import { ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
Mit CheerioCrawler verwenden
Proxy zu Ihrem Cheerio-basierten Scraper hinzufügen
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ request, $ }) {
const title = $('title').text();
console.log(title);
}
});
Mit PlaywrightCrawler verwenden
Proxy zu Browser-basiertem Scraper hinzufügen
import { PlaywrightCrawler } from 'crawlee';
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
async requestHandler({ page }) {
const title = await page.title();
console.log(title);
}
});
Auf Apify deployen
Push Ihres Actors auf die Apify-Plattform
apify login
apify push
Proxy in der Apify Console einstellen
Proxy-URL im Actor-Input konfigurieren
Actor input → proxyConfiguration:
{ "useApifyProxy": false, "proxyUrls": ["http://USER:PASS@proxy.gproxy.net:1000"] }
Codebeispiele
import { CheerioCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: ['http://USER:PASS@proxy.gproxy.net:1000']
});
const crawler = new CheerioCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 20,
requestHandlerTimeoutSecs: 30,
async requestHandler({ request, $, proxyInfo }) {
console.log(`${request.url} via ${proxyInfo.url}`);
const title = $('title').text();
const links = $('a[href]').map((_, el) => $(el).attr('href')).get();
await Dataset.pushData({ url: request.url, title, links });
},
async failedRequestHandler({ request }) {
console.log(`Failed: ${request.url}`);
}
});
await crawler.run(['https://example.com']);
import { PlaywrightCrawler, ProxyConfiguration } from 'crawlee';
const proxyConfig = new ProxyConfiguration({
proxyUrls: [
'http://USER-country-us:PASS@proxy.gproxy.net:1000',
'http://USER-country-de:PASS@proxy.gproxy.net:1000',
'http://USER-country-gb:PASS@proxy.gproxy.net:1000',
]
});
const crawler = new PlaywrightCrawler({
proxyConfiguration: proxyConfig,
maxConcurrency: 5,
launchContext: {
launchOptions: { headless: true }
},
async requestHandler({ page, request }) {
await page.waitForLoadState('domcontentloaded');
const title = await page.title();
console.log(`${request.url}: ${title}`);
}
});
await crawler.run(['https://example.com']);
Warum GProxy mit Apify verwenden?
Apify ist eine Web-Scraping- und Automatisierungsplattform, die cloudbasierte Actors ausführt. Während Apify einen eigenen proxy-Dienst anbietet, bietet GProxy eine kostengünstige Alternative mit über 10M+ residential IPs in mehr als 150 Ländern. Die Verwendung von GProxy als externer proxy mit Apify-Actors bietet Ihnen bessere Preise, mehr IP-Diversität und die volle Kontrolle über Ihre proxy-Infrastruktur.
Externe Proxy-Konfiguration
Apify-Actors, die mit Crawlee (ehemals Apify SDK) erstellt wurden, unterstützen die externe proxy-Konfiguration über die ProxyConfiguration-Klasse. Übergeben Sie die proxy-URL von GProxy als benutzerdefinierte proxy-URL, und Crawlee wird alle Anfragen automatisch darüber leiten.
Crawlee-Integration
Crawlee ist die Open-Source-Web-Scraping-Bibliothek von Apify für Node.js. Sie unterstützt CheerioCrawler (schnelles HTTP), PlaywrightCrawler (Browser) und PuppeteerCrawler (Chrome). Alle drei unterstützen externe proxies über die proxyConfiguration-Option.
Kostenoptimierung
Das Preismodell von GProxy kann für Scraping mit hohem Volumen kosteneffizienter sein als die integrierten proxies von Apify. Verwenden Sie GProxy-Datacenter-proxies für unempfindliche Ziele und residential proxies für Websites mit starkem Anti-Bot-Schutz. Dieser gestufte Ansatz optimiert Ihre gesamten Scraping-Kosten.
Session-Management
Der Session-Pool von Apify funktioniert mit den Sticky-Sessions von GProxy. Behalten Sie dieselbe IP über mehrere Anfragen hinweg bei, um login-geschütztes Scraping oder mehrseitige Navigation durchzuführen. Konfigurieren Sie das maximale Session-Alter und die Rotationsfrequenz, um ein Gleichgewicht zwischen IP-Frische und Session-Kontinuität zu finden.
Best Practices für die Skalierung
Wenn Sie Apify-Actors mit GProxy-proxies skalieren, legen Sie angemessene Concurrency-Limits basierend auf Ihrem GProxy-Plan fest. Beginnen Sie mit 10-20 gleichzeitigen Verbindungen und skalieren Sie nach oben. Die Infrastruktur von GProxy bewältigt hohe Concurrency, aber das Respektieren der Zielseiten-Limits verhindert unnötige Blocks.
Anwendungsfälle
Large-Scale Web Scraping
Führen Sie Apify actors mit dem massiven Residential-Pool von GProxy aus, um eine zuverlässige Datenextraktion im großen Stil zu gewährleisten.
E-commerce Monitoring
Verfolgen Sie Preise und Lagerbestände bei verschiedenen Einzelhändlern mithilfe von geo-targeted Proxies für lokalisierte Daten.
SEO Monitoring
Überprüfen Sie Suchrankings aus verschiedenen Ländern mit Apify actors und dem Geo-Targeting von GProxy.
Data Pipeline Automation
Erstellen Sie automatisierte Daten-Pipelines, die Webdaten mit zuverlässiger Proxy-Rotation sammeln und verarbeiten.
FAQ
Warum GProxy anstelle der integrierten Proxys von Apify verwenden? +
Kann ich GProxy- und Apify-Proxys mischen? +
Funktioniert GProxy mit Apify Cloud Actors? +
Wie gehe ich mit fehlgeschlagenen Anfragen um? +
Bereit loszulegen?
Starten Sie mit GProxy in Minuten — Residential-Proxies ab $0,85/GB, IPv6 ab $0,03/Proxy, nutzungsbasierte Abrechnung.
