aiohttp и прокси
aiohttp — самая популярная асинхронная HTTP-библиотека для Python. Она позволяет отправлять тысячи одновременных запросов, что делает её идеальной для парсинга и автоматизации. Поддержка прокси в aiohttp — ключевая функция для масштабных задач.
Базовое использование прокси
HTTP прокси
Простейший способ использования HTTP-прокси в aiohttp — параметр proxy в методе запроса:
import aiohttp
import asyncio
async def fetch_with_proxy():
proxy = "http://proxy_ip:port"
async with aiohttp.ClientSession() as session:
async with session.get(
"https://httpbin.org/ip",
proxy=proxy
) as response:
data = await response.json()
print(data)
asyncio.run(fetch_with_proxy())
Прокси с аутентификацией
Для прокси с логином и паролем используйте BasicAuth:
import aiohttp
import asyncio
async def fetch_with_auth_proxy():
proxy = "http://proxy_ip:port"
proxy_auth = aiohttp.BasicAuth("username", "password")
async with aiohttp.ClientSession() as session:
async with session.get(
"https://httpbin.org/ip",
proxy=proxy,
proxy_auth=proxy_auth
) as response:
data = await response.json()
print(data)
asyncio.run(fetch_with_auth_proxy())
Альтернативный формат — credentials в URL:
proxy = "http://username:password@proxy_ip:port"
SOCKS5 прокси
Установка aiohttp-socks
aiohttp не поддерживает SOCKS нативно. Установите aiohttp-socks:
pip install aiohttp-socks
Использование
import aiohttp
from aiohttp_socks import ProxyConnector
async def fetch_with_socks():
connector = ProxyConnector.from_url("socks5://user:pass@proxy_ip:port")
async with aiohttp.ClientSession(connector=connector) as session:
async with session.get("https://httpbin.org/ip") as response:
data = await response.json()
print(data)
asyncio.run(fetch_with_socks())
Поддерживаемые протоколы
ProxyConnector поддерживает:
- socks5://
- socks4://
- http://
- https://
Ротация прокси
Простая ротация
import aiohttp
import asyncio
import random
PROXIES = [
"http://user:pass@proxy1:port",
"http://user:pass@proxy2:port",
"http://user:pass@proxy3:port",
]
async def fetch_with_rotation(url):
proxy = random.choice(PROXIES)
async with aiohttp.ClientSession() as session:
async with session.get(url, proxy=proxy) as response:
return await response.text()
async def main():
urls = ["https://example.com"] * 10
tasks = [fetch_with_rotation(url) for url in urls]
results = await asyncio.gather(*tasks, return_exceptions=True)
for r in results:
if isinstance(r, Exception):
print(f"Error: {r}")
else:
print(f"OK: {len(r)} bytes")
asyncio.run(main())
Ротация с исключением нерабочих
import aiohttp
import asyncio
from collections import deque
class ProxyRotator:
def __init__(self, proxies):
self.proxies = deque(proxies)
self.failed = set()
def get_proxy(self):
for _ in range(len(self.proxies)):
proxy = self.proxies[0]
self.proxies.rotate(-1)
if proxy not in self.failed:
return proxy
raise Exception("All proxies failed")
def mark_failed(self, proxy):
self.failed.add(proxy)
def mark_success(self, proxy):
self.failed.discard(proxy)
async def fetch(session, url, rotator, retries=3):
for attempt in range(retries):
proxy = rotator.get_proxy()
try:
async with session.get(url, proxy=proxy, timeout=aiohttp.ClientTimeout(total=10)) as resp:
if resp.status == 200:
rotator.mark_success(proxy)
return await resp.text()
elif resp.status == 403:
rotator.mark_failed(proxy)
except Exception:
rotator.mark_failed(proxy)
return None
Параллельные запросы с лимитом
Semaphore для контроля concurrency
import aiohttp
import asyncio
async def fetch(session, url, proxy, semaphore):
async with semaphore:
try:
async with session.get(url, proxy=proxy, timeout=aiohttp.ClientTimeout(total=15)) as resp:
return await resp.text()
except Exception as e:
return None
async def main():
urls = [f"https://example.com/page/{i}" for i in range(100)]
proxy = "http://user:pass@proxy:port"
semaphore = asyncio.Semaphore(10) # max 10 concurrent
async with aiohttp.ClientSession() as session:
tasks = [fetch(session, url, proxy, semaphore) for url in urls]
results = await asyncio.gather(*tasks)
success = sum(1 for r in results if r)
print(f"Success: {success}/{len(urls)}")
asyncio.run(main())
Настройка сессии
Timeout
timeout = aiohttp.ClientTimeout(
total=30, # общий timeout
connect=10, # timeout подключения
sock_read=10 # timeout чтения
)
session = aiohttp.ClientSession(timeout=timeout)
Headers
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept": "text/html,application/xhtml+xml",
"Accept-Language": "en-US,en;q=0.9",
}
session = aiohttp.ClientSession(headers=headers)
SSL
# Отключение проверки SSL (для тестирования)
import ssl
ssl_context = ssl.create_default_context()
ssl_context.check_hostname = False
ssl_context.verify_mode = ssl.CERT_NONE
session = aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=ssl_context))
Обработка ошибок
import aiohttp
async def safe_fetch(session, url, proxy):
try:
async with session.get(url, proxy=proxy) as resp:
if resp.status == 200:
return await resp.text()
elif resp.status == 407:
print("Proxy authentication required")
elif resp.status == 403:
print("Forbidden - proxy might be banned")
elif resp.status == 429:
print("Rate limited - slow down")
return None
except aiohttp.ClientProxyConnectionError:
print("Cannot connect to proxy")
except aiohttp.ClientConnectorError:
print("Connection error")
except asyncio.TimeoutError:
print("Request timed out")
except Exception as e:
print(f"Unexpected error: {e}")
return None
aiohttp vs requests
| Параметр | aiohttp | requests |
|---|---|---|
| Асинхронность | Да (asyncio) | Нет (синхронный) |
| Concurrency | Тысячи | Ограничен потоками |
| Скорость | Высокая | Средняя |
| Прокси | HTTP, SOCKS (через aiohttp-socks) | HTTP, SOCKS |
| Сложность | Выше (async/await) | Простая |
| Память | Эффективнее | Больше потребление |
Заключение
aiohttp — лучший выбор для асинхронной работы с прокси в Python. Поддержка HTTP и SOCKS5 (через aiohttp-socks), ротация прокси, контроль concurrency и обработка ошибок делают её мощным инструментом для масштабного парсинга и автоматизации.