【Python】Webスクレイピング_proxy認証を突破する

2024年2月17日Python,Selenium

処理概要

Seleniumでproxy接続時の認証ダイアログを突破する


事前準備

  • proxy認証に必要なマニフェストファイルを生成するコードを作成し配置しておく
  • このファイルをスクレイピング実行時に外部モジュールとしてインポートして利用する

マニフェストファイル生成コードのサンプル

proxy_auth_plugin.py

def make_plugin():
    import zipfile

    PROXY_HOST = 'host or ip'
    PROXY_PORT = 80 # port番号
    PROXY_USER = 'ユーザーネーム' # username
    PROXY_PASS = 'パスワード' # password

    manifest_json = """
    {
        "version": "1.0.0",
        "manifest_version": 2,
        "name": "Chrome Proxy",
        "permissions": [
            "proxy",
            "tabs",
            "unlimitedStorage",
            "storage",
            "<all_urls>",
            "webRequest",
            "webRequestBlocking"
        ],
        "background": {
            "scripts": ["background.js"]
        },
        "minimum_chrome_version":"22.0.0"
    }
    """

    background_js = """
    var config = {
            mode: "fixed_servers",
            rules: {
            singleProxy: {
                scheme: "http",
                host: "%s",
                port: parseInt(%s)
            },
            bypassList: ["localhost"]
            }
        };

    chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

    function callbackFn(details) {
        return {
            authCredentials: {
                username: "%s",
                password: "%s"
            }
        };
    }

    chrome.webRequest.onAuthRequired.addListener(
                callbackFn,
                {urls: ["<all_urls>"]},
                ['blocking']
    );
    """ % (PROXY_HOST, PROXY_PORT, PROXY_USER, PROXY_PASS)

    pluginfile = 'proxy_auth_plugin.zip'

    with zipfile.ZipFile(pluginfile, 'w') as zp:
        zp.writestr("manifest.json", manifest_json)
        zp.writestr("background.js", background_js)

オプションの設定

chrome_options.add_extension (pluginfile)

  • 認証に必要なマニフェストファイルをオプションで指定する
  • 実行の都度マニフェストファイルの存在をチェックし、なければ生成する
from pathlib import Path

import chromedriver_binary_sync
from selenium import webdriver
from selenium.webdriver.chrome import service as fs

import proxy_auth_plugin as proxy

# ========================================
# 初期処理
# ========================================
# ChromeDriverをダウンロードしてパスを定数に格納する
CHROMEDRIVER = chromedriver_binary_sync.download(download_dir='chromedriver')
chrome_service = fs.Service(executable_path=CHROMEDRIVER)

# オプション用のパス指定
pluginfile = Path('proxy_auth_plugin.zip')
dl_folder = 'C:\temp'

if not Path.exists(pluginfile):
    proxy.make_plugin()

# オプション設定
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_experimental_option('prefs', {'download.default_directory': dl_folder})
chrome_options.add_extension(pluginfile)

# ========================================
# メイン処理
# ========================================
# ブラウザを起動する
driver = webdriver.Chrome(service=chrome_service, options=chrome_options)

# proxy認証が必要なURLを開く
driver.get('proxy認証が必要なURL')

参考サイト

下記サイトを参考にしました

https://rdk.me/proxy-selenium/