成都理工大学招生信息网专业信息自动化实战

🎯 项目背景

这篇文章分享的是成都理工大学招生信息网（🔗学院专业页面）的自动化爬取实战：它有瑞数五代动态验证、自动化行为检测、动态Cookie/请求头校验等反爬屏障，纯静态请求（requests/urllib裸连）根本拿不到真实数据，必须用带浏览器渲染的方案。

最终我们实现了绕过所有防护 → 模拟人类操作 → 提取学院专业数据 → 导出Excel的全流程。

🕵️ 网页快速分析

首先看一眼目标页结构：

页面是学院专业列表的静态布局？但刷新后会发现有短暂的瑞数安全跳转
数据用ul.xy-list下的li.li1包裹学院，每个学院下的dd.a存专业

防护层的细节（通过开发者工具Network+Console观察）：

首次请求会返回瑞数混淆脚本，生成sMLAeTqisZbFP等动态Cookie
会检测navigator.webdriver、浏览器特征变量、鼠标/键盘行为
412错误是请求头缺失的典型表现，SSL证书偶尔会有本地验证失败的问题

🚩 核心问题清单

动态Cookie更新：瑞数的Cookie有效期短，纯静态维护会失效
瑞数五代绕过：混淆JS生成验证数据，静态逆向难度极大
SSL证书验证：部分测试环境会拦截HTTPS请求
完整请求头构建：Referer、Accept-Language等字段缺一不可
反自动化检测：隐藏浏览器特征、模拟随机操作

🏗️ 技术架构

我们采用 「DrissionPage浏览器自动化 + 反检测JS注入 + urllib安全请求」 的混合方案：

DrissionPage：比Selenium轻量，自带等待机制，适合复杂渲染页
反检测JS：直接覆盖浏览器自动化特征
urllib：在拿到有效Cookie后，用来做数据提取的轻量请求，减少浏览器资源消耗

💻 核心功能实现

1. 浏览器初始化配置

from DrissionPage import ChromiumPage

class AntiAntiSpider:
    def __init__(self):
        self.browser = ChromiumPage(timeout=15)
        self.browser.set.window.max()  # 最大化窗口降低分辨率/视口特征
        self.target_url = "https://www.zs.cdut.edu.cn/xyzy.htm"

⚠️ 关键参数：

timeout=15：给足瑞数脚本执行时间

set.window.max()：避免小窗口/固定分辨率这类典型的自动化特征

2. 反自动化JS注入

瑞数会通过检查navigator.webdriver、CDP注入特征变量、debugger断点来识别爬虫，我们直接在页面加载前注入JS覆盖这些检测点：

// 核心注入代码
// 1. 禁用所有类型的debugger
window.debugger = function(){};
Object.defineProperty(window, 'debugger', {
    get: function(){ return null; },
    set: function(){},
    configurable: false
});

// 2. 覆盖Selenium/CDP的webdriver标识
Object.defineProperty(navigator, 'webdriver', {get: () => undefined});
Object.defineProperty(window, 'navigator', {value: {webdriver: undefined}});

// 3. 删除CDP特征变量（常见于Selenium/Playwright）
const propsToDelete = [
    'cdc_adoQpoasnfa76pfcZLmcfl_Array',
    'cdc_adoQpoasnfa76pfcZLmcfl_Object',
    'cdc_adoQpoasnfa76pfcZLmcfl_Promise',
    'cdc_adoQpoasnfa76pfcZLmcfl_Proxy',
    'cdc_adoQpoasnfa76pfcZLmcfl_Symbol'
];
propsToDelete.forEach(prop => delete window[prop]);

// 4. 拦截含debugger的setInterval/setTimeout
const originalSetInterval = window.setInterval;
window.setInterval = function(callback, delay) {
    if (callback.toString().includes('debugger')) return 0;
    return originalSetInterval(callback, delay);
};
const originalSetTimeout = window.setTimeout;
window.setTimeout = function(callback, delay) {
    if (callback.toString().includes('debugger')) return 0;
    return originalSetTimeout(callback, delay);
};

3. 人类行为模拟

瑞数还会检查鼠标/键盘/滚动行为，我们加入简单的随机操作：

import time
import random

def simulate_human_behavior(self):
    # 非匀速随机滚动3-5次
    for _ in range(random.randint(3, 5)):
        scroll_px = random.randint(200, 900)
        self.browser.scroll.down(scroll_px)
        time.sleep(random.uniform(0.4, 1.8))  # 0.4-1.8秒的随机间隔

    # 滚动回顶部附近
    self.browser.scroll.to_top()
    time.sleep(random.uniform(0.6, 1.2))

    # 点击页面空白处（避免页面无交互特征）
    self.browser.ele("tag:body").click()
    time.sleep(random.uniform(0.8, 1.5))

4. 瑞数安全核心绕过

混合方案的关键：先让浏览器过瑞数验证，再把有效Cookie传给urllib做轻量请求

def bypass_ruishi(self):
    try:
        # 首次访问触发瑞数验证
        self.browser.get(self.target_url)
        # 注入反检测JS（要在页面刚加载，瑞数还没完全执行时注入）
        self.browser.run_js(self.anti_detection_js)

        # 核心等待：先等页面开始加载真实内容，再额外等3-6秒
        self.browser.wait.load_start()
        wait_time = random.uniform(4, 6)
        time.sleep(wait_time)
        print(f"瑞数验证等待时间：{wait_time:.1f}s")

        # 检查验证是否通过
        if "验证" in self.browser.title or "瑞数" in self.browser.html:
            raise Exception("瑞数验证触发，可能需要更新反检测JS或手动确认")

        return True

    except Exception as e:
        print(f"❌ 瑞数验证处理失败: {str(e)}")
        return False

📡 请求构造模块

拿到有效Cookie后，我们用urllib封装安全请求，避免频繁打开/关闭浏览器页面，也降低反爬风险。

1. 动态Cookie提取

def get_cookies_dict(self):
    cookies = self.browser.cookies()
    return {cookie['name']: cookie['value'] for cookie in cookies}

✅ 提取的关键Cookie：

JSESSIONID：会话标识

sMLAeTqisZbFP：瑞数五代动态令牌

2. 完整请求头构建

瑞数对请求头非常敏感，Referer、User-Agent、Accept-Language、Sec-Fetch-* 系列字段缺一不可：

def create_request(self, url, cookies=None, headers=None):
    if headers is None:
        headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Pragma": "no-cache",
            "Referer": self.target_url,  # 必须和目标域名一致
            "Sec-Fetch-Dest": "document",
            "Sec-Fetch-Mode": "navigate",
            "Sec-Fetch-Site": "same-origin",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
        }

    req = urllib.request.Request(url, headers=headers)

    if cookies:
        cookie_str = "; ".join([f"{k}={v}" for k, v in cookies.items()])
        req.add_header("Cookie", cookie_str)

    return req

3. 安全请求封装

加入随机延迟、重试机制、禁用SSL验证：

import ssl
import urllib.request
from urllib.error import URLError, HTTPError

def safe_urlopen(self, url, max_retries=3, timeout=30):
    cookies = self.get_cookies_dict()

    for i in range(max_retries):
        try:
            req = self.create_request(url, cookies=cookies)
            # 禁用SSL验证（仅用于测试环境，生产环境建议安装目标证书）
            context = ssl._create_unverified_context()
            # 随机延迟1-3秒
            time.sleep(random.uniform(1, 3))

            with urllib.request.urlopen(req, timeout=timeout, context=context) as response:
                return response.read().decode('utf-8')

        except (URLError, HTTPError) as e:
            print(f"⚠️ 尝试 {i + 1}/{max_retries} 失败: {str(e)}")
            if i < max_retries - 1:
                time.sleep(random.uniform(2, 5))
                continue
            raise Exception(f"❌ 所有 {max_retries} 次请求均失败")

📊 数据提取与导出

拿到真实HTML后，用BeautifulSoup解析，pandas导出Excel：

import pandas as pd
from bs4 import BeautifulSoup

# 解析并提取数据
with open("result.html", "r", encoding="utf-8") as f:
    html_content = f.read()

soup = BeautifulSoup(html_content, 'html.parser')
data = []

# 遍历每个学院的li标签
for li in soup.find_all('li', class_='li1'):
    h6 = li.find('h6')
    if h6:
        college_name = h6.find('i').text.strip()
        # 遍历该学院下的所有专业
        for dd in li.find_all('dd'):
            a_tag = dd.find('a')
            if a_tag:
                major_name = a_tag.text.strip()
                # 拼接专业链接的绝对路径（处理相对链接）
                major_url = urllib.parse.urljoin("https://www.zs.cdut.edu.cn", a_tag['href'])
                data.append({
                    '学院名称': college_name,
                    '专业名称': major_name,
                    '专业链接': major_url
                })

# 导出Excel
excel_file = '成都理工大学学院专业信息.xlsx'
with pd.ExcelWriter(excel_file, engine='openpyxl') as writer:
    df = pd.DataFrame(data)
    df.to_excel(writer, index=False, sheet_name='学院专业列表')

print(f"✅ 数据已成功保存到 {excel_file}")

🛡️ 异常处理方案

错误类型	触发条件	解决方案
瑞数验证失败	检测到自动化特征	1. 更新反检测JS 2. 增加随机等待时间 3. 检查是否有最新的CDP特征变量
412 Precondition Failed	请求头不完整	1. 补全Referer和Sec-Fetch-*系列字段 2. 更新User-Agent到最新Chrome版本
连接重置/503错误	IP被临时封禁	1. 降低请求频率到2-5秒/次 2. 启用DrissionPage的代理功能
SSL证书验证失败	本地HTTPS拦截	1. 测试环境用`ssl._create_unverified_context()` 2. 生产环境安装目标网站的根证书

📝 环境与执行

环境要求

Python 3.8+
Chrome/Chromium 100+（自动下载DrissionPage内置的Chromium也可以）
依赖库：

pip install DrissionPage pandas beautifulsoup4 openpyxl

执行命令

python cdut_spider.py

输出示例

✅ 瑞数验证等待时间：4.7s
开始模拟人类操作...
获取页面数据...
✅ 成功获取受保护数据！
关闭浏览器...
✅ 数据已成功保存到 成都理工大学学院专业信息.xlsx

📌 注意事项

仅供学习交流使用：请勿用于商业用途或大规模爬取，尊重学校的服务器资源
瑞数更新较快：如果反检测JS失效，需要通过开发者工具观察新的检测点并更新
代理IP慎用：学校网站的反爬主要是特征检测，IP封禁较少，频繁换代理反而可能增加特征
数据更新：建议定期检查学校招生网的页面结构，调整BeautifulSoup的解析逻辑

成都理工大学招生信息网专业信息自动化实战#

#🎯 项目背景

#🕵️ 网页快速分析

#🚩 核心问题清单

#🏗️ 技术架构

#💻 核心功能实现

#1. 浏览器初始化配置

#2. 反自动化JS注入

#3. 人类行为模拟

#4. 瑞数安全核心绕过

#📡 请求构造模块

#1. 动态Cookie提取

#2. 完整请求头构建

#3. 安全请求封装

#📊 数据提取与导出

#🛡️ 异常处理方案

#📝 环境与执行

#环境要求

#执行命令

#输出示例

#📌 注意事项