创建你的首个Scrapy工程 - 项目结构、配置与初始化完整指南
📂 所属阶段:第一阶段 — 初出茅庐(框架核心篇)
🔗 相关章节:Scrapy 五大核心组件 · Spider 实战
装完Scrapy后第一步踩坑点是什么?大概率是「敲完scrapy startproject后一堆文件,不知道哪个该改」。本文帮你快速理清核心结构、配置项,并创建一个能跑的示例爬虫。
环境准备
基础要求
- Python版本: 3.8+(推荐3.9/3.10,兼容性和效率最优)
- 操作系统: Windows/macOS/Linux通用
安装与验证
创建项目
命令行操作
Scrapy提供了标准化的项目生成命令,不用手动搭文件夹:
项目结构详解
标准分层结构
生成的项目是Python包架构,核心文件/目录如下:
核心文件优先级表
先记住哪些是开发初期必须改的:
配置文件详解
仅改开发初期必要的settings.py
默认配置里的大部分项不用动,先改这几个:
1. 基础标识配置
2. 防封核心配置
3. 数据导出配置(学习测试必加)
创建第一个爬虫
用命令快速生成基础爬虫
在spiders/目录下生成指定网站的爬虫:
生成后会在spiders/techcrunch.py里看到模板代码,直接修改即可:
验证与测试
1. 运行爬虫并实时看结果
2. 导出数据到本地文件
3. 交互式调试选择器
如果不确定CSS/XPath对不对,可以用Scrapy Shell:
进入Shell后测试选择器:
常见问题排查
1. scrapy命令找不到
原因: 没有把Python的Scripts目录加入系统PATH 解决方案:
- 虚拟环境下直接激活虚拟环境
- 全局安装的话:
- Windows: 把
C:\Users\你的用户名\AppData\Local\Programs\Python\Python3x\Scripts加入PATH - macOS/Linux: 检查
which python3和which pip3的输出,确保路径一致
- Windows: 把
2. 爬虫启动后立即退出,没有数据
原因: 大概率是CSS/XPath选择器写错了 解决方案: 先用Scrapy Shell调试选择器,确保能提取到内容
3. 403 Forbidden错误
原因: 默认UA被拦截、没有Cookie、请求频率太快
解决方案: 先改USER_AGENT和DOWNLOAD_DELAY试试
最佳实践建议
- 虚拟环境隔离: 每个项目单独创建虚拟环境
- 先调选择器再写代码: 用Scrapy Shell验证所有选择器
- 结构化数据: 尽量用
items.py定义数据,避免直接yield字典 - 日志保留: 加
LOG_FILE = 'logs/scrapy.log'配置,方便排查问题
💡 核心要点:
settings.py和spiders/是开发初期的核心,其他文件(middlewares、pipelines)可以等需要时再改。

