Python实现豆瓣电影排行榜爬虫及简单数据分析
豆瓣电影排行榜爬虫
数据分析作业代码,豆瓣电影排行榜数据爬取(排名页面+详情页面),进行简单数据分析。
功能说明
- 基本信息爬虫:只爬取排行榜显示的相关信息
- 详情信息爬虫:爬取每个电影详情页信息,建议填写Cookie,避免反爬限制
- 简单数据分析:词云图、热度排名统计、聚类分析、线性回归
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
使用方法
克隆项目
git clone https://github.com/yanyaoli/douban.git
安装依赖
pip install -r requirements.txt
运行项目
python run.py
未使用多线程,可能会有些卡顿。
文件树
douban
├─ gui.py (程序GUI界面)
├─ README.md (说明文件)
├─ run.py (程序入口文件)
├─ utils (存放一些依赖文件)
│ ├─ font.ttf (字体文件)
│ ├─ getPath.py (文件路径获取)
│ ├─ headers.py (请求头获取)
│ ├─ proxy.py (代理池获取)
│ ├─ saveData.py (数据保存)
│ └─ __init__.py
├─ files (存放生成的分析文件)
├─ data (存放爬取的文件)
│ ├─ basic_datacccc.csv (电影详情信息文件)
│ ├─ details_info.csv (电影基本信息文件)
│ ├─ proxyinfo.json (代理池文件)
│ └─ __init__.py
└─ core
├─ basic_spider.py (基本信息爬虫)
├─ cluster.py (聚类分析)
├─ detail_spider.py (详情信息爬虫)
├─ linear.py (线性回归分析)
├─ stat.py (基本信息统计)
├─ word_cloud.py (词云)
└─ __init__.py
使用许可
- 本项目的代码和内容仅供学习和研究使用,不得用于任何违法活动。
- 使用者对使用本项目的代码和内容产生的任何后果负全责。
- 如果本项目的代码或内容侵犯了您的权益,请通过邮箱地址联系我,我将尽快删除相关内容。
转载自:https://juejin.cn/post/7379121513418932261