Skip to content

Abrahum Link

Tag: #Pixiv

Pixiv数据分析

寒假的时候利用家里不计费的网爬取了600w+P站的图片数据。一开始的目的是解决:由于P站本身的搜索页面1000页限制,而导致的无法通过搜索爬取较早图片信息,这一问题。所以在爬取的一开始,我的目标是获取高收藏的高质量作品。我采取的爬取策略是通过第一个画师的收藏夹开始,获取他收藏夹内的图片信息,接着将这些图片的画师id加入画师数据库。当当前画师的收藏夹爬取完毕后,就从画师数据库中随机抽取一个新的画师重复之前的步骤。这样的策略可以从点到面的快速、无休止地多线程爬取高质量的画作。