Pixiv数据分析
寒假的时候利用家里不计费的网爬取了600w+P站的图片数据。一开始的目的是解决:由于P站本身的搜索页面1000页限制,而导致的无法通过搜索爬取较早图片信息,这一问题。所以在爬取的一开始,我的目标是获取高收藏的高质量作品。我采取的爬取策略是通过第一个画师的收藏夹开始,获取他收藏夹内的图片信息,接着将这些图片的画师id加入画师数据库。当当前画师的收藏夹爬取完毕后,就从画师数据库中随机抽取一个新的画师重复之前的步骤。这样的策略可以从点到面的快速、无休止地多线程爬取高质量的画作。
从春节过后的初三开始,我断断续续爬了有近百小时(拜坑爹移动所赐,常常一百个链接404回来99个),一共爬了555781位画师的收藏夹,考虑到我的爬取策略会使得画作质量整体偏高,同时P站一共有六千万左右的画作,两千万左右的用户(前段时间还首页公告这个消息来着),我认为数据库对于收藏数一千以上的作品,收录基本完全。
基于此数据库,我做了以下数据分析:
首先说明下,为了避免一些标签的重复霸榜,我把所有xxxusers入り的标签都剔除了。
那么在一万收藏的12058作中,第一位的是原创。嘛,在p站,这很政治正确。第二位ふつくしい是什麽鬼,是个梗吗······漫画这种标签竟然第三也是醉了。
价格来到千元机的档次(好像有什么不对······),一共363575作,R-18火箭上升至第一名···第二名,就是腐向···
好孩子不要逛p站!好孩子不要逛p站!好孩子不要逛p站!
关于R18的问题,我还有个有趣的发现:
十万以上的八位大佬均非R18作品。
在一万的档次,邪恶势力开始崭露头角。
千元机,R18怒占15%。
百元机虽然覆盖所有,但是也可以做个参考,那么就是说p站的R18大概占比15%~20%咯?
为大家送上十万赞八位大佬的链接(数据截止2017.02):