6月份心血来潮,想学数据分析, 想了好久应该去做什么,最后想到,何不去抓一把淘宝的数据去来分析分析? 淘宝拥有海量的商品数据和用户购买记录,我想只要分析得当,淘宝这面镜子都应该能照出国家宏观经济状况数据.

于是动手写了个爬虫,连续抓了一周多时间,爬取了淘宝全部商品信息(除去二手商品),包括每个商品的类目,名字,销量,价格,相似商品数量等信息。近两天有时间,简单分析了其中一个保健品的类目.

不要问我为什么只分析一个类目,而不是把所有商品数据放一起分析?等你体会过机器卡到动不了的感受后,你就明白什么叫海量数据分析的基本硬件配置了。

淘宝目前除二手商品外,共86个类目,这次分析的保健品类目共约24.5W个单品,月销售总额约1.5亿。

先放一张绝对震撼的图,这张图的名字叫”惨烈”.

这张图的X轴表示月销量,Y轴左边表示具有此月销量的商品有多少个,右边是相应的百分比。 X轴第一个点表示,有约16W的商品(65%)月销量是0! 约20W(80%)的商品销量<=1! 95%的商品月销量<=9!

是否在淘宝繁荣的背后,看到了另一层真实? 我们能看到的,始终只是这个繁华世界的太小的一个切片.

注: 因销量长尾太长,(最高单品销量达到14000多,故省去了销量大于60以上的部分,否则图形会长到收不住.反正看这图形就能明白,销量越高,曲线也就越来越接近100%)

还记得每次你去淘宝买东西,搜索关键词后, 前排第一页出现的总是一些销量其高的商品,而排在后面位置的商品,即使是一模一样的东西,甚至价格更便宜,也是无人问津的场景么?

你看到的就是这张图.

从第一张图中可以看到销量小于60商品数量约占总数的99%,经过计算,得到这些商品总销售额约为7500W,刚好接近50%! 简单点说,就是1%的商品(卖家)占据了总销售额的50%。 再分析一张相似商品图.

X轴是销量,Y轴是相似商品的数量,可以看到大部分点集中于图的左部,销量很低的商品要不相似物品很少(本来就没什么生意),要不就相似商品很多(人太多了,分摊到单品的销量也就少了), 再看图的右上角, 销量很高的商品,也伴随着非常多的相似产品,从这图中可以看出来,要想爬到图的右上角,得要付出多少努力。再看右下角,空空如也,淘宝上不会存在销量很高却没有相似商品和其竞争的商品的,因为淘宝是一个充分竞争的市场.

再看下单品价格分布:

由图可见,销量最好的区间在100-200,有10W多的销量,其次是0-100, 整个市场90%的销量集中在0-500的区间.

最后再看一张商品来源的图。

这张图中清楚看出,整个保健品类目,代购商品的销售额已经占到60%多了,其中以美国,澳洲,日本最多,其次是德国,新西兰,香港,台湾,韩国,法国等,可以看出,在保健品方面,国产货比例不足一半,目前虽仍占最大份额,只怕仍然会继续萎缩,而其原因,你我皆知,些许悲哀.