【技术篇】巴西电商Olist、美客多、亚马逊礼品卡下单支付通道信息如何采集?

Connor 抹茶中国 2024-06-24 17 0

【古哥本项目来自跨境测评技术数据集案例,三大项目类:分析目标、分析数据、分析测评】

全文详细记录了巴西跨境电商平台Olist、Americanas、Amazon、Shopee、美客多 、OLX的真实交易订单测评业务数据,包含以下的内容。

【技术篇】巴西电商Olist、美客多、亚马逊礼品卡下单支付通道信息如何采集?

巴西电商数据分析思维导图

一:【目标分析】

①分析平台

1.通过用户,商家,产品,销售四个维度分析该平台的总体经营状况和所处阶段

2.发现平台存在的问题,分析原因,给出相应的建议

3.对于异常指标的变化,分析原因

4.对未来的工作给出总体方向,目标和合理化建议

②分析搭建数据架构

主要通过用户,商家,产品,销售四个维度来展开分析各项指标。

使用到的工具主要有python,excel,tableau等

二,【数据分析】

①用户维度

主要分析的方向有用户的地区分布,用户支付方式,分期偏好,下单时间等行为偏好,以及基于RFM模型将用户进行分层

②数据导入处理

import numpy as np

展开全文

import pandas as pd

payments=pd.read_csv('olist_order_payments_dataset.csv')

customers=pd.read_csv('olist_customers_dataset.csv')

orders=pd.read_csv('olist_orders_dataset.csv')

orders.isnull().sum()

payments.isnull().sum()

customers.isnull().sum() #缺失值查看

# VX = UK288188

由于缺失值仅在order_approved_at,order_delivered_carrier_date,order_delivered_customer_date这三个列出现,而这三列与我们分析工作关系不大,所以可以忽略。

po=pd.merge(payments,orders,how='left',on='order_id')

pc=pd.merge(po,customers,how='left',on='customer_id')#数据合并

state=pd.DataFrame(pc['customer_unique_id'].groupby([pc['customer_state']]).count())

# weCHAT = UK288188

③用户地区分布

该平台的用户大多数来自于SP比例高达42%,其次是RJ和MG。这可能与巴西人口密度分布有关,当然也与平台在其他地区程度的普及程度,当地人购物方式有着很大的关系。

p_type_c=pd.DataFrame(pc['customer_unique_id'].groupby([pc['payment_type'],pc['customer_state']]).count())#用户支付方式和所在州统计

p_type=pd.DataFrame(pc['customer_unique_id'].groupby(pc['payment_type']).count())#用户支付方式统计

# WEchat = UK288188

可以看出74%的用户都选择用信用卡的方式来支付占绝大多数,19%的用户选择boleto的方式,说明这两种方式在该平台是主流的支付方式。

以上两张图对比较热门的两个支付方式用户的地区分布进行了统计,这与该平台的用户地区分布人数基本上成正比,所以可以判断出对于olist平台用户支付方式与地区分布关系不大。

p_inst=pd.DataFrame(pc['customer_unique_id'].groupby([pc['payment_installments']]).count())#用户分期偏好

1

# Wechat = UK288188

可以看出达到半数用户不选择分期付款的方式,而选择分期付款的用户大部分选择分2,3期的方式来进行。有将近半数的用户选择分期付款这种方式来进行支付,一定程度上说明该平台是比较推荐分期付款的方式。

cc=pd.DataFrame(pc['order_id'].groupby([pc['customer_unique_id']]).count())

#用户每人下单数量

pc['month']=pd.DataFrame(pd.DatetimeIndex(pc['order_purchase_timestamp']).month)#下单月份

pc['time']=pd.DatetimeIndex(pc['order_purchase_timestamp']).hour#下单时间

ho=pd.DataFrame(pc['order_id'].groupby([pc['time']]).count())

# WECHAT = UK288188

用户下单时间基本上聚集在10点到22点,这与人们作息时间基本一致,在这个时间段下单量基本平均,说明用户会在日常空闲时间打开该网站进行浏览购买,而不是特定时间段(如非工作时段)。如需补单出销量,可上自养号测评,礼品卡CT、LH、防关海外环境搭建等。

④用户分层

利用RFM模型对用户价值进行量化,依据用户的最后一次购买时间,使用频率,花费金额来给用户打分,并将用户分为以下几类:

r=pc.groupby('customer_unique_id')['order_purchase_timestamp'].max().reset_index()#用户最近一次购买

r['R']=(pd.to_datetime('2018-10-18')-r['order_purchase_timestamp']).dt.days

r=r[['customer_unique_id','R']]

pc['date']=pc['order_purchase_timestamp'].astype(str).str[:10]

dup=pc.groupby(['customer_unique_id','date'])['order_purchase_timestamp'].count().reset_index()

f=dup.groupby('customer_unique_id')['order_purchase_timestamp'].count().reset_index()

f.columns=['customer_unique_id','F']

summ=pc.groupby('customer_unique_id')['payment_value'].sum().reset_index()

summ.columns=['customer_unique_id','payment_value']

comm=pd.merge(summ,f,left_on='customer_unique_id',right_on='customer_unique_id',how='inner')

comm['M']=comm['payment_value']/comm['F']

rfm=pd.merge(r,comm,on='customer_unique_id',how='inner')

rfm['R_SCORE']=pd.cut(rfm['R'],5,labels=[5,4,3,2,1],right=False).astype(float)

rfm['F_SCORE']=pd.cut(rfm['F'],bins=[1,2,3,4,5,100000],labels=[1,2,3,4,5],right=False).astype(float)

rfm['M_SCORE']=pd.cut(rfm['M'],5,labels=[1,2,3,4,5],right=False).astype(float)

rfm['r_aboveavg']=(rfm['R_SCORE']>rfm['R_SCORE'].mean())*1

rfm['f_aboveavg']=(rfm['F_SCORE']>rfm['F_SCORE'].mean())*1

rfm['m_aboveavg']=(rfm['M_SCORE']>rfm['M_SCORE'].mean())*1

rfm['SCORE']=(rfm['r_aboveavg']*100)+(rfm['f_aboveavg']*10)+(rfm['m_aboveavg']*1)

def transform_l(x):

if x==111:

label='important_value_customer'

elif x==110:

label='consume_potential_customers'

elif x==101:

label='frequently_cultivate_customers'

elif x==100:

label='new_customers'

elif x==11:

label='important_value_loss_early_warning_customers'

elif x==10:

label='general_customers'

elif x==1:

label='high_consumption_comebake_customers'

elif x==0:

label='lost_customers'

return label

rfm['type']=rfm['SCORE'].apply(transform_l)

# Wechat = UK288188

经过RFM模型的分类处理之后,再来统计每一类用户的数量和创造的价值来进行分析

该平台大部分用户都是新用户和流失用户,重要价值用户和频率深耕用户数量极少。用户的流失率较高,缺少一般维持用户这一现状对平台的维持和运营极其不利,但是新用户数量较多说明了近期的拉新工作很有进展,接下来用怎样的手段让新用户留存,提高留存率的工作至关重要。

将用户分层的方式,不仅可以统计出平台的运营所处的阶段水平,还可以对每一层的用户进行更详细的用户画像研究,从而针对不同类型的用户的行为和价值对产品做出提升和改进。

【技术篇】巴西电商Olist、美客多、亚马逊礼品卡下单支付通道信息如何采集?

⑤商家维度

从商家的地区分布,交易量,销售额,平均评分和商家送货时间(这里指的是从买家下单一直到收到货的时间)。再用随机森林算法分析商家的得到的评分与哪些特征相关,相关的程度是多少。

代码步骤与上面基本相同,都是用groupby()进行分组计数求和,将得到的结果可视化分析。

商家大多数来自于SP,占到了百分之70以上,商家的地区分布比例与用户的地区分布不完全相同,主要体现在来自SP的商家比例远多于用户比例,说明这个地区可能不仅人口密度较高,商业贸易也比较发达。

大部分商家的年销量都比较低在20单以内,极少数的商家的订单量达到了几百上千个,商家普遍的交易量都不高。

从商家的销售额来看,大多数的商家交易额都在5000以内,5000以上的商家进展到总体的百分之十八,而最大值也不过是两万多。这与之前的交易量占比分布情况基本相似,这说明该平台的商品都比较平价,想要提高的使用价值获得更高的收益必须要提高交易量,不仅要增加用户数量,还要促进用户持续购买,增加用户的下单频率。

【技术篇】巴西电商Olist、美客多、亚马逊礼品卡下单支付通道信息如何采集?

代码详情注释

(自养号测评技术融合真人测评下单辅助,补充交易量不足,刺激自然流量订单和客单价提升)

送货时间大致呈正态分布,大多数的送货时间集中在5-16天的范围内,均值为10左右,该平台的用户基本上可以在10天左右收到商品。(可接入自养号测评物流服务商资源,缩短三分之一的送货周期)

商家的平均评分多数在3.75-5这个区间,比较符合实际,说明该平台从商品到商家服务等方面属于相对完善的程度,整个流程的实现基本没有问题。

评分相关

利用随机森林分析商家的地区,交易量,交易额,送货时间这四个特征与商家评分的相关性。

from sklearn.preprocessing import LabelEncoder

s['seller_city']=LabelEncoder().fit_transform(s['seller_city'])

Xtrain, Xtest, Ytrain, Ytest = train_test_split(data,target,test_size=0.3)

rfc = RandomForestClassifier()

rfc = rfc.fit(Xtrain,Ytrain.astype('int'))

score_r = rfc.score(Xtest,Ytest)

score_r

# weChat = UK288188

拟合程度较好,达到了0.99.这四个feature分别为商家的地区,交易量,交易额,送货时间。

结果说明就这四个特征而言,与评分关系最大的特征是商家的送货时间,其次是商家所在的地区。这能说明这些特征与评分结果的相关性程度,但并不能作为充分必要条件。

比如,作为商家尽快发货和选择比较快捷的快递方式在一定程度上能提高用户的评分,但是不起绝对性作用。交易量与交易额反映了商家的经营状况和经验程度但是与获得的评分并没有很明确的因果关系。影响评分的因素除此之外还有很多,站在消费者的角度上说商品的质量和耐用性会显得更为重要。

三,【测评分析】

A:账号注册手法

一手资源(物流、邮箱、地址、手机号),但是在注册的过程中尽量模拟真实的注册环境,包括注册时间,流程,买家信息和地址填写等每一个环节都很重要,在注册过程中全部手动输入。

B:如何提高环境系统效率

需要用到国外的服务器和纯净的国外家庭住宅IP 、防关联的浏览器。然后通过远程安全终端去进行搭建,这样才能阻断硬件参数的关联,无论是电脑系统也好,手机设备也好,可以同时几十个账号一起操作,效率要提高好几倍。安全性100%,网速跟开正常网页一样,没有任何卡顿。

C:家庭住宅ip代理

这个环节非常重要,也就是你需要哪个站点的买家号,你就需要购买定位到哪个国家城市的的代理ip。但是IP区域不能变化太大,太大账号会处于异常活动状态,造成砍单或者直接F号,正常一个账号会固定一个IP端,精准定位在一个城市,在一个区域内去变化,ABC端不变,D在变化,这样更真实,我们的IP都是纯住宅。

D:支付方式

支付方式主要有两种,一是信用卡,二是礼品卡,融合使用。因为平台的风控主要是对账单进行审核查验,这样就更接近真实的用户,一个账号匹配一个支付卡。这样不会关联。

古哥跨境通

E:自养号矩阵养号

需要用的设备:一台电脑、一部手机。

你要一台手机和电脑批量养号,底层环境有很多维度需要解决,因为平台大数据风控点很多。

①:硬件参数的关联问题:安全码、地区码、监管码 imei序列号,物理mac地址,搭建境外服务器,把ip的Npm脚本搭建在境外服务器。

②:IP的纯净度(包括IP的关联、DNS不会跳国家 、WebRTC本地局域网不会暴露在中国、或者blacklist黑名单IP)。

③:就是浏览器cookie的防关联/UA设备信息独立性+安全隐私插件,去阻断网页端ping htm追踪。

④:境外支付卡关联性、卡头风控问题

⑤:地址、空包物流需要一手资源,避免关联性

⑥:每个账号都是千人千面,都有它的画像标签,如何提高账号的权重管理

等等这些因素都会影响你账号的安全稳定使用。

【技术篇】巴西电商Olist、美客多、亚马逊礼品卡下单支付通道信息如何采集?

更多跨境电商矩阵运营测评技术,和全球礼品卡隐形高阶玩法(CT,LK/LH),欢迎交流。

评论