美柚怎么发布笔记(云场景实践研究第11期)

在2013年美柚成立之初,架构采用自建机房的传统开发方式,当时托管机房内服务器数量达300台之多,在2014年美柚接触阿里云之后,逐渐采用阿里云的产品,从最开始接触公测的ADS到现在使用的ECS、MaxCompute、RDS、分析型数据库、TAE、阿里云云盾等等,目前美柚形成了混合云的模式。目前,美柚的整个官网全部部署在阿里云上,同时美柚还基于阿里云建立了电商柚子街,并且还基于阿里云搭建了BI系统。美柚为了缓解自建大数据集群的规模较小的情况,积极采用阿里云大数据平台对数据进行分析和处理计算。

“通过阿里云提供的丰富的开发套件和算法库,大大缩短了美柚从想法到产品的时间。”

——黄益聪

美柚技术总监


采用的阿里云产品

  • 阿里云云服务器 ECS
  • 阿里云云数据库 RDS
  • 阿里云大数据计算服务 MaxCompute
  • 阿里云分析型数据库 AnalyticDB
  • 阿里云分析型数据库服务 ADS
  • 阿里云DDoS高防IP (云盾)

为什么使用阿里云

为了缓解自建大数据集群的规模较小的情况,美柚需要采用阿里云大数据平台对数据进行分析和处理计算。

随着美柚不断发展,系统逐渐受到一些恶意攻击,包括恶意抓取、DDoS攻击等,因此API实时监控显得不可或缺,这需要借助阿里云盾DDoS高防IP抵御部分网络攻击,并进行流量清洗和分析。


关于 美柚

美柚通过社区 工具 电商为广大女性提供一站式综合服务,满足女性群体交流沟通、知识获取、购物三大需求。《互联网周刊》发布2015年度APP分类排行榜,美柚位居女性APP第一位。同年12月,在清科集团、投资界主办的2015中国最具投资价值企业50强评选中,美柚凭借在女性市场的卓越表现从3000多家报名企业中脱颖而出,获评“2015中国最具投资价值企业50强”,截止到2015年7月,美柚用户超过1亿,日活跃用户500万。


为什么选择阿里云?

美柚基于阿里云和自建机房的混合云架构

美柚混合云的服务分布

美柚混合云架构的云上设施和云下设施分工各不相同。因为最初的架构是在托管机房上建立的,所以现在主要的App接口、社区、广告系统、用户中心、柚币中心以及包括App和社区的运营后台都部署在托管机房;同时搜索、推送、实时监控、反垃圾等最初建立起的基础服务也是部署在托管机房里面的;此外,托管机房内也有一些如Spark、Hadoop等大数据处理平台,但集群规模相对较小。

目前,美柚的整个官网全部部署在阿里云上,同时美柚电商柚子街也是基于阿里云建立的,包括整个电商平台和运营后台、招商系统。此外,还基于阿里云搭建了BI系统。最后,为了缓解自建大数据集群的规模较小的情况,积极采用阿里云大数据平台对数据进行分析和处理计算。

美柚混合云之间的数据交互

美柚怎么发布笔记(云场景实践研究第11期)(1)

混合云之间的数据交互

上图是托管机房和阿里云之间的数据流通情况,可以看到每天会有一部分数据包括业务日志、数据库的增量数据会从托管机房流向阿里云。数据流向阿里云的ODPS后,在ODPS内进行一些数据计算和算法模型的训练。然后再将计算的结果导入ADSRDS中,其中导入的ADS支持BI系统,并且ADS能够多值列查询和毫秒级的实时响应,有利于生成BI报表;另一部分数据存入RDS中,不仅降低了存储成本,同时也提高了数据的安全性。经阿里云计算和处理后,部分数据还需要回流到托管机房的数据库和数仓内,回流的目的是因为现在还有一些比较重要的服务还在托管机房内部署,并且从机房调用可以极好的缩短调用的延迟。每日从自建机房流向阿里云的数据量相当大,对于一些重要的数据如用户数据,在自有机房和阿里云上进行了双活,首先从业务数据库先同步到自建机房的HBase集群中做一个备份,然后在阿里云上也做了一个备份,这些数据以一小时为间隔进行同步,以此确保重要数据的安全。

从机房到阿里云上采用逐类更新的方式,准实时的数据依旧在托管机房处理;对一些大数据计算和实时性要求不是很高的数据将其流向阿里云,借助阿里云超强的计算能力和超大的集群规模进行计算处理,同时这些数据会在T 1日进行更新。

API实时监控

美柚怎么发布笔记(云场景实践研究第11期)(2)

美柚基于阿里云的API实时监控

随着美柚不断发展,系统逐渐受到一些恶意攻击,包括恶意抓取、DDoS攻击等,因此API实时监控显得不可或缺。目前通过使用阿里云盾DDoS高防IP,有效地抵御部分网络攻击,并可以进行流量清洗和分析。在此基础上,美柚还自主研发了API实时监控系统,监控系统的数据是来自托管机房的实时处理计算平台,通过监控系统可以实时观察服务端响应时间、处理数目以及各个接口的调用分布。通过全链路实时监控服务质量,保障用户极致体验。同时作为一个移动互联网公司,美柚将API实时监控从传统的服务部署转向移动化,在移动端Android/IOS进行实时业务监控与预警,使得开发和运维在任一地点任意时间都能对实时业务了如指掌,可以第一时间发现问题所在。

大数据智能挖掘

美柚怎么发布笔记(云场景实践研究第11期)(3)

大数据助力社区电商生态

上图是美柚大数据智能挖掘的大致框架,作为一个社区电商一体化的公司,美柚利用大数据挖掘打通整个生态系统。以用户为中心,通过对用户的深入分析,形成用户画像,深入理解用户需求,个性化的改造社区使其更有温度、更具黏性。同时基于对用户的理解,使得社群电商能够进行精准化的推荐,深入了解用户的需求。基于对女性用户的理解,对用户做了多维度的划分,品牌商和广告主精准的投放广告,可得到更高的收益。

美柚采用两套系统存储用户数据,在阿里云上,用户数据主要存放在ADS上,将用户特征存放在ADS的多值列中;在自建机房内,采用Kylin中的Cube来存放用户的基础维度的特征,便于快速的查询。

美柚大数据应用

美柚怎么发布笔记(云场景实践研究第11期)(4)

美柚大数据产品地图

上图是大数据产品地图,图中包含了美柚利用大数据衍生的产品。其中已上线的BI系统,是通过大数据分析形成的报表类,它能够加深对系统的理解和辅助下一步业务决策的进行;另一个是反垃圾算法,通过大数据算法对一些垃圾广告智能识别、处理。还有实时业务监控、首页推荐、个性化推送、个性化搜索等功能。同时情感分析、舆情监控、关联推荐、SSP、DMP、Ad Exchange等功能还在开发中。

美柚怎么发布笔记(云场景实践研究第11期)(5)

反垃圾算法

这张图展示了美柚利用大数据进行反垃圾算法的整体框架,主要包含两部分。虚线上方是反垃圾算法的训练流程,最开始是基于NLP自然语言处理进行,首先对文本数据(垃圾贴和正常贴)进行分词,这些分词需要定期更新,然后再对帖子进行特征处理和选取,将提取之后的特征送入分类器模型训练,其中分类器包括贝叶斯分类、逻辑回归分类等,通过训练输出分类模型的结果。这些训练最初是在自有机房进行的,后来随着数据量的增加,已将部分模型训练迁移到阿里云上。

虚线下方是机房内实时计算的处理流程,用户发帖和回复之后,将其写入Kafka消息队列,首先会对白名单用户过滤,然后一是依据分类模型的训练效果,对文本进行识别和分类,对垃圾帖和非垃圾帖进行判别;另外的方式就是通过Simhash算法对文本相似对度进行计算,进行相似贴统计,最后通过这些策略汇总,生成整个反垃圾算法。近期美柚对该算法又做了进一步的迭代,对用户的昵称、发帖时间间隔、发帖行为进行分析,更好地进行了预防垃圾帖。通过阿里云提供的丰富的开发套件和算法库,大大缩短了美柚从想法到产品的时间。

云栖社区场景研究小组成员:贾子甲、仲浩

本文为云栖社区原创内容,未经允许不得转载。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页