0

动辄数百TB级数据的分析平台 海量并发无压力

诸葛io

7月26日,诸葛io创始人&CEO孔淼受邀出席了AWS技术峰会2017,本届峰会围绕多项云计算热门议题,覆盖大数据和人工智能、架构、安全、IOT等十大技术分会场,汇集众多技术团队的大咖共同探讨云计算的创新发展之路。

本文整理自诸葛io创始人&CEO孔淼在大数据技术专场论坛中发表的题为《 数据驱动企业商业价值增长》的演讲:数据分析的核心是为业务服务,围绕如何整合线上线下的业务数据和用户行为数据,挖掘背后的商业价值。

孔淼从以下几方面进行了深度解读:

1、数据挖掘的“内忧外患” 真正的大数据落地,既要结合行业场景化的需求,也要对行业有足够深入的了解,更要认清企业所处不同的大数据阶段,从而实现大数据价值挖掘过程中的“对症下药”;
2、以用户为中心,场景化驱动数据价值释放 诸葛io将“大数据赋能”的理想真正转变为现实。人人都可以实现用户特征与行为特征的交叉分析,通过丰富灵活的分析功能和场景,让业务的人更懂数据,也让数据体现价值;
3、强大的数据采集能力 打通用户与业务数据 诸葛io将数据采集、数据清洗、数据加工、数据加载、建模分析及可视化的全过程一站式的交付;
4、基于统一的ETL 实现SaaS和私有部署的统一 满足不同企业的个性化需求;

5、“多租户”式平台同时支持很多百亿级大型应用,直面高并发面临的挑战且保证高速响应,实时准确;
6、找到用户与设备的关系,透过设备来追踪背后真正的用户;
7、真实的用户会话采集,绝非通过规则“人为切割”会话(session)。


1

诸葛io创始人&CEO孔淼在活动现场发言

数据挖掘的“内忧外患”

1、线上线下信息化 数据整合困难

企业管理信息化:ERP/PMS/CRM等信息化系统积累大量的数据

服务互联网化:App和网站从信息平台延伸成为了服务平台的基础

线下行为结构化:人脸识别,红外体感可以识别线下行为,非结构化数据结构化

线上线下的信息化背后,产生的大量数据,如何整合,并发挥出商业价值?

2、红利消尽,经济放缓,数据驱动不可避免

流量时代结束:互联网用户增长放缓,获客成本增加

经济放缓:经济增长放缓,人力成本增加,第三产业服务行业结构上升

数据驱动价值:(内)优化内部管理效率(外)减少客户流失,提升客户转化

红利消尽,经济放缓,如何通过精细化运营提升企业价值?

3、大数据几波发展,新技术势不可挡2

早期信息化系统——第一阶段“信息获取时代”,只解决企业内部管理问题,采集的是一些少量的数据,KPI、订单、业务,总结经营活动等基本业务状况。

随着信息化系统对外使用,更多承载着客户服务,数据量猛增,如何结合数据思考规律,这也是诸葛io与传统统计的区别,诸葛io全面采集数据,帮助企业分析产品,运营策略,寻找更优质的市场渠道,这是第二个阶段——“信息挖掘时代”。

第三个阶段——信息输出时代,融入更多自动化的分析,找出高价值客户,高流失客户,自动化的通过用户后续行为,评估推广渠道的质量并实现自动优化,我(诸葛io创始人&CEO孔淼)相信这是下一步价值驱动更多要解决的问题,即,把信息和输出价值结合在一起,但大多数企业,更多的停留在第一和第二阶段,如何帮助这些企业紧跟数据技术发展的趋势,这也是一个大问题。所以,诸葛io的切入,其核心是为了解决这几个问题。

以用户为中心,场景化驱动数据价值释放

1、打通数据源,整合用户数据

“用户-触点-会话-事件”模型,挖掘数据关联价值

对于一个企业而言,诸葛io将用户数据打通,以用户为中心,组织关联不同数据源,比如,线下门店的会员积分体系,用户输入手机号,然后购买商品的价位等信息构成一部分数据源;用户也可能通过微信公众号、小程序、APP、网站等与企业进行交互,这又构成一部分数据源,故,关联不同数据源非常重要。

3

大数据发展初期,通常只是将数据统计后总结经营活动,这个按纽点了多少次,一个页面访问了多少次;现在有一个概念叫“事件”,将静态数据变成动态的,将“指标”赋予“描述业务”的活力。

诸葛io结合用户和事件,将企业全年数据动态化,因为事件是有时间、地点,详细描述,可追踪的,这是很多新型数据分析平台所支持的,但诸葛io做得更好,我们有“触点”和“会话”。触点可还原用户场景,挖掘背后价值;通过会话可以了解用户在何时、何地做过什么。

比如,一个用户一天访问5次还是1次,一个人去门店10次还是3次,用户在应用里访问10分钟还是1个小时等会话数据,均可反映用户的粘性和深度。通过用户、事件、触点、会话,即可挖掘多个数据源中有价值的数据。不是采集的所有数据都有价值,只有先明确分析目标,找出有价值的数据,才能发挥分析价值,这是诸葛io的数据分析理念。

2、丰富灵活的功能场景,企业数据驱动的基石

4

基于这套理念,诸葛io提供了“一站式”的数据分析解决方案。何谓“一站式”?

首先,解决数据采集问题,诸葛io随着这两年的发展,不停地在完善数据采集能力,从最初,我们独具一格的业务驱动埋点(大多数平台采集“点击行为”以及“页面访问”背后的浏览量和人数,,而诸葛io采集的是背后的所代表的业务行为和描述)。

第二,交互跟踪的全埋点方案,通常存在数据不准、影响性能等问题,但在某些场景中可帮助了解用户转化情况,所以诸葛io同样提供类似方案。

第三,开放式的后端接入,把诸葛io的视野从线上APP、网站,拓宽到一个企业的各种数据源无疑需要支持后端接入,故诸葛io有非常开放的后端接口,打通整合CRM等各种系统数据,所以数据接入是诸葛io提供的第一道服务。

为了让数据分析更有价值,诸葛io提供非常丰富的分析场景,之前大多数企业都需要懂数据的BI团队,即,业务的人与数据的人沟通,然后由技术来实现最终通过报表呈现。此分析过程成本很高,所以诸葛io开发出很多自助式分析模块和场景,让一个只懂业务的人可以通过诸葛io的模块分析数据。之前,可能完全依赖于技术化的程序脚本,现在,在诸葛io平台,通过交互式点击的操作,筛选出对应人群,并实现不同人群间的交叉细分对比,查看转化率差异,跟踪运营活动效果,评估产品功能设计,监测市场推广活动表现,诸葛io为一个丰富自助式场景提供的一个价值输出。

诸葛io自助式的分析场景,将分析结果的获取,从天级降到秒级,这也是一些大型公司之所以选择诸葛io的原因,提高了分析的效率,降低了沟通的成本。

实现数据接入和自助式的分析场景后,因数据是非标准化的,不同行业、不同角色在不同场景,甚至不同时间内所关注的指标都是不一样的,诸葛io不可能提出大而全的解决方案,但诸葛io有通用模型后,便可提出非常灵活的自助式分析的方案。

诸葛io支持企业灵活的二次开发,即,将底层进行清洗和整合过的数据完整的开放给企业客户。所以,诸葛io有数据仓库的SQL查询平台,进行各种丰富的展示化,包括接入到可视化分析平台,诸葛io有Kafka,它能够融入到企业自己的数据分析体系中,因为在企业中,有的可能喜欢用Excel给老板做汇报,有的可能有自己内部的分析服务和方案,所以诸葛io很灵活,提供了非常丰富的API,将企业内部数据运营的体系融入。

为用户提供了非常灵活的选择,诸葛io提供SaaS和私有部署两种方式,SaaS基于AWS,私有部署即部署在企业本地服务器上,使用的是一套独立架构。总之,诸葛io平台非常Open,满足企业不同的需求。

3、专业体贴的分析服务,帮助不同角色驱动价值

诸葛io提供数据分析服务团队,让数据分析的门槛变低,让数据分析不再成为一件难事。通过数据分析服务团队,诸葛io可以帮助客户建立有效的指标体系;帮助市场营销辨别渠道的好坏;帮助运营保护留存,去设计好的活动,设计好的产品;帮助产品经理把产品的核心价值更好的进行输出等等。

5

诸葛io通过精细化的分析,以工具为底层,通过漏斗、事件,多种采型组件以及分析组件为基础,支持企业进行精细化分析。同时诸葛io还可根据不同的应用场景覆盖用户的不同生命周期。

6

比如,此前宝马和奥迪通过诸葛io做广告投放,通过诸葛io的广告监测平台可实现,从曝光-监测-落地的监测,诸葛io还有功能优化和获取分析,用户落地后获取的来源,渠道的归因分析等。此外,诸葛io提供智能触达解决方案,通过给合适的用户在合适的时间精准推送合适的内容,比如:短信/APP内的PUSH或者通过Webhook实现其他形式的推送。

诸葛io全面覆盖从曝光到付费到留存(流失)的全生命周期链条,相信未来的服务一定是以用户的生命周期和价值为基础的。所以,让业务的人更懂数据,让数据更好的服务业务是基础。

诸葛io每个月已处理超过百亿有效的数据量,目前已覆盖包括科技金融、SaaS,O2O等八大行业方案。众多知名企业都是诸葛io服务的客户,有很多大家熟悉的企业,比如工具类产品微天气,ToB平台智联招聘,科技金融平台人人贷等,最近成功与阳光保险达成战略合作,这只是诸葛io的一个开始,我相信接下来的发展会更加迅速。

7

强大的数据采集能力 打通用户与业务数据

8

诸葛io是一个支持二次开发的平台,丰富的采集方式,包括安卓、iOS、JS和微信小程序,全埋点、代码埋点以及可视化埋点,最近还上线了支持灵活添加属性的功能,诸葛io提供的应该是业内功能最丰富的可视化埋点方式。代码埋点一直是诸葛io的强项,很多企业从中获益。此外,诸葛io还支持服务端上传,能帮助企业更好地应用数据,支持工具导入数据,打通企业数据与用户行为数据。

打造具有“开放性”的二次开发平台

9

诸葛io为数据分析师特别提供具有“开放性”的二次开发平台:

1、SQL查询平台:有时复合指标是非常复杂的,无法通过交互式的图表获得分析结果,那么诸葛io直接开放底层的数据仓库(数据仓库开放接口),此外,诸葛io还支持各种图表的绘制;

2、API接口访问:将诸葛io采集到的用户行为数据导入企业内部系统中,可通过API来实现;若要获取诸葛io非常精细化的用户档案列表数据,也可以通过API渠道;若要加工数据仓库,也可以通过API接口;10

3、HDFS数据访问:因为诸葛io的用户体系与企业的用户体系是打通的,企业若有机器学习模型,若要获取更多诸葛io采集到的数据,那么企业可以把诸葛io的维度与企业自身业务的维度结合起来建立新的模型,此时可通过HDFS数据访问;

4、Kafka实时数据订阅:企业可通过诸葛io的Kafka实时数据订阅。

11

诸葛io的基础架构分为两层,提供SaaS和私有部署两种方式:

SaaS的海量数据存储是基于S3的,数据仓库是基于Redshift,Redshift是硅谷顶尖公司的选择,我们为每一个SaaS的付费客户都提供这样优质的基础设施,保障其分析性能

私有部署的存储是基于HDFS的,数据仓库是基于Greenplum的,现在我们最新的实时私有部署平台,采用的是Impala作为查询视图。

基于统一的ETL实现SaaS和私有部署的统一

基于统一的ETL(Extract-Transform-Load)架构,诸葛io实现SaaS和私有部署的统一。

12

从“采集-接收-转换-加载-实时计算”,诸葛io通过使用同一套架构降低了成本,但是诸葛io的仓库不同,比如实时计算可监测当天的活动数据。此外,SaaS和私有化的模型也稍有区别,早期是一样的,后来发现存在问题。

13

诸葛io的很多Saas模型早期是为了更符合范式设计,可在去年出现了爆发式数据增长时,事件表、时间表等整个数据量特别大导致计算性能严重下降。所以,在私有化模型中诸葛io采用宽表方式:

SaaS的数据加载及存储:Kafka->S3 -> Merge S3 ->  Redshift or Greenplum

私有化部署的数据加载及存储:数据流: Kafka->Kudu->HDFS(Parquet),impala视图 : Kudu + HDFS(Parquet)

诸葛io以用户为中心,找到数据源的共性,将跨用户的数据打通,将数据采集、数据清洗、数据加工、数据加载、建模分析及可视化的全过程一站式的交付,结合用户和事件的交叉分析,诸葛io能够把企业全年的数据动态化起来,让业务更懂数据,让数据体现价值。

海量数据并发「无压力」用户会话真实「不切割」

1

➤数据收集端

 

诸葛io的数据采集采用的是LVS+Nginx+Lua,而不是简单的Nginx,之所以这样设计是因为:

-我们的“多租户”平台要同时支持很多大型应用,例如“墨迹天气”,“Flipboard红板报”等大数据量的数据上传;

-我们是率先采用https协议的数据采集分析平台,所以比http高并发面临的挑战会更大;

-我们要保证高响应的速度;

此外,诸葛io的私有部署也同时支持该架构,保障用户数据上传的实时性,准确性。

➤数据分析模型

诸葛io的数据分析模型更高级,我们的模型是“用户-触点(设备)-会话-事件”:

2_meitu_1

a.  会话是行业分析的标准,我们的模型基于实时还原用户会话场景,而不是通过“规则”来人为切割;

b. 诸葛io对“用户”的判断一直以来都是行业比较领先的规则,传统的“用户”其实是“设备”,而我们能找到用户与设备的关系,透过设备来追踪背后真正的用户,包括不限于:

-用户注册前的匿名行为与注册后行为的关联

-单用户的多设备(跨平台)行为关联

-单设备多用户的行为还原

为了支持这样的数据模型,我们需要更复杂的服务端逻辑处理,Codis是领先的Redis分布式组件,让我们的实时匹配更可扩展,而SSDB是兼容Redis协议的硬盘存储,支持海量的关系存储。

基础存储、索引、OLAP

 

诸葛io同时支持SaaS和私有化部署,所以有统一的ETL以及差异化的数据存储查询引擎,基础存储基于S3HDFSRedshift是很多硅谷最顶尖的公司都使用的技术,包括Airbnb, Yelp, Pinterest等等,我们致力于给国内客户提高更高品质的云端分析能力,所以也采用了更好的基础设施。

 

站在AWS的肩膀上

3

诸葛io依托AWS可灵活拓展的云计算平台,可降低持续成本,无需购买服务器等前期设备,快速实现数据应用,缩减基础设施成本及时间成本;企业搭建大数据平台的目的是应用而不是运维,所以诸葛io通过AWS平台降低企业运维成本;此外为了便于诸葛io在其他方面的探索,比如在AI方面进行探索,通过AWS平台提供的AMI可极大地降低研发成本

总之,基于AWS平台弹性化的丰富功能,更人性化的设计方案,更高质量的全球服务,为诸葛io提供了优质的基础设施服务:

1、功能丰富

AWS的功能非常丰富,除了EC2作为基础机器之外,PaaS方面,我们使用了EMR/ S3/Redshift等组件,小的功能方面,还包括AMI镜像备份恢复,用户的IAM权限分配,Instance机器种类和外置磁盘EBS的选型,分布式S3的文件存储功能以及工作中产生的业务需求等。

2、弹性化

诸葛io在搭建基础设施之初,就以满足海量数据规模计算为目标,随着诸葛io每年企业客户呈指数级的增长,再次证明最初的坚持是正确的。

海量数据并发,当系统负载、QPS偏高时,常出现CPU利用率达到100%的情况,此时诸葛io即可通过调用AWS API接口来实现弹性扩容,包括主机的分配、流量的分配、IP的绑定、域名解析的配置以及存储服务等。

3、全球服务

能够在节约成本的前提下,非常方便的进行扩容和Hadoop/Spark数据计算,在全球部署自己的数据中心,帮助诸葛io为全球企业客户提供服务。

➤Amazon EMR

Amazon EMR 是一种 Web 服务,它能让企业、研究人员、数据分析师和开发人员能够轻松、经济高效地处理海量数据。

大数据平台基于Hadoop,技术复杂度非常高,对诸葛io而言,底层的运维压力和成本压力非常大。因为动辄一个客户可能就是数百TB级的数据,我们必须选择非常灵活、低成本的方式来支撑业务,所以我们选择EMR。

此外,Hadoop有很多发行版,在选择不同的Hadoop版本时,EMR帮助诸葛io更快捷地筛选适合我们的发行版套餐,Hadoop在组件的更新和支持上非常迅速,帮助诸葛io及时跟进最新技术来调整方案。

基于Amazon EMR易操作,易于设置集群/Hadoop/节点、在重试失败任务等方面具有很高的可靠性、允许任何规模处理数据来灵活控制成本支出、通过自动配置Amazon EC2防火墙设置保证数据安全,灵活自定义群集,使用成本的优势,为诸葛io搭建一个强大的技术支持。

➤EMR & S3 有效结合

采用AWS的S3(数据采集平台)存储数据,可对分散的数据进行有效的集中管理,满足对不同框架的输入需求,甚至支持Redshift的直接查询,而且有高持久性。在诸葛io的实际运用中,通过将EMR与S3的有效结合,降低数据传输成本,增加数据存储能力扩展性,增强计算能力的扩展性,提高伸缩响应速度,摊薄存储与计算成本。

➤Redshift

Redshift:提供基于云的全托管的PB级高速数据仓库,用现有BI工具分析海量数据。

随着诸葛io的客户越来越多,Greenplum的方案已不再适合SaaS服务,因为它虽然查询性能很好,可一旦海量并发时便遇到性能瓶颈。

在研究国外架构时,Redshift是airbnb等很多知名公司的选择,所以,在尝试后我们发现Redshift的确是基于数据仓库优化,包括基于S3之后在海量数据加载和计算时有非常不错的表现,另外,考虑到业务方案和基础架构,诸葛io也选择了兼容性和适配性更好的Redshift。

此外,Redshift可以利用现在使用的 SQL 语法和 BI 工具,对 Amazon S3 中的 EB 级数据进行查询,二者范围内可进行无缝查询,具有极高的扩展性;通过 AWS 管理控制台或 Amazon Redshift API 使用任何系统快照或用户快照来恢复群集,系统元数据恢复后,群集就可供使用,并且可在用户数据在后台输出时开始运行查询,具有快速恢复能力;在未使用Redshift之前主要使用Greenplum作为数据仓库,二者都是基于postgresql,数据迁移到新数据仓库后对应用中查询改动量较小,平滑迁移,更易于迁移。

 

大数据的技术发展势不可挡,大数据技术的发展将会越来越多样化,企业必须跟上技术发展趋势并结合数据与价值输出。随着更为复杂的用户需求涌现,精细化数据分析将成为驱动企业业务增长的关键功能。

诸葛io围绕这些趋势所产生的问题,结合用户-触点(设备)-会话-事件模型,提供了一站式的数据分析解决方案,从数据接入到自助式的场景分析,最后再将底层进行清洗和整合过的数据,完整开放给企业,以便实现企业数据相关价值的挖掘。

诸葛io以用户跟踪技术和简易集成开发的方法,帮助移动应用的运营者挖掘用户的真实行为与属性,帮助互联网产品更快、更简单的通过数据驱动产品分析从而实现业务增长,商业价值的提升。

 

诸葛io,数据智能决策平台。 点击此,免费注册使用~