倒计时24小时开课|StuQ大数据分析平台小班课(仅剩10个名额)
清华大学计算机硕士,2008 年至 2014 年就职于百度大数据部,担任百度用户数据仓库 (BUDW) 技术负责人,资深研发工程师,参与数据收集与传输、数据建模、海量数据处理、数据应用、数据分析、ID-mapping 等各个环节的数据处理工作。2014年4月—2015年4月就职于北京极科极客科技有限公司(极路由)任数据总监职务,2015 年 4 月至今作为神策数据创始人并担任 CTO 职务。 Sensors Data(神策数据) 创始人兼首席架构师 毕业于北京理工大学软件工程专业,2008 年至 2013 年期间历任百度新产品研发部、网页搜索部、基础架构部工程师,2013 年 9 月至 2014 年8月担任豌豆荚 SearchPA 后端研发工程师,2014 年9月至 2015 年4月担任黄金钱包研发部技术合伙人,目前担任神策数据联合创始人及首席架构师。 大数据分析概述 (By 桑文锋) 大数据的概念 数据驱动的概念 数据处理流程 数据平台总体架构 思考:尝试列举每个子系统在市面上的开源或商业选型 百度大数据平台演进 (By 桑文锋) 日志统计平台 用户数据仓库 数据源管理 百度大数据平台架构 思考:百度在数据处理所面临的问题和学员本身所在公司的问题有何异同? 数据采集与传输 (By 曹犟) 数据采集与埋点 数据传输系统 开源传输系统介绍(kafka、flume、scribe) 思考:kafka能够保证数据不丢不重吗? 数据建模与存储 (By 曹犟) 数据模型 数据ETL 数据存储管理(包括元数据、hadoop) 调度器(包括开源调度器oozie、azkaban) 思考:为什么在大数据平台上,要把元数据独立出来? 查询引擎设计 (By 付力力) 查询引擎架构 开源查询引擎分析(包括impala、spark SQL、hive等) 思考:分布式查询系统和MySQL在设计上,有哪些特别的点? 数据可视化 (By 桑文锋) 数据可视化概述 可视化工具介绍 数据分析方法 运营分析实践 大数据分析总结 思考:结合所在公司的现状,设计一张大数据分析平台架构图。 (编辑:广西网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |