数仓项目需求及技术架构
Interview Summary
1 | 1,请简述你常用的Linux命令. |
大数据处理流程
工作流调度: //即: 周期性执行 重复性执行数据源 => 数据采集 => 数据存储 => 数据分析 => 数据应用
数据源:
1. 关系型数据库:mysql、oracle等
2. 日志文件:应用日志、业务日志、用户行为日志
3. 爬虫数据
4. 其他
OLTP系统
典型代表: RDBMS(关系型数据库管理系统 如MySQL ORACLE)
存储: 用于支撑业务平台顺利实施的各种业务数据
内容: 用户数据、商品数据、订单存储、评论数据等
Log Files(日志文件)
用户行为数据:
用户在平台上所有的操作行为,如注册、登陆、浏览、收藏、添加购物车、搜索、支付等
服务器或应用日志数据:程序应用运行日志 服务器运行日志
Crawler Data(爬虫数据)
主要根据实际的数据需求,爬取其他网站的数据
存储格式:文件、关系型数据库表
2. 数据采集
//关于具体含义要结合语境具体分析,明白语境中具体含义即可。
数据采集概念,目前行业会有两种解释
1. 数据从无到有产生的过程(服务器打印的log、传感器采集的数据等)叫做数据采集;
2. 把通过使用Flume等工具把数据采集搬运到指定位置的这个过程叫做数据采集。
3. 数据存储
大数据应用下,几乎都是分布式存储软件。多台机器共同存储,分区机制、副本机制是核心的概念。
4. 数据分析
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
由于数据分析多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉数据分析软件的操作。
5. 数据应用
Data Report
//数据报表,用表格、图型等格式来动态显示数据。Data Visualization
//数据可视化主要指在借助于图形化手段,清晰有效地传达与沟通信息。Ad Hoc:
//即席查询。是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。Data Mining:
//数据挖掘。是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
CM 和 CDH的区别:
C //指的是Cloudera商业公司, 大数据中排名第一的商业公司
CM //Cloudera Manager 大数据集群安装部署的软件
CDH //Cloudera’s Distributed Including Apache Hadoop, Cloudera发布的商业版本Hadoop生态圈软件.
OLTP系统可以直接开展数据分析吗?
答案: 可以,但是没必要.
- OLTP系统的核心是面向业务,支持业务,支持事务。所有的业务操作可以分为读、写两种操作,一般来说读的压力明显大于写的压力。
- 如果在OLTP环境直接开展各种分析,有以下问题需要考虑:
A. 数据分析也是对数据进行读取操作,会让读取压力倍增.
B. OLTP仅存储数周或数月的数据.
C. 数据分散在不同系统不同表中,字段类型属性不统一.