大数据常用技术
时间:2019-02-20
本文章向大家介绍大数据常用技术,主要包括大数据常用技术使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
数据采集传输主要技术
分为两类,一类是离线批处理、另一类是实时数据采集和传输
离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和Kafka
- Sqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql、Oracle)之间数据传递。
- Flume:实时日志采集平台,一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。
- Kafka:通常来说Flume采集数据的速度与下游处理数据通常不同步,因此实时平台架构都会用一个消息中间件进行缓冲,这方面使用最广泛的无疑是Kafka,Kafka是一个分布式消息系统,以其可以水平扩展和高吞吐率而被广泛使用,是基于消息发布-订阅系统。和kafka类似的消息中间件产品还包括RabbitMQ、ActiveMQ、ZeroMQ等
数据处理主要技术
- MapReduce:运行与大规模集群上的复杂并行计算过程高度抽象为两个函数:map和reduce。
- Hive:是一个建立在Hadoop体系结构上的一层SQL抽象
- Spark:具有可伸缩、基于内存计算等特点,可以读写Hadoop上任何格式的数据。
- Strom:实时数据处理框架,拥有低延迟、分布式、可扩展、高容错等特征,可以保证消息不丢(diu)失。
- Flink:是一个同时面向分布式实时流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时提供支持流处理和批处理两种类型应用的功能。
- Beam:在Flink基础上更进一步,不但希望统一批处理和流处理,而且希望统一大数据处理范式和标准。
数据储存主要技术
- HDFS:分布式文件系统。
- Hbase:构建在HDFS之上的分布式、面向列族的存储系统,在需要实时读写并随机访问超大规模数据集等场景下,Hbase目前是市场上主流的技术选择。
数据应用技术
- Drill:实时大数据分布式查询引擎,Drill兼容ANSI SQL语法作为接口,支撑对本地文件、HDFS、Hive、HBase、MongeDB作为存储数据查询,文件格式支持Parquet、CSV、TSV以及JSON这种无模式数据,所有这些数据都可以像使用传统数据库的表查询一样进行快速实时查询。
- R:数据分析语言
- TensorFlow:基于数据流图的处理框架,Tensorflow节点表示数据运算,边表示运算节点之间的数据交互。
- js中几种实用的跨域方法原理详解
- spring cloud:Edgware.RELEASE版本hystrix超时新坑
- JS魔法堂:再识ASCII实体、符号实体和字符实体
- MyBatis之传入参数——parameterType
- 被解放的姜戈07 马不停蹄
- 机器学习笔记(6):多类逻辑回归-使用gluon
- JS魔法堂:被玩坏的innerHTML、innerText、textContent和value属性
- JavaWeb(四)EL表达式
- eclipse SWT Designer 插件
- 身份证号码验证算法
- JS读书心得:《JavaScript框架设计》——第12章 异步处理
- 被解放的姜戈04 各取所需
- PLT:说说Evaluation strategy
- 被解放的姜戈06 假作真时
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- java编程思想第四版第十章总结
- 单摄像头+深度学习实现伪激光雷达,代码已开源
- 04 . 前端之JQuery
- 05 . 前端之BootStrap
- 15 . PythonWeb框架本质
- 01 . 消息队列之(Kafka+ZooKeeper)
- 01 . 分布式存储之FastDFS简介及部署
- LoRa节点开发——加入打印调试LoRaWAN
- 03 . Redis集群
- 02 . Redis哨兵
- 01 . RabbitMQ简介及部署
- 01 . Memcached原理,主从复制,代理,管理后台
- JsonPath验证类既Groovy重载操作符实践
- Selenium等待:sleep、隐式、显式和Fluent
- 敏捷中的端到端测试