Spark基础知识
Spark基本概念
RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。
Operation——作用于RDD的各种操作分为transformation和action。
Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
Stage——一个作业分为多个阶段。
Partition——数据分区, 一个RDD中的数据可以分成多个不同的区。
DAG——Directed Acycle graph,有向无环图,反应RDD之间的依赖关系。
Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition都有依赖。
Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整 体的处理速度。
运行第一个SparkStreaming程序(及过程中问题解决)
官方示例说明按照官方文档的 这个示例说明,可以轻松的在本地的spark-shell环境中测试这个示例。示例,即为了更好的入门,那么就再说明一下。运行这个统计单词的方式有三种,前面两种是官方文档上的指引,第三种则是用scala程序运行。
第一种方式, run-demo
打开一个终端,打开一个终端,输入 命令 nc -lk 9999,暂时叫做 “nc终端” 吧
再打开终端,切换到Spark HOME目录, 执行命令 bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999, 然后每秒会有类似一下日志循环输出
-——————————————Time: 1415701382000 ms-——————————————-——————————————Time: 1415701383000 ms-——————————————
在nc终端随便输入一些字符串,用空格隔开,回车,如aa aa bb c。可以在上面的Spark终端中看到有新内容输出
-——————————————T ...
SparkStreaming+Zookeeper+Kafka入门程序
准备工作:
安装 spark
安装 zookeeper
安装 kafka
开始工作1. 启动zookeeper 打开终端,切换到 zookeeper HOME 目录, 进入conf文件夹,拷贝一份 zoo_sample.cfg 副本并重命名为 zoo.cfg 切换到上级的bin目录中,执行 ./zkServer.sh start 启动zookeeper,会有日志打印
Starting zookeeper … STARTED
然后用 ./zkServer.sh status 查看状态,如果有下列信息输出,则说明启动成功
Mode: standalone
如果要停止zookeeper,则运行 ./zkServer stop 即可
2. 启动kafka打开终端,切换到 kafka HOME 目录,运行 bin/kafka-server-start.sh config/server.properties 会有以下类似日志输出
[2014-11-12 17:38:13,395] INFO [ReplicaFetcherManager on broker 0] Removed f ...
Apache-Sqoop 安装
准备首先当然是下载sqoopsqoop 依赖以下软件,点击链接可以直接下载
hadoopaccumuloapache-hivehbasezookeeper
配置配置JAVA环境变量JAVA_HOME=/home/du/software/dev/jdk1.7.0_45
123export JAVA_HOME=/usr/install/java #此处换成自己的jdk目录export CLASSPATH=.:$JAVA_HOME/jre/libexport PATH=$PATH:$JAVA_HOME/bin
配置sqoop运行依赖12345678export HADOOP_COMMON_HOME=/home/du/software/dev/hadoop-2.6.0export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME/share/hadoop/mapreduceexport ZOOKEEPER_HOME=/home/du/software/dev/zookeeper-3.4.6export ACCUMULO_HOME=/usr/install/a ...
Sqoop使用
sqoop help 查看帮助信息sqoop help COMMAND 查看 COMMAND具体的帮助,如要查看 list-databases 命令的用法,则使用 sqoop help list-databases 查看。
主要可用的命令如下:
命令
功能
help
List available commands
import
Import a table from a database to HDFS
list-databases
List available databases on a server
list-tables
List available tables in a database
主要参数说明
参数
说明
–connect
用来指定jdbc链接url,如mysql的: jdbc:mysql://ip:port/database
–password
指定密码, 安全起见,建议使用 -P 参数,交互式填写密码或者使用 –password-file参数
–password-file
指定密码的文件,从该文件中读取密码
– ...
404
暂时没有您要查看的内容,点击返回主页看看其他内容吧😁