杜龙少 - sdvdxl

发表于2016-03-09|spark

Spark基本概念 RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。 Operation——作用于RDD的各种操作分为transformation和action。 Job——作业，一个JOB包含多个RDD及作用于相应RDD上的各种operation。 Stage——一个作业分为多个阶段。 Partition——数据分区，一个RDD中的数据可以分成多个不同的区。 DAG——Directed Acycle graph，有向无环图，反应RDD之间的依赖关系。 Narrow dependency——窄依赖，子RDD依赖于父RDD中固定的data partition。 Wide Dependency——宽依赖，子RDD对父RDD中的所有data partition都有依赖。 Caching Managenment——缓存管理，对RDD的中间计算结果进行缓存管理以加快整体的处理速度。

运行第一个SparkStreaming程序（及过程中问题解决）

发表于2016-03-09|spark

官方示例说明按照官方文档的这个示例说明，可以轻松的在本地的spark-shell环境中测试这个示例。示例，即为了更好的入门，那么就再说明一下。运行这个统计单词的方式有三种，前面两种是官方文档上的指引，第三种则是用scala程序运行。第一种方式, run-demo 打开一个终端，打开一个终端，输入命令 nc -lk 9999，暂时叫做 “nc终端” 吧再打开终端，切换到Spark HOME目录，执行命令 bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999，然后每秒会有类似一下日志循环输出 -——————————————Time: 1415701382000 ms-——————————————-——————————————Time: 1415701383000 ms-—————————————— 在nc终端随便输入一些字符串，用空格隔开，回车，如aa aa bb c。可以在上面的Spark终端中看到有新内容输出 -——————————————T ...

SparkStreaming+Zookeeper+Kafka入门程序

发表于2016-03-09|spark

准备工作：安装 spark 安装 zookeeper 安装 kafka 开始工作1. 启动zookeeper 打开终端，切换到 zookeeper HOME 目录，进入conf文件夹，拷贝一份 zoo_sample.cfg 副本并重命名为 zoo.cfg 切换到上级的bin目录中，执行 ./zkServer.sh start 启动zookeeper，会有日志打印 Starting zookeeper … STARTED 然后用 ./zkServer.sh status 查看状态，如果有下列信息输出，则说明启动成功 Mode: standalone 如果要停止zookeeper，则运行 ./zkServer stop 即可 2. 启动kafka打开终端，切换到 kafka HOME 目录,运行 bin/kafka-server-start.sh config/server.properties 会有以下类似日志输出 [2014-11-12 17:38:13,395] INFO [ReplicaFetcherManager on broker 0] Removed f ...

Apache-Sqoop 安装

发表于2016-03-09|Sqoop

准备首先当然是下载sqoopsqoop 依赖以下软件,点击链接可以直接下载 hadoopaccumuloapache-hivehbasezookeeper 配置配置JAVA环境变量JAVA_HOME=/home/du/software/dev/jdk1.7.0_45 123export JAVA_HOME=/usr/install/java #此处换成自己的jdk目录export CLASSPATH=.:$JAVA_HOME/jre/libexport PATH=$PATH:$JAVA_HOME/bin 配置sqoop运行依赖12345678export HADOOP_COMMON_HOME=/home/du/software/dev/hadoop-2.6.0export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME/share/hadoop/mapreduceexport ZOOKEEPER_HOME=/home/du/software/dev/zookeeper-3.4.6export ACCUMULO_HOME=/usr/install/a ...

Sqoop使用

发表于2016-03-09|Sqoop

sqoop help 查看帮助信息sqoop help COMMAND 查看 COMMAND具体的帮助，如要查看 list-databases 命令的用法，则使用 sqoop help list-databases 查看。主要可用的命令如下：命令功能 help List available commands import Import a table from a database to HDFS list-databases List available databases on a server list-tables List available tables in a database 主要参数说明参数说明 –connect 用来指定jdbc链接url，如mysql的: jdbc:mysql://ip:port/database –password 指定密码，安全起见，建议使用 -P 参数，交互式填写密码或者使用 –password-file参数 –password-file 指定密码的文件，从该文件中读取密码 – ...

404

发表于2000-01-01

暂时没有您要查看的内容，点击返回主页看看其他内容吧😁