杜龙少(sdvdxl)

杜龙少(sdvdxl)

如有问题可以到 https://gitee.com/sdvdxl/blog 提issue交流

Spark基础知识
Spark 基本概念 RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing 弹性分布式数据集。 Operation——作用于 RDD 的各种操作分为 transformation 和 action。 Job——作业,一个 JOB 包含多个 RDD 及作用于相应 RDD 上的各种 operation。 Stage——一个作业分为多个阶段。 Partition——数据分区, 一个 RDD 中的数据可以分成多个不同的区。 DAG——Directed Acy...
SparkStreaming+Zookeeper+Kafka入门程序
准备工作: 安装 spark 安装 zookeeper 安装 kafka 开始工作1. 启动 zookeeper 打开终端,切换到 zookeeper HOME 目录, 进入 conf 文件夹,拷贝一份 zoo_sample.cfg 副本并重命名为 zoo.cfg 切换到上级的 bin 目录中,执行 ./zkServer.sh start 启动 zookeeper,会有日志打印 Starting zookeeper … STARTED 然后用 ./zkServer.sh status 查看状态,如果有下列信息输出,则说明启动成功 Mode: standalone 如果要停止...
运行第一个SparkStreaming程序(及过程中问题解决)
官方示例说明按照官方文档的 这个示例说明,可以轻松的在本地的 spark-shell 环境中测试这个示例。示例,即为了更好的入门,那么就再说明一下。运行这个统计单词的方式有三种,前面两种是官方文档上的指引,第三种则是用 scala 程序运行。 第一种方式, run-demo 打开一个终端,打开一个终端,输入 命令 nc -lk 9999,暂时叫做 “nc 终端” 吧 再打开终端,切换到 Spark HOME 目录, 执行命令 bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost...
Apache-Sqoop 安装
准备首先当然是下载 sqoopsqoop 依赖以下软件, 点击链接可以直接下载 hadoopaccumuloapache-hivehbasezookeeper 配置配置 JAVA 环境变量JAVA_HOME=/home/du/software/dev/jdk1.7.0_45123export JAVA_HOME=/usr/install/java #此处换成自己的 jdk 目录export CLASSPATH=.:$JAVA_HOME/jre/libexport PATH=$PATH:$JAVA_HOME/bin 配置 sqoop 运行依赖12345678export HADOOP...
Sqoop使用
sqoop help 查看帮助信息sqoop help COMMAND 查看 COMMAND 具体的帮助,如要查看 list-databases 命令的用法,则使用 sqoop help list-databases 查看。 主要可用的命令如下: 命令 功能 help List available commands import Import a table from a database to HDFS list-databases List available databases on a server list-tables List available ...
sdvdxl(杜龙少)
鲁ICP备17022134号
FRIENDS
氦氪智能