欢迎来到皮皮网官网

【源码分享社区违法】【canvas源码解析】【支付源码论坛】mahout kmeans源码

时间:2024-11-13 14:53:17 来源:php erp源码下载

1.大数据开发这么学习?
2.如何使用hadoop运行自定义的mahout程序

mahout kmeans源码

大数据开发这么学习?

       分享大数据学习路线:

       第一阶段为JAVASE+MYSQL+JDBC

       主要学习一些Java语言的源码概念,如字符、源码bai流程控制、源码面向对象、源码进程线程、源码枚举反射等,源码源码分享社区违法学习MySQL数据库的源码安装卸载及相关操作,学习JDBC的源码实现原理以及Linux基础知识,是源码大数据刚入门阶段。

第二阶段为分布式理论简介

       主要讲解CAP理论、源码数据分布方式、源码一致性、源码2PC和3PC、源码大数据集成架构。源码涉及的源码知识点有Consistency一致性、Availability可用性、Partition

       tolerance分区容忍性、数据量分布、2PC流程、canvas源码解析3PC流程、哈希方式、一致性哈希等。

第三阶段为数据存储与计算(离线场景)

       主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、支付源码论坛数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

第四部分为数仓建设

       主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车(5T)架构技术解析、源码修改方法多维数据模型处理kylin(3.5T)部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等;

第五阶段为分布式计算引擎

       主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过某p2p平台项目实现spark多数据源读写。

第六阶段为数据存储与计算(实时场景)

       主要讲解数据通道Kafka、推广奖励 源码实时数仓druid、流式数据处理flink、SparkStreaming,并通过讲解某交通大数让你可以将知识点融会贯通。

第七阶段为数据搜索

       主要讲解elasticsearch,包括全文搜索技术、ES安装操作、index、创建索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理

       主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。

第九阶段为BI系统

       主要讲解Superset、Graphna两大技术,包括基本简介、安装、数据源创建、表操作以及数据探索分析。

第十阶段为数据挖掘

       主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。

对大数据分析有兴趣的小伙伴们,不妨先从看看大数据分析书籍开始入门!B站上有很多的大数据教学视频,从基础到高级的都有,还挺不错的,知识点讲的很细致,还有完整版的学习路线图。也可以自己去看看,下载学习试试。

如何使用hadoop运行自定义的mahout程序

       1)用户在本地打包编译自己的程序,如mytest.jar

        2)上传用户程序包mytest.jar到平台的注册用户目录,如testuser

        3)根据用户程序的需求准备目录和数据

        4)登录/,执行如下的命令

        mahout hadoop jar mytest.jar mytest.clustering.MyKmeans.Job -i input -o output -k 3

        说明:

        mahout脚本通过hadoopww.hbbz.com命令直接执行用户程序,但用户直接用hadoop命令不能直接执行基于mahout算法库开发的应用程序,因为mahout脚本会自动加载mahout库中的jar包,下面是上面示例命令的详细说明:

        mahout - 执行mahout 命令

        hadoop - mahout 脚本执行自定义程序的参数,mahout脚本会根据这个参数调用hadoop命令

        jar - hadoop 执行 jar的参数

        mytest.jar - 用户程序jar包

        mytest.clustering.MyKmeans.Job - 用户要执行程序的主类

        其他 - 用户程序参数,根据用户程序的实际需求设置

       åœ¨windows下使用eclipse把代码编写好,将代码打包成jar文件,放到linux服务器上,

        运行

        mahout hadoop jar your_mahout_code.jar your_main_class

        我的测试代码是:

        mahout hadoop jar mahout.jar mahout.Recsys

copyright © 2016 powered by 皮皮网   sitemap