hadoop+hive+hbase的大数据行业应用-交通轨迹分析
案例描述
项目概要
项目背景:
随着互联网的深入发展,打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展大数据运用,打车可以足不出户,就可以约到自己想要搭乘的汽
案例描述 项目概要 项目背景: 随着互联网的深入发展,打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展大数据运用,打车可以足不出户,就可以约到自己想要搭乘的汽车。本实验主要是来探究生活中存在的打车难的问题,这个问题限制了我们有些时间的出行,有时浪费了我们大量的时间。在哪些地方容易打车,什么时候的车更容易搭乘,这是我们要着手解决的问题。 建设目标: 为了乘客能够高效,便捷的搭乘到出租车。本案例将利用某城市的出租车驾驶轨迹的数据,通过大数据分析算法等相关技能,对打车的现状进行分析,并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。 需求分析 需求介绍: 根据已有的数据集,进行相应的特征工程后,实现机器学习算法的分发。根据预测的结果使用MapReduce、hive完成 出租车运行状态的统计,区域出租车分布的统计,最大程度将分析结果可视化,为该区域用户打车提供便利。 . 功能点: 实现特征工程, 模型训练, 模型测试, 模型预测, 结果细分, 数据可视化 . 特征工程 加载csv文件,实现自定义schema的匹配。将表数据利用向量装配器的transform进行转换,构建特征向量。 . 模型训练: 选用k-means算法对原始数据进行预测,设置要聚类的簇数,设置输入,和标签列。 利用fit方法,进行模型训练。 获取聚类的中心 将训练好的model保存到本地 模型预测: 利用训练好的模型对测试集数据进行预测 结果细分: 利用mapreduce, hive对预测结果进行统计查询分析。 可视化展示 利用百度地图相关API 和 D3.JS 对结果进行展示 解决方案 . 架构简介: 本系统架构采用模块化设计,分为数据准备, 解析csv数据, 构建特征向量,聚类模型训练,聚类模型测试, 分析预测结果,数据可化 将待处理的文件存放到本地Linux的指定目录中 . 数据准备模块: 将待处理的文件存放到本地Linux的指定目录中 . 解析CSV模块: 通过hive加载第三方的插件,实现对原始数据字段的解析。 . 构建特征向量: 通过定义特征数组,匹配原始数据schema,利用VectorAssember设置相关的属性 . 聚类模型训练: 利用K-means模型对原始数据中的训练集数据,进行训练 . 聚类模型测试 利用测试集数据对模型进行测试 . 分析预测结果 利用hive对预测结果进行深入的分析 . 数据可视化 利用百度地图API 和D3.js对分析结果进行可视化展示。 . 技术名称: 序号 技术名称 所属模块 优点 掌握程度 1 hive 分析预测结果 4星 2 Kmeans 模型训练, 模型预测 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。原理结单,容易实现 4星 3 百度地图API , D3 js 可视化展示 简单,便捷,代码量少 4星 准备工作 . 数据介绍: 通过已有的历史数据,进行相应的规则清洗后,存放到Linux本地,为实验做准备 . 字段说明: 序号 字段 描述 0 TID 汽车ID 1 Lon 维度 2 Lat 经度 3 Time 时间戳 特征工程 通过csv工具类和 自定义Schema的创建,利用spark 向量装配器将原始数据映射为特征向量 模型训练 使用预处理方法将特征向量划分为train和test两个部分,利用k-means进行模型的训练。 模型测试 利用测试集数据,对模型的进行预测 分析预测结果 将预测的结果使用hive进行统计分析,实现具体的业务需求。 数据可视化 使用百度地图开发API 和 D3.js 对最终的预测结果进行可视化展示 (编辑:海南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |