博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark中直接操作HDFS
阅读量:6080 次
发布时间:2019-06-20

本文共 607 字,大约阅读时间需要 2 分钟。

Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据:

通过Hadoop方式操作已经存在的文件目录

val path = new
org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))

   

通过spark自带的hadoopconf方式操作已经存在文件目录 

val hadoopConf = sparkContext.hadoopConfiguration    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf) if(hdfs.exists(path)){      //为防止误删,禁止递归删除      hdfs.delete(path,false)    }

  

 

转载于:https://www.cnblogs.com/maxigang/p/10033159.html

你可能感兴趣的文章
Entity Framework系列
查看>>
Android控件GridView之仿支付宝钱包首页带有分割线的GridView九宫格的完美实现
查看>>
如何制作一款HTML5 RPG游戏引擎——第一篇,地图类的实现
查看>>
Android 之使用LocalBroadcastManager解决BroadcastReceiver安全问题
查看>>
破解物联网落地困境-阿里云硬件接入最佳实践
查看>>
POJ 2503 字符串(两种方法)
查看>>
ArcGIS API for Flex 调用天地图、e都市瓦片地图
查看>>
【Yaml】Yaml学习笔记
查看>>
Mockito教程
查看>>
筛选并保留最后一次记录(如筛选最后一次缴纳电费的记录 )
查看>>
亚马逊开源 Neo-AI 框架,可优化 AI 模型提升部署速度
查看>>
新网盘时代,私有云斐讯天天链N1开启智能家居新生活!
查看>>
《西游伏妖篇》明星全阵容曝光 相约大年初一
查看>>
有一种手机能让你一见钟情,华为P20 Pro亮黑色图赏
查看>>
京东商城CEO徐雷年会演讲:我们抗住风霜 业务基本面良好
查看>>
德国飞往意大利民航客机机翼撕裂 途中乘客发现裂痕
查看>>
菜鸟保税仓成全球商家进中国首选 秒级通关领先全球
查看>>
退休延迟致新老职员共事 澳大利亚管理者面临挑战
查看>>
适当时公布?新西兰会否重启父母团聚移民引关注
查看>>
春运中的“洋导游”
查看>>