加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网 (https://www.0515zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

微软开源大数据框架 REEF

发布时间:2022-11-03 11:22:54 所属栏目:大数据 来源:
导读:  微软开发了一个名为REEF(Retainable Evaluator Execution Framework)的大数据框架,并计划在一个月左右将其开源。

  8月12日上午,在芝加哥举行的Knowledge Mining and Data Discovery国际会议上,微软技
  微软开发了一个名为REEF(Retainable Evaluator Execution Framework)的大数据框架,并计划在一个月左右将其开源。
 
  8月12日上午,在芝加哥举行的Knowledge Mining and Data Discovery国际会议上,微软技术研究员兼信息服务CTO Raghu Ramakrishnan介绍了REEF框架和微软的开源计划。
 
  REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数据分析。某些情况下,整个数据流可以执行在同一个集群机上。
 
  Ramakrishnan表示,对于某些类型的作业,例如机器学习,YARN并不是一个理想的框架,因为这些作业对于数据传输、任务监控和结果集迭代等方面有一些特殊的要求。
 
  而REEF可以解决这些问题。REEF分为两个部分:Evaluator和Activity。Evaluator是YARN的容器,包括REEF服务和Activity(用户代码)都运行在Evaluator内。Ramakrishnan展示了一个工作流示例,YARN可以向上构建一个Evaluator,Activity代码会在Evaluator运行和完成,这时同一个Evaluator可以再次恢复初始状态运行起来,以便其他的Activity继续运行。
 
  从理论上来说微软大数据,REEF是一个有趣的技术,它试图去解决一些公司进行数据分析时的遗留问题。同时值得注意的是,REEF在某种程度上表明了微软拥抱Hadoop和开源的强烈意愿。几年前,微软只是致力于开发Hadoop的替代品和专有平台。而现在,它也在推动Hadoop社区的工作并提高自身代码的开放度。
 

(编辑:草根网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!