视频节点服务器(节点服务器是服务器吗)〔视频节点设备〕

  作者:转自新智元(微信号:AI_era)

  原创好文授权发布于魔窗公众号(magic-window),未经答应 ,推辞 转载 。

  新智元报道

  编辑:胡祥杰

  新智元启动新一轮大雇用 :COO 、实行 总编、主编、高级编译 、主笔、运营总监、客户司理 、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:jobs@aiera.com.cn

  HR 微信:13552313024

  新智元为COO和实行 总编提供最高超百万的年薪鼓励 ;为骨干员工提供最完备 的培训体系、高于业界均匀 程度 的工资和奖金。

  加盟新智元,与人工智能业界首脑 携手改变天下 。

  【新智元导读】12月18日腾讯大数据公布 推出头 向呆板 学习的第三代高性能盘算 平台——Angel,并预计于2017年一季度开放其源代码。腾讯首席实行 官马化腾在朋侪 圈发文称:“AI与大数据将成为将来 各范畴 的标配 ,等待 更多业界偕行 一起开源携手相助 。”将于2017年开源的Angel是对标 Spark 的呆板 学习盘算 平台 。蒋杰说,从前 Spark能跑的,如今 Angel快几十倍;从前 Spark跑不了的 ,Angel也能轻松跑出来。本文内容包罗 新智元对蒋杰的专访,以及蒋杰在大会上演讲的笔墨 实录和PPT。

  12月18日,腾讯大数据公布 推出头 向呆板 学习的第三代高性能盘算 平台——Angel ,并预计于2017年一季度开放其源代码,鼓励业界工程师 、学者和技能 职员 大规模学习利用 ,引发 呆板 学习范畴 的更多创新应用与精良 生态发展 。

  可以看到,人工智能已经成为腾讯的一个紧张 战略方向。腾讯CEO马化腾18日晚在微信朋侪 圈转推了这一消息 ,并写道:“AI与大数据将成为将来 各范畴 的标配,等待 更多业界偕行 一起开源携手相助 。 ”

  腾讯18日在腾讯大数据技能 峰会暨 KDD China 技能 峰会上公布 这一消息,腾讯副总裁姚星 ,腾讯数据平台部总司理 、首席数据专家蒋杰老师 出席了峰会并发演出 讲。

  姚星表现 :“人工智能的发展在已往 60年中几经沉浮,本年 终于发出了璀璨光芒,很大的缘故起因 就是跟云盘算 和大数据有关 ,这是一种演进发展的肯定 结果 。如那边 理 惩罚 好大数据,如安在 有限的盘算 资源上对这些大数据举行 深入发掘 和分析,这是将来 整个财产 发展和升级的一个大课题。我信托 大数据将成为这次财产 升级的底子 ,核心 算法将成为这次财产 升级的魂魄 。”

  “面对 腾讯快速增长的数据发掘 需求,我们盼望 开辟 一个面向呆板 学习的、能应对超大规模数据集的、高性能的盘算 框架,而且 它要对用户充足 友爱 ,具有很低的利用 门槛,就如许 ,Angel平台应运而生 。”蒋杰表现 :“呆板 学习作为人工智能的一个紧张 种别 ,正处于发展初期 ,开源Angel,就是开放腾讯18年来的海量大数据处理 惩罚 履历 和先辈 技能 。我们毗连 统统 毗连 的资源,引发 更多创意 ,让这个好平台渐渐 转化成有代价 的生态体系 ,让企业运营更有效 、产物 更智能、用户体验更好。 ”

  Angel是腾讯大数据部分 发布的第三代盘算 平台,利用 Java和Scala语言开辟 ,面向呆板 学习的高性能分布式盘算 框架,由腾讯与香港科技大学、北京大学连合 研发 。它采取 参数服务器架构,办理 了上一代框架的扩展性题目 ,支持数据并行及模子 并行的盘算 模式,能支持十亿级别维度的模子 练习 。

  不但 云云 ,Angel 还采取 了多种业界最新技能 和腾讯自主研发技能 ,如SSP(Stale synchronous Parallel) 、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调治 算法 、盘算 和网络哀求 流水化、参数更新索引和练习 数据预处理 惩罚 方案等。这些技能 使Angel性能大幅进步 ,到达 常见开源体系 Spark的数倍到数十倍,能在千万 到十亿级的特性 维度条件下运行 。

  在体系 易用性上,Angel提供丰富的呆板 学习算法库及高度抽象的编程接口、数据盘算 和模子 分别 的主动 方案及参数自顺应 设置 ,同时,用户能像利用 MR 、Spark一样在Angel上编程,我们还建立 了拖拽式的一体化的开辟 运营流派 ,屏蔽底层体系 细节,低落 用户利用 门槛。别的 ,Angel还支持深度学习 ,它支持Caffe、TensorFlow和Torch等业界主流的深度学习框架,为其提供盘算 加快 。

  自本年 初在腾讯内部上线以来,Angel已应用于腾讯视频、腾讯交际 广告及用户画像发掘 等精准保举 业务 。

  新智元专访腾讯数据平台负责人蒋杰

  新智元:Angel 已经是第三代 ,此次更新与前两代有何差别 ?

  蒋杰:腾讯大数据平台发展的历经了3代:2009-2011年是第一代,以Hadoop为底子 而开辟 ,只支持批量盘算 的场景 ,这个阶段重点建立 平台可扩展性 、性能及可用性等,不绝 增大集群的规模,规模化的发展;第二代是及时 化,从2012年到2014年。基于Spark及Storm来建立 ,支持在线分析和及时 盘算 的场景;第三代是客岁 开始,进入自研阶段,重要 建立 呆板 学习平台 ,提供高性能的盘算 及深度学习的本领 。

  新智元:为什么会选择开源?开辟 者可以用Angel来干什么?

  蒋杰:腾讯大数据平台来自开源的社区,受益于开源的社区中,以是 我们天然 而然地盼望 回馈社区。开源 ,让开放者和开辟 者都能受益,创造一个共建共赢的生态圈 。在这里,开辟 者能节省 学习和操纵 的时间 ,提拔 开辟 服从 ,去花时间想更好的创意,而开放者能受益于社区的力气 ,更快美满 项目,构建一个更好的生态圈。我们不停 都在回馈社区,开放了很多 源代码,作育 了几个项目标 committer ,这种开放的脚步不会克制 。Angel重要 面向呆板 学习的场景,特别 实用 于大规模的数据盘算 。

  新智元:Angel的发展目标 是什么?最大长处 是什么?

  蒋杰:Angel的定位是一个能盘算 更大模子 、速率 快到飞起来、又能对用户充足 友爱 、形象善良的平台,我们盼望 它将来 可以支持腾讯等企业级大规模呆板 学习任务 ,并创造出一个有代价 的呆板 学习型生态。Angel能支持更大量级的数据,性能更好,更低的利用 门槛 ,它是一个已经在工业级应用得到验证,并有丰富的配套流程和工具的平台。

  新智元:Angel 是腾讯内部主流的呆板 学习框架吗?在腾讯内部的利用 环境 怎样 ?如今 在腾讯的应用包罗 哪些?

  蒋杰:Angel定位于大规模呆板 学习的盘算 ,自本年 初上线以来 ,已应用于腾讯视频 、腾讯交际 广告、用户画像发掘 等精准保举 业务,结果 非常显着 。如今 根本 上全部 的BG都有业务在利用 而且 用户越来越多。

  新智元:你个人怎么对待 国外的开源平台,比如 本年 最火的TensorFlow?

  蒋杰:国表里 很多 企业都有本身 的呆板 学习平台 ,阐明 各人 面对 的题目 都根本 雷同 ,企业把项目开源,有助于推动整个呆板 学习范畴 的快速发展。至于TensorFlow,它是 Google开源的呆板 学习体系 ,用来更换 DistBelief,提供了数据流编程模子 ,重要 的上风 在于为深度学习提供了通用的算子和GPU并行盘算 ,如今 TensorFlow开源出来的版本比力 实用 于单机多卡的环境 。Google的技能 不停 受到天下 的追捧,以是 TensorFlow社区非常活泼 ,信托 后续会更火。

  腾讯副总裁姚星先容 腾讯AI 实行 室

  姚星:各人 早上好 ,非常高兴本日 参加 KDD China 技能 峰会。已往 的20年是信息期间 快速发展的20年,信息财产 的发展远超其他财产 。信息财产 的发展提拔 了人类的生存 品格 ,也深深影响着我们这一代人。信息财产 的高速发展离不开盘算 本领 的提拔 ,无论是我们利用 的处理 惩罚 器盘算 本领 还是 网络传输本领 ,在过往20年发展中都保持了“摩尔定律”的趋势,使得我们互联网产物 深入千家万户 ,得到了广泛应用。随着互联网产物 渗出 率的渐渐 趋稳,互联网财产 以后 的发展趋势在那边 ?什么样的技能 、业务形态会引领后续的财产 发展?时至本日 ,我想答案毫无疑问是人工智能。人工智能在过往的60年发展中几经沉浮,起起落 落 ,在本年 散发出璀璨的光芒,人工智能的鼓起 是大数据 、云盘算 科学进步的产物 。充实 利用 盘算 资源,对海量大数据通过算法举行 进一步的发掘 分析 ,这是互联网产物 和财产 的将来 发展趋势。大数据是底子 、核心 算法是魂魄 。腾讯公司通过18年的发展本日 已经成为了天下 级的互联网公司 。已往 我们在产物 体验上更加关注的是简单 、好用。通过简单 的方式提拔 人们的沟通服从 ,通过简单 的方式让人们轻松享受数字内容期间 。在技能 上,我们已往 更加关注的是工程技能 ,也就是海量性能处理 惩罚 本领 、海量数据存储本领 、工程架构分布容灾本领 。将来 腾讯必将发展成为一家引领科技的互联网公司,我们将在大数据、核心 算法等技能 范畴 上举行 积极的投入和布局 ,和相助 搭档 共同推动互联网财产 的发展。

  腾讯公司是一家消息平台+数字内容的公司 ,本质上来讲我们也是一家大数据公司,本日 我们每天 产生数千亿的收发消息,高出 10亿的分享图片 ,高峰期间百亿的收发红包。每天 产生的看消息 、听音乐、看视频的流量峰值高达数十T 。这么大的数据如那边 理 惩罚 好,利用 好简直 是极具挑衅 的。在大数据上腾讯也承袭 开放生态理念与相助 搭档 一起共建大数据生态,在云、付出 、LBS、安全方面,与生态相助 搭档 共建底子 办法 ,与相助 搭档 一起助推财产 升级。

  本年 腾讯创建 了AI实行 室,我们建立 的是四个底子 的研究方向,包罗 盘算 机视觉、语音辨认 ,天然 语言处理 惩罚 ,以及呆板 学习 。我们也建立 了四个业务发展方向:起首 我们会聚焦于内容AI,重要 聚焦于搜刮 和个性化保举 ,除了文本以外的深度内容再加上富媒体内容的深度明白 。第二个是游戏AI,这是基于腾讯业务本质特性相干 的。我们会打造竞技类游戏相干 的AI本领 。第三个方向我们会构建交际 AI,这是基于我们腾讯最重要 的交际 平台的AI 。信托 在将来 的产物 形态上会出现智能音响也好 ,智能助手也好。第四个是云AI,我们会把我们的图象辨认 本领 、语音辨认 本领 、天然 语言处理 惩罚 本领 以及大数据呆板 学习的平台开放给更多的用户利用 。腾讯的AI任务 是终极 打造广义通用AI,实现每个民气 中的“明白 ” 。使得我们的小朋侪 更加的“被明白 ” ,使得我们的成年人更加的“被掩护 ”,使得我们的老年人更加的“被照顾”。

  如今 AI整个行业还处于早期阶段,固然 在某些垂直范畴 已经大概 到达 了某些人类的均匀 智能程度 ,但是这与人的综合智能还相差甚远。无论我们有怎样 先辈 的算法模子 ,我们都必要 重新练习 数据 。无论我们有怎样 深层的网络模子 ,本质上都是通过算力办理 题目 。这和人与生俱来的智能,以及“创造力 ”、“闻一知十 ”、“归纳总结”本领 都相差甚远。但是我们也看到了积极的方向 ,比如 Deepmind 的 Reinfocement 强化学习的发展进步,Open AI 的Gan天生 对抗网络的发展 。这些积极的发展使得AI的范畴 发展日新月异。

  我信托 在与会的各位专家和各位从业精英的积极投入和参加 下,AI的发展必将气愤 发达 、势不可挡!末了 预祝大会圆满乐成 !谢谢!

  蒋杰演讲笔墨 记录 与PPT

  各人 好 ,很多 人已经知道腾讯得到 了本年 的Sort benchmark的排序的4项冠军,很多 朋侪 来问我,腾讯是怎么做到的 ,背后支持 的毕竟 是什么样的技能 ?

  

  本日 ,我借这个机遇 ,跟大伙来讲讲背后的一些故事。

  信托 很多 人看过我们在很多 都会 机场投放的这个广告 ,这个广告内里 画的是一个竞走 的选手,排序比赛 ,就跟奥运会的百米竞走 一样,都要很快 。但我想说的是 ,着实 我们更像一个长跑选手,我们在赛马 拉松,这场马拉松 ,我们跑了7年。

  

  回顾 已往 几年的比赛 的结果 ,几年前冠军都是被美国企业把持 的,近来 三年则是BAT拿了冠军。应该说 ,这几年,国内互联网的发展速率 不比美国慢,与此同时 ,以BAT为代表的国内互联网企业的盘算 本领 也不掉队 于美国。

  已往 几年,得到 冠军的团队,用的根本 上都是Hadoop和Spark ,着实 腾讯的大数据平台,也是始于Hadoop的 。

  

  我们之以是 能得到 四项的冠军,是我们履历 了几年的打磨,寻求 极致 ,我们盼望 最大限度地压榨呆板 的性能。

  起首 ,从本钱 的角度,只有把硬件压榨到极致 ,本钱 才会低。我们采取 的是OpenPower架构的呆板 ,按节点数盘算 ,我们规模只有客岁 冠军的六份一 ,按照本年 的硬件代价 ,我们总的TCO本钱 远低于客岁 冠军 。

  在调治 层面,我们对调治 算法做了深度优化 ,使得每台呆板 的CPU、内存、网络 、磁盘IO等每个环节都能发挥到极致。本次比赛 的此中 两项为MinuteSort,比拼的就是一分钟内的排序数据量,这个时间调治 的服从 就变得非常紧张 ,而这两项比赛 我们比客岁 提拔 了5倍,是提拔 幅度最高的;这也从另一个方面阐明 白 我们在调治 服从 上的领先性。总结为一句话,就是最大限度地压榨了硬件的性能,才让我们取得这个结果 。

  如今 我们用于比赛 的这个集群 ,已经在我们的现网中用起来了,在高性能盘算 、图盘算 、深度学习等范畴 支持 腾讯的现网应用。

  

  回顾 我们走过的7年,我们是2009年1月开始基于Hadoop来开辟 我们的大数据平台 ,七年的征程,我们历经了3代平台的发展。

  2009-2011年是我们的第一代平台,我们的第一代平台 ,只支持批量盘算 的场景,重要 就是报表,这个过程 ,我们重点发展了平台的可扩展性,我们不绝 增大集群的规模,从09年的几十台 ,发展到如今 总规模靠近 3万台 。总结成几个字,第一代就是规模化。

  第二代,用三个字总结就是及时 化。这是2012年到2014年 。重要 支持在线分析和及时 盘算 的场景,比如 及时 报表 ,及时 查询 、及时 监控等。

  第三代是客岁 到如今 ,重要 建立 呆板 学习平台,支持腾讯各业务数据发掘 的需求。这是从数据分析到数据发掘 的变化 ,三个字总结就是“智能化“。

  

  第一代是离线盘算 的架构,是基于Hadoop开辟 的, 我们起名叫TDW ,腾讯分布式数据堆栈 的意思 。

  社区的Hadoop迭代慢,单一集群规模小,稳固 性和易用性都很差 ,不能到达 腾讯的要求,因此我们按腾讯的业务运营标准 ,做了深度定制开辟 ,我们偏重 发展集群的规模,办理 Master单点瓶颈不能扩展的题目 ,我们优化了调治 战略 来进步 Job的并发性,也加强 HA容灾建立 ,尚有 很关键的一点的是,我们丰富了Hadoop的周边生态,建立 了配套的工具和产物 来低落 用户的利用 门槛 ,语法上,我们兼容Oracle的语法,方便腾讯各产物 部分 做程序的迁徙 ,Hadoop大数据的性能很强,但是小数据分析的服从 很差,我们就集成了PostgreSQL来提拔 小数据的分析性能 ,买通 Hadoop和PG的访问边界 。

  就如许 ,我们从最开始的几十台、到几百台、到几千台,几年以后 ,在2013年单一集群到达 4400台,2014年单一集群突破8800台,处于业界领先的程度 。如今 我们的总规模靠近 3万台 。

  

  TDW的建成,办理 了我们内部三大业务痛点:

  第一 ,它使我们具备了T/P级的数据处理 惩罚 本领 ,几十亿 、百亿级的数据量,根本 上30分钟就能算出来。

  第二 ,它的本钱 很低,我们可以利用 很平凡 的PC Server,就能到达 从前 小型机一样的结果 ;

  第三 ,容灾方面,原来只要有呆板 宕机,业务的数据肯定就有影响 ,各种报表、数据查询,都出不来。如今 TDW的呆板 宕机,业务完全无感知 ,体系 会主动 做切换、数据备份等等的事变 。

  正是办理 了业务的这些痛点,业务部分 都乐意 把盘算 迁徙 到TDW。到2012年底,我们把全部 原来在Oracle和mysql上跑的报表都切换到TDW。

  

  TDW的建成,让我们具备了融合全部 产物 平台的数据的本领 。

视频节点服务器(节点服务器是服务器吗) 视频节点服务器(节点服务器是服务器吗)〔视频节点设备〕 新闻资讯

  从前 的各产物 的数据都是分散在各自的DB内里 的 ,是一个个数据孤岛,如今 ,我们以用户为中心 ,建成了十亿用户量级、每个用户万维特性 的用户画像体系。

  从前 的用户画像,只有十几个维度重要 就是用户的一些底子 属性,比如 年龄 、性别、地区 等 ,从前 构建一次要淹灭 很多 天,数据都是按月更新,有了TDW ,我们每天 更新一次。

  这个用户画像,应用在腾讯全部 跟精准保举 相干 的产物 内里 。

  

  再举个保举 的例子。保举 信托 各人 如今 都耳熟能详,但是放在6年前 ,这还是 一个刚刚新鼓起 的应用;TDW 为我们提供了一个快速切入快速支持 的本领 。通过 MapReduce 的编程范式,基于 TDW 的平台,我们可以专注于各种保举 算法逻辑本身 的实现,比如 各人 常见的 CF,MF,LR 这些算法 ,以及各种 hash 聚类算法;这个时间 的保举 技能 ,面对 海量的用户群体访问,更多还是 基于一种及时 查询的服务方式。

  

  第一代平台办理 了量大的痛点 ,但是在速率 方面尚有 题目 ,数据是离线的,任务 盘算 是离线的 ,及时 性差 。以是 ,我们建立 了第二代的大数据平台。

  

  在第一代底子 上,集成了Hadoop的第二代——Spark ,同时,还融合了Storm流式盘算 的框架。这一代平台的集成,让我们的盘算 的粒度从原来的小时 ,发展到分钟,直至秒级 。

  数据收罗 方面,我们构建了TDBank,让原来通过接口机传文件的方式 ,T+1的粒度,变成 了毫秒级的及时 收罗 。在这个收罗 平台内里 ,我们自研的消息中心 件 ,每天 收罗 的消息条数高出 6.5万亿,可以说是天下 上消息量最大的消息中心 件。同时,我们尚有 高可靠版本的消息中心 件 ,能支持像金融、计费等高同等 性的需求,包管 消息不丢 。

  在资源调治 层面,我们基于Yarn ,发展了我们的Gaia调治 平台,Yarn只支持CPU和内存的维度,而我们的Gaia还支持网络以及磁盘IO的维度 ,Yarn只支持 离线盘算 ,Gaia能支持在线的场景,别的 ,我们还支持Docker ,我们平台如今 每天 有1.5亿个container。

  再拿刚才提到的保举 例子,基于第一代平台的保举 应用会碰到 2个题目 ,一个是随着用户量 ,访问量的增多,产生的数据会越来越多,多到在有限的时间根本不大概 批处理 惩罚 的盘算 完 ,尚有 一点是用户的举动 模式变革 很快,必要 更快的去更新各种维度的用户画像;数据的及时 收罗 让用户举动 ,及时 画像的盘算 成为大概 ,这构成了流式盘算 的 数据流,分布式的流式盘算 及时 更新各个维度的统计量,进一步形成了保举 算法的及时 练习 数据 ,从而把上一代的 offline 的保举 体系 变成 了 online 的及时 保举 体系 。在广告的保举 应用上,我们可以看到每一次的及时 加快 ,都带来了更大的点击率提拔 。

  

  第二代的平台,及时 性和体量方面 ,都能满意 绝大多数业务需求。但随着我们的数据量越来越大,我们的瓶颈很快也出现了。

  我们在Spark上做数据练习 的时间 ,每一轮的迭代 ,在更新数据的时间 ,都会碰到 网络方面的瓶颈,由于 更新数据的地方是一个单点 ,假如 数据的维度很大,这套框架就无法支持 。在我们的实际 应用中,千万 级的维度 ,都可以run得不错,但是上了亿级,性能就非常低了 ,乃至 跑不出来。

  以是 ,我们必须要建立 一个能支持超大规模数据集的一套体系 ,能满意 billion级别的维度的数据练习 ,而且 ,这个体系 必须能满意 我们现网应用需求的一个工业级的体系 。它能办理 big data,以及big model的需求,它既能做数据并行 ,也能做模子 并行。

  

  有两种思绪 :

  一个是基于第二代平台的底子 上做演进,办理 大规模参数互换 的题目 。别的 一个,就是新建立 一个高性能的盘算 框架。

  我们看了当时 业内比力 盛行 的几个产物 ,GraphLab,重要 做图模子 ,容错差;Google的Distbelief ,还没开源;尚有 CMU Eric Xing的Petuum,当时 很火,不外 它更多是一个实行 室的产物 ,易用性和稳固 性达不到我们的要求。

  

  看了一圈,我们决定自研,走自研的路 。我们前两代都是基于开源的,第三代则开始了自研的进程 。着实 在第二代 ,我们已经实行 自研,我们消息中心 件,岂论 是高性能的 ,还是 高可靠的版本,都是我们自研的。他们履历 了腾讯亿万流量的检验 ,这也给了我们在自研方面很大的信心 。

  因此 ,第三代团体 的盘算 框架方面,我们也走了自研的蹊径 。第三代的平台,核心 是一个叫Angel的高性能盘算 平台。

  我们聚焦在高性能的盘算 框架方面 ,同时,也是我们往呆板 学习 、深度学习演进的一个蹊径 。

  相比第二代,第三代的盘算 框架 ,可以支持10亿级维度的算法练习 ,由从前 的数据并行,到可以支持模子 并行。

  同时,我们第三代的平台 ,还支持GPU深度学习,支持文本、语音、图像等非布局 化的数据。

  

  Angel是基于参数服务器的一个架构,它跑在我们的Gaia平台上面的 。

  它支持BSP 、SSP、ASP三种盘算 模式;支持数据并行以及工业界更看重的模子 并行 ,由于 我们重要 碰到 的还是 模子 大的题目 。

视频节点服务器(节点服务器是服务器吗) 视频节点服务器(节点服务器是服务器吗)〔视频节点设备〕 新闻资讯

  别的 ,在网络上我们有个原创的实行 ,我们用了港科大杨老师的团队做的诸葛弩来做网络调治 ,ParameterServer优先服务较慢的Worker,当模子 较大时,能显着 低落 等待 时间 ,任务 总体耗时降落 5%~15%。

  

  Angel提供很丰富的算法,支持LR、SVM 、LDA、GDBT等等,而且 集成了非常丰富的数学函数库 ,别的 ,还提供非常友爱 的编程界面,能跟Spark、MR对接,你能像用MR 、Spark一样编程。

  Angel跟其他平台相比 ,比如 Petuum,和spark等,就我们的测试结果 ,在划一 量级下,Angel的性能要优于其他平台 。比如 我们用Netflix的数据跑的SGD算法,各人 看一下这个图的对比。

  同时 ,Angel更得当 超大规模的数据练习 。如今 Angel支持了很多 腾讯内部的现网业务 。

  这里举两个例子,比如 ,在构建用户画像方面 ,从前 都是基于Hadoop和Spark来做,跑一次模子 要1天乃至 几天,话题只有1k;而在Angel上 ,20多亿文档、几百万个词,3000亿的token,1个小时就跑完了。

  

  从前 Spark能跑的,如今 Angel快几十倍;从前 Spark跑不了的 ,Angel也能轻松跑出来。

  再看一个case,视频的点击猜测 ,划一 数据量下 ,Angel的性能是Spark的44倍以上 。用了Angel以后,我们维度从千万 扩展到亿,练习 时间从天收缩 到半小时 ,而正确 度也有不小的提拔 。

  

  Angel不但 仅是一个只做并行盘算 的平台,它更是一个生态,我们围绕Angel ,创建 了一个小生态圈,它支持Spark之上的MLLib,支持上亿的维度的练习 ;我们也支持更复杂的图盘算 模子 ;同时支持Caffe、TensorFlow、Torch等深度学习框架 ,实现这些框架的多机多卡的应用场景。

  

  各位,邻近 尾声了,我想总结一下腾讯大数据平台发展的三个阶段:

  

  我们从离线盘算 起步,颠末 及时 盘算 阶段 ,进入了呆板 学习的期间 。

  我们从跟随开源,发展到自研,我们的发展历经了规模化 、及时 化 ,以及智能化的变迁。

  

  末了 ,我要借这个机遇 跟各人 公布一个消息,那就是:我们的大数据平台将全面开源。

  我们会在来岁 上半年把Angel以及Angel周边的体系 举行 开源 。

  我们平台源自开源 ,我们的发展离不开开源,以是 我们会以最大的力度拥抱开源。着实 在开源的蹊径 上,我们不停 都在参加 :我们第一代平台的核心 ,TDW-Hive,已经在2014年就开源了;我们还在很多 社区项目贡献了很多 核心 代码,作育 了好几个committer。

  而将来 ,我们的开源力度只会越来越大。

  谢谢各人 。

  新智元简介:人工智能范畴 排名第一的交际 平台,专注报道人工智能范畴 的前沿资讯、财产 分析和技能 干货。

  原创好文授权发布于魔窗公众号(magic-window),未经答应 ,推辞 转载。

  关于魔窗

  魔窗——移动互联网运营中心 !提供能影响用户决定 的移动营销体系 ,专业的内容推广和内容买卖 业务 平台,是良好 App和内容创业者的增长引擎!如今 已得到 数千万 人民币的A轮融资,并荣获品途网企业服务创新大奖(ESIC Awards)—2016年度最佳行业新生态服务商 。

  自上线以来 ,魔窗已颠末 数百家中大型App的验证与信托 。同时,由魔窗发起的中国App增长同盟 (AGA China),为上百家日活逾千万 、覆盖用户4亿+的App创业者提供更多资源破局和高效增长的毗连 通道。