欢迎来到杭州市云计算与大数据协会

热门推荐
联系方式
  • 2664758533
  • 0571-87758272
  • jd@hzcca.org zly@hzcca.org
  • hzyxmsc

您的位置:首页>>热门推荐

  • 视频会议新格局确立 云计算开启技术叠加时代

         随着计算机、通信、互联网以及云计算、大数据等技术的飞速发展,曾经“遥不可及”的视频会议正由专业领域、大型企业等高端用户向中小企业以及普通个人用户拓展。方便性、快捷性、易用性成为未来视频会议发展的大趋势。在新的技术浪潮下传统视频会议已被云视频会议所取代,并向着多元化方向发展未来将有更多新技术被叠加,视频会议将进入加速创新时代。
     

    1508309063597.jpg

     
      传统视频会议消亡倒计时 云视频技术能否建立新格局?
      根据思科可视化网络指数显示,视频在互联网总流量的占比从2008年的35%增长到目前的75%,预计在2020年,互联网视频流量将增长四倍。在众多视频行业中,视频会议在全球范围内呈现高增长态势。以我国为例,2008年—2011年是我国视频会议市场增速最为迅猛的时期,其平均增速超过20%。虽然在2012年之后增速有所放缓,但市场发展空间依旧十分广阔。预计在“十二五”期间我国视频会议行业将进入新的快车道,其规模将达到220亿元。
      除了市场规模的不断扩大,随着云视频技术的发展,全球视频会议中云视频应用占比逐年递增,2016年全球50%的企业有部署云视频的需求,越来越多的企业将云视频纳入战略规划。云视频会议通过云计算技术打破传统视频会议中的硬件(MCU,主机,摄像头,全向麦,遥控器等)壁垒,以SAAS(软件及服务)模式为主体的服务内容,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户无需再购置昂贵的硬件并安排专人安装维护相关设备。
      另一方面,以小鱼易连为代表的厂商采用了开放式的平台,在windows、 Android、ios任意一个平台都能实现即插即用,在大幅降低使用成本的同时有效的提高了沟通效率,而这也成为云视频会议迎来蓬勃发展的重要因素。
      现阶段视频会议的主要用户群集中在高端企业用户、基层政府机关、金融等行业,在中国7000万家市场主体中,拥有视频会议室的企业占比还不到3%,低成本、高效沟通的特点增强了中小企业对云视频会议的需求,成为拉动视频会议市场增长的新热点,使整个行业进入蓝海。
      今年年初,会畅通讯成功登陆深圳证券交易所创业板,开启国内云视频会议领域企业上市的先河。三月,由真格基金与真成基金领投,创新工场、光速中国、成为资本跟投,小鱼易连完成了1.25亿元人民币B轮融资,广阔的市场空间吸引了市场内优质资本的关注,在资本与技术的双重推动下云视频会议将建立新的市场格局。
      场景化突破优势渐显 “中国创造”将大有可为
      云视频会议基于云计算技术,其应用效果高效、便捷、低成本,使用者只需要通过互联网界面,进行简单易用的操作,便可实现高效的全球范围内语音、数据文件及视频传输。这激发了视频会议应用的高潮,从政府、军队、交通、运输、金融到运营商、教育、企业等各个领域,其应用场景正在不断渗透到日常生活与工作中。
      现阶段云视频会议除云计算技术外在音频算法、抗噪能力等方面都有所突破。新型MCU架构,比传统技术效率提升20倍,并具有超强抗丢包能力,音频传输稳定性大幅提升。噪音抑制、回音消除、混响消除技术稳步提高,识音距离由此前的3-5米提升至8米,同时识别率大幅提高。
      另一方面,移动性的特点稳步提升了云视频会议的场景应用效果,“云+移动”服务开放化平台设备屏幕支持端到端的视频加密会议,增强会议控制能力和高安全性、高稳定性。实现了互联网架构和云订阅的服务,可用性高达95%以上。
      基于以上技术推动,云视频应用场景实现了普及化。近期,上海市搭建了首个基层检察院、法院间多媒体信息交互平台,该平台正是基于云视频通讯的办案协作多媒体信息交互平台,打破了地域限制,信息网络不联通,沟通不便的尴尬局面,大幅提高了办案效率。而这一切实现的基础正是云视频低成本,易用性和移动性的特性,“零距离”工作交流,高效沟通进一步奠定了新的视频传输办公场景。
      当然这只是云视频场景化应用发展的一个缩影,也是行业发展的外部动力。而在行业内部尤其是我国的行业环境内,传统视频会议行业早已“横尸遍野”,这预示着要在如此激烈的竞争环境中脱颖而出,我们迫切的需要“中国创造”获得压倒性优势。而云视频通讯领域的核心技术长期是被国外巨头把持,但众多研发团队的中坚力量都是中国人。究其原因国内视频会议行业还处于发展阶段,行业内没有形成Polycom和思科这样全球一体化协作通讯大型供应商,品牌号召力和研发实力还很难与国外企业抗衡。
      但随着国内4G、5G网络的迅速发展,三网融合进程的不断加深,音视频通讯领域将迎来前所未有的技术与政策利好,加之优秀资本的不断介入,企业走向资本市场,百亿级新星企业将很快诞生。因此越来越多的高端研发人员愿意加入到自主创业大潮中,在视频通讯领域将形成新的中国力量,一些企业在音视频算法、SaaS服务方面已追赶上国际先进厂商,甚至在核心技术上实现了超越。
      视频会议进入“云+”时代 新技术叠加带来新的生机
      云端技术作为目前视频会议发展的基础核心技术,在音视频算法、运营级的SaaS服务以及智能硬件创新方面,未来将形成“云端+终端+服务+业务”的新型服务生态链。“云+”为行业带来无限的想象空间,在此基础上增加了新技术叠加的可能性,快速创新将成为行业永恒不变的话题。
     

    QQ截图20171018112936.jpg

     
      最具前景的几大叠加领域:
      1、3D影像技术
      视频会议技术的不断升级,4G、5G网络普及以及三网融合时代的来临,为3D影像传输发展打下了良好的技术基础。3D影像技术的应用将改变现阶段视频会议2D影像场景单一和应用局限。多变的立体影像将激发用户新的使用热情,这一技术短时间内可以完成普及与应用,用户无需投入其他的硬件成本,但对传输网络的速度与稳定性有较高要求。
      2、VR技术
      VR(虚拟现实)在经历了几年喧嚣后市场归于平静,但社交虚拟现实被视为VR技术未来应用的主流,国外已涌现出Altspace VR、VTime等多家尝试在虚拟现实环境中融合视频会议和社交网络的创业公司,甚至全球社交巨头Facebook也已涉足该领域。
      在2016年的MWC大会上Facebook CEO马克?扎克伯格表示,虚拟现实是继文本、图片和视频之后的下一种通信平台,“虚拟现实是新一代通信平台,人们能体验和分享任意内容”,这将是VR技术与视频会议技术的完美结合。
      但作为未来发展趋势的VR技术在视频会议技术中的应用将受到硬件设施的局限,360度格式视频采集处理,以及VR影像呈现都需要借助功能强大的外部设备。如果外部设备性能不佳将会影响到整体用户体验,这也是此前大批社交软件涉足VR直播后又很快销声匿迹的主因。
      3、MR技术
      现阶段视频会议中有两大痛点
      第一,在集体视频中无法辨别出听众是否专心。这主要因每个人看别人在屏幕中的位置都不同,人在屏幕前如果你直视某人的眼睛进行眼神交流,但别人却觉得你在看向别处。
      第二,由于参与会议的人员所处的环境不同,每个人的背景都是不一样。有人觉得这并不会造成太大的影响,但你的大脑不觉得你和其他人处在同一空间,所以你的行为也会有所改变,在空间上产生距离感。
      视频会议新格局确立 云计算开启技术叠加时代
      针对以上痛点,新兴的MR技术(混合现实)能够很好的解决这些问题,MR技术是将数字化现实加上虚拟数字画面,通过一个摄像头让你看到裸眼看不到的现实,甚至可以实现显示逼真的全息图诱使你的大脑将光看作物质。
      微软的Project HoloLens的全息头盔作为相对成熟的MR设备,不仅能够提供全息图像,还能够追踪用户的声音、动作和周围环境。它将可以应用于火星探索、建筑设计、外科手术等领域,当然,这一切也是以云端视频传输技术为基础。
      现在这一技术听起来像一个宣传噱头,但未来它将是云视频通讯的发展趋势,将在众多重要领域发挥作用。例如医学专家可以利用患者患处的全息立体影像,实现多地专家会诊讨论治疗方案,甚至实现术中的实时指导大大提高专家的就诊与工作效率。
      云视频会议取代传统视频会议,不仅仅是在应用技术上的突破,同时也标志着视频通讯技术进入了新技术快速叠加时代。以云计算技术为基石,使大数据、VR、全息影像等越来越多的新技术的应用成为可能,下一步云视频会议将为用户带来更加逼真的效果体验与更加丰富的场景应用,高效、创新将成为行业未来发展主基调。

    ——科技棱镜社

    查看详情
  • 云计算的下一个10年:不靠忽悠靠实力

     

    1508308952115.jpg


    飞象网讯(初夏/文)7月5日消息,从2006年-2016年,全球云计算从“忽悠”到成功落地,目前全球云计算增长迅速但规模仍小,中国的云计算生态却正在形成中,并已具备国际竞争力。2017年开始,云计算迎来了下一个10年,这10年将是靠实力说话的历程,云计算将从“颠覆”到成为传统产业。
      云计算产业风口正盛 全球增长迅速
      在云计算发展的上一个10年,全球云计算市场总体平稳增长。根据CAICT《云计算白皮书(2016)》数据,2015 年以 IaaS、PaaS 和 SaaS 为代表的典型云服务市场规模达到 522.4 亿美元,增速 20.6%,预计 2020年将达到 1435.3 亿美元,年复合增长率达 22%。
      作为云计算的“先行者”,北美地区仍占据市场主导地位,2015 年美国云计算市场占据全球 56.5%的市场份额,增速达 19.4%。从服务商来看,亚马逊 AWS2015 年收入近 79 亿美元,增速超过 50%,服务规模超过全球 IaaS 领域第二到第十五名厂商总和的十倍,数据中心布局美国、欧洲、巴西、新加坡、日本和澳大利亚等地。欧洲作为云计算市场的重要组成部分,以英国、德国、法国等为代表的西欧国家占据了 21%的市场份额。
      以中国、印度为代表的云计算新兴国家高速增长。2015 年亚洲云计算市场全球占比 12%,保持快速增长,其中印度增速达 35%,中国市场全球占比已由 2012 年的 3.7%上升到 5%。
      中国云已具备国际竞争力 纷纷布局海外
      经过近10年的发展,云计算已从概念导入进入广泛普及、应用繁荣的新阶段。2017年4月,工信部发布了《云计算发展三年行动计划(2017—2019 年)》。根据规划,到2019 年,我国云计算产业规模将达到4300 亿元,突破一批核心关键技术,云计算服务能力达到国际先进水平,对新一代信息产业发展的带动效应显著增强。
      在政策牵引下,中国的云计算产业规模迅速扩大。据统计,2015 年,我国云计算产业规模约1500 亿元,同比增长超过30%。2016 年,云计算骨干企业收入均实现翻番。
      另一方面,乘着国家“一带一路”的东风,中国的云企业也纷纷向海外进军,不少云计算企业都在云计算领域动作频频,加快海外服务节点布局,为互联网、外贸、金融等企业出海提供全球化的云服务支持。
      近半年来,腾讯云目前已开放全球服务节点达29个,成为全球云计算基础设施最广泛的中国互联网云服务商。
      2017年6月,作为唯一一家源自亚洲的全球性云服务提供商,阿里云宣布将在印度孟买和印尼雅加达新建两座数据中心,并预计在截至2018年3月31日的财年内投入运营。
      根据国际知名调研机构Gartner近日公布的2017年全球云计算IaaS魔力象限,中国的阿里云已经跻身全球前四名,排在阿里云前面的是AWS、微软和Google。
      可以说,以阿里云为代表的中国云企业首次进入Gartner魔力象限并获得外媒纷纷认可,对于后来者扩展海外市场无疑是利好强音。
      云计算迎来靠实力说话的下一个10年
      在近日的一场公开大会上,中国信息通信研究院标准所副所长何宝宏提到,全球云计算发展已经上一个10年(2006-2016)从“忽悠”到开始成功落地,下一个10年(2017-2027)即将开启,云计算将从“颠覆”到成为传统产业。
    伴随近几年,中国经济实力的增强,中国企业都在纷纷寻求出海机遇,加快全球化扩张步伐。这一批先行巨头将发挥中国云力量,让全世界人都看到了中国云计算不可小觑的实力。毕竟,下一个10年,云计算是需要拼实力的10年。

    ——飞象网

    查看详情
  • 互联网+房产 绿城借天翼云踏上数字化转型之路

    2015年7月4日,国务院印发《国务院关于积极推进“互联网+”行动的指导意见》。被上升到国家战略的“互联网+”,一时间成为网络热词,受到全行业IT建设者的关注。传统行业无疑是向互联网转型的关键领域,他们行业属性强,IT业务需求强烈。
    绿城中国是国内名列前茅的房地产开发商,典型的混合所有制企业,香港上市公司,项目遍及全国23个省市,100余座城市。多年来,绿城以优质的产品品质和服务品质引领行业,已连续13年荣膺“中国房地产百强企业综合实力TOP10”。针对当下的市场大环境,绿城确立了“服务平台化、地产金融化、开发专业化”的发展战略。今年3月成立的绿城生活集团,作为承接“服务平台化”战略的主体,通过信息技术手段推动业务创新,引领绿城数字化变革。
     

    1508308796155.jpg


    行业的困惑
    房产营销是房地产公司重要的工作内容,在房地产日常经营活中起着举足轻重的作用。随着房地产投资增速回落、限购限贷政策密集出台、土地出让价格持续走高等现象的出现,中国已经逐步从房地产发展的黄金时代过渡到白银时代。
     
    在此背景下,如何加快资金周转、快速换仓成为地产企业当前亟需解决的问题。如何更好地了解客户的真实需求,针对客户需求做及时推荐,帮助客户选择一套心仪的房产,是当下房地产企业都面临的业务挑战。
    但现实情况是,经营决策者缺乏经营全景视图支撑、系统数据管理不规范、营销成本过高且精准营销难度大、营销数据的信息收集与数据价值挖掘能力有待加强。绿城希望通过IT手段实现业务创新,破解这些行业难题。
     
    绿城的创新
    一直以来,如何通过技术手段进行精准拓客,增加客户基数的同时促进存量客户转成交是房产营销的大课题。结合业务痛点,深耕房产行业多年的绿城集团迈出了IT创新的第一步。
    绿城客户全生命周期服务平台是绿城集团规划的支撑营销、服务的创新IT架构,其中包括精准营销、直销官网、绿粉汇、智慧案场、接待、掌上销售、电子开盘、销售管理、客户关系管理9大业务系统。绿城希望通过该平台,具备智慧案场、精准营销、掌上销售等行业创新服务能力,逐步解决经营决策支撑、营销成本控制、精细化管理、数据挖掘等业务痛点。
    基于绿城客户全生命周期服务平台的规划,绿城开始对未来创新业务场景与现有IT资源能力进行对比审视发现,旧有的传统数据中心运维成本高、扩容周期长,不能很好的满足现有的业务创新需求,于是绿城决定引入公有云服务来提供技术支撑。通过招投标,由中国电信携手华为正式发布的天翼云3.0服务进入绿城视野。基于“云网融合、安全可信、专享定制”等方面的差异化优质特性,天翼云3.0最终成为绿城客户全生命周期服务平台的技术服务伙伴。
     
    天翼云的智能服务
    2016年6月30日,中国电信携手华为正式发布全新的天翼云3.0版本。此次天翼云3.0的产品与服务,在云网融合、安全保障和全面定制化服务等方面都做到了全面提升,中国电信与华为联手欲将天翼云3.0打造成国内更加贴近客户需求的智能云服务。
    为了更好地解决绿城的业务痛点,针对绿城提出的客户全生命周期服务平台的规划,天翼云团队通过“云+房产”解决方案,为绿城提供了基础设施、数据、平台等层面支撑,来帮助绿城解决现有的房产营销困境,进而实现业务创新:
    首先,在基础设施层面,帮助绿城实现业务系统迁移上公有云。通过弹性伸缩等特性,帮助绿城实现资源灵活扩展、业务快速发放。
    其次,在数据层面,构建集团统一的大数据平台,打通各业务系统的数据,形成线上和线下,售前、售中、售后业务闭环。利用大数据服务,将绿城集团原有分裂的数据统一管理,并进行深度挖掘和利用。
    第三,在平台层面,基于PaaS平台构建新业务系统,实现微服务能力,支持创新业务的快速开发、部署和弹性扩容,满足绿城在电子开盘等营销活动中高并发业务的承载需求。
    第四,在应用层面,绿城不仅作为业务方,也作为解决方案提供商,针对房地产行业场景,构建智慧案场、精准营销、客户全触点、CRM、大屏营销战图等创新应用,提升业务拓展能力。
     
    “互联网+房产”成效初显
    通过天翼云整体解决方案的支撑助力,绿城集团逐步实现了业务创新,并在短期内产生了实实在在的价值。其中通过大数据管理平台,各个业务系统的数据沉淀在大数据管理平台,通过大数据处理能力,挖掘数据关联及价值,更好地支撑了公司的经营决策;以杭州杨柳郡案例为例,据统计,通过精准营销系统,绿城的人均获客成本降低43%;通过直销官网,客户可以不到售楼处,就可以获得开盘信息、销售信息、打折信息等一手权威的营销动态,并确保楼盘信息的真实性和品牌价值;通过绿粉汇系统,使全民营销过程更加透明化,真正实现了“全民经纪人”的业务理想;通过掌上销售,极大减轻了内部经纪人的手工输入工作量,有效提升了工作效率,客户跟踪更加透明化;对于销售管理人员来说,盘客功能也使他们对每日的营销动态一目了然……
    借力天翼云“云+房产”解决方案,绿城集团在构建自身决策管理、精准营销、成本节约、业务拓展等方面创新能力的过程中,达成了向“互联网+”转型的初步目标,同时也为应对未来挑战赢得市场先机。

    ——中关村在线


    查看详情
  • 柯文达:世纪互联与Azure的可信云之路

          随着数字经济浪潮的高速推进,云计算在企业数字化转型道路上扮演的角色愈发重要。对于中国企业来说,一方面可以通过上云搭上经济发展的快车,另一方面对云服务商的选择和产品技术的应用也有其自身特性。如何在确保外资云厂商服务完整性的同时,发挥出更适应中国本土市场的优势,并且满足相关法律法规,世纪互联有着独到的见解。
          由于安全隐私等方面的因素,海外云服务商在中国通常会选择与本土企业合作落地,例如SAP与中国电信、AWS与光环新网、甲骨文与腾讯云等等。而微软与世纪互联的合作还要追溯到2012年。三年前,由世纪互联运营的Microsoft Azure和Office 365正式在华商用。2016年11月30日,由世纪互联运营的PowerBI发布,同年9月由世纪互联运营的MicrosoftAzure推出认知服务、镜像市场等功能。前不久,由世纪互联运营、微软与腾讯合作的Office Online也已上线。
          世纪互联蓝云总裁柯文达表示:“由世纪互联运营的云服务正在从企业型向消费型转移,我们和微软之间的合作关系就是很好的证明,合作不断深入才会不断推出新的产品。”事实上,世纪互联还与清华紫光成立了合资公司,针对政府企业和一些公有企业,提供定制化的云服务。
     

    1508308615438.jpg

    世纪互联蓝云总裁柯文达

         通过与微软的合作,世纪互联不仅在技术和服务流程方面有了长足积累(包括出版Office 365使用手册、撰写13800余篇技术文章、微信服务支持等),而且在客户体验方面下了大功夫。过去三年,世纪互联部署8万多次Azure服务,很多新功能几乎是实时推送上线,电话处理客户问询超过15万个,这样的投入,助力Azure拥有了超过8万家来自不同行业的企业客户,以及Office 365在华业务累计实现三位数的年度平均增长。基于此,世纪互联实现了95%以上的用户满意度(中国云计算用户满意度平均水平是70%)。
     

    1508308648652.jpg

    世纪互联的运维团队

        “我们对政府或者是对云规范法律的了解,有两个重要基础,第一是数据必须由中国拥有,第二是数据不离境。也就是说,任何时候当非中国公司的人员接触数据中心的过程中,在没有规范或者没有监督的状况下,基本上是非法的。”柯文达说。为了顺利上线微软的服务,世纪互联在系统和制度合规方面花费一年半的时间,将Azure和Office从架构层面分离再造,满足安全隐私规范,最终走进了企业和政府机关单位。

           作为中立的数据中心提供商,世纪互联要做的是利用完整的运维体系,帮助云产品在中国落地。具体到世纪互联蓝云,柯文达给出的定位是Microsoft Azure的后备军,“产品方面来看还是微软来主打,我们是辅攻,把后勤服务做好。我不认为世纪互联或者蓝云会把阿里和腾讯当做对手,只是说我们的服务线在哪,对手就在哪,比较实际一点。”

           目前,由世纪互联运营的微软产品主要包括Microsoft Azure、Office 365、Power BI、Office Online,未来应该还会有像Azure Stack、CRM Online这样的新服务逐步落地中国。此前,微软将认知服务的智能API接口增加到29个,并且开放给用户自行定制,具体到中国市场已经有三种落地,后续还会有更多的API逐渐应用。
     

    1508308680780.jpg

    微软Azure落地中国的服务


          调研机构IDC预计,2017年全球数字化转型(DX)技术支出将超过1.2万亿美元,相比2016年增长17.8%。企业的信息化能力将从根本上改善客户体验和运营效率,优化员工团队。微软凭借多年在企业级市场的深耕和技术积累,以及开放、定制化、合规的云计算服务,将实现未来12个月内Microsoft Azure在中国市场规模翻一倍的目标,以“云、大、物、智”为切入点,与本土客户共同打造云生态,迎接数字化转型的机遇。
          说起双方的合作,柯文达举了一个形象的例子:“我常常把微软和世纪互联的关系用家人来比喻,在不同阶段、不同场合、不同事情上非常紧密,取得了一些成就。不过真正合作的过程中,也会很辛苦,甚至会起冲突,但就是这样才能彼此更进一步了解,相互信任。感情没有一帆风顺的,只有经过挫折才会更加牢固”

    ——中关村在线


    查看详情
  • 为大数据带来交互式的BI

        基于Hadoop的SQL一直在被持续地改进,但是一个查询要等几分钟到几小时还是非常得正常。在这篇博文里,我们将会介绍开源的分布式分析引擎Apache Kylin。重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方。
      Apache Kylin是什么?
      Kylin是一个在Hadoop上的OLAP引擎。如图1所示,Kylin位于Hadoop之上,向上层的应用提供了基于标准SQL接口的关系型数据。
     

    1508308170283.jpg

    图1 Apache Kylin的位置。图片由Yang Li友情提供


      Kylin可以处理大数据集,从查询延迟上讲是很快的,这也是它和其他基于Hadoop的SQL的区别。比如,我们所知道的使用Kylin的最大的生产系统实例是在今日头条,一个中国的新闻推送应用。头条有一个包含3万亿条记录的表,对它的平均查询响应时间低于1秒。下一节我们会讨论Kylin是怎么实现这么快的查询。
      Kylin引擎的另一个特点是它可以支持复杂的数据模型。 例如,太平洋保险(CPIC,中国的一个保险集团公司)有一个多达60维的模型。 Kylin提供标准的JDBC / ODBC / RestAPI接口,可实现与任何SQL应用程序的连接。
      Kyligence还开发了一个在线演示,展示了使用10亿条航班记录的BI体验。你可以查看这里来了解。比如,在旧金山国际机场过去20年里延误最久的航班是哪个。(使用用户名“analyst”和密码“analyst”登录,选择“airline_cube”,拖放维度和事实数据来查询这个数据集)
      一个零售业场景:展示Kylin的速度
      Kylin比传统的基于Hadoop的SQL要快,是因为它采用了预计算来在SQL执行前先行一步。例如,设想一个零售业务场景,你需要处理非常多的订单,每个订单包含多个商品。如果想知道订单取消和退货造成的影响,一个分析人员可能需要写一个查询来在某个时间段内按照“returnflas(退货标记)”和“orderstatus(订单状态)”来汇总收入进行汇报,如图2 所示。图里面显示了这个查询被编译成的关系表达式,也叫执行计划。
     

    1508308206628.jpg

    图2 一个典型的OLAP查询的时间复杂度。图片由Yang Li友情提供
      

    从这个执行计划可以很容易地看出,这个执行的时间复杂度至少是O(N),这里N是表里的总行数,因为每行都要至少被访问一次。同时我们假定要关联的表都已经很好地被分区和索引过了,因此花费比较大的关联操作也可以在线性的时间复杂度上完成,但在实际场景里这种情况是不大可能的。
      这个O(N)的时间复杂度并不好,因为这意味着如果数据量增长十倍,则查询时间也会慢10倍。现在一个查询需要花1秒钟,那么以后随着数据的增长,这个时间会变成10秒甚至是100秒。我们想要的是无论数据量大小,这个查询时间都是固定不变的。
      Kylin的解决方法是预计算。整体思路是,如果我们提前知道查询的模式,我们就能预先计算出整个执行的一部分。在上面这个例子里,就是预先计算Aggregate、Join和表扫描操作。生成的结果是一个立方体理论里的数据立方(或者可以把它叫做“实例化的总结表”,如果这样听起来觉得更好的话)。
      如图3所示,最初的执行计划就被转换成了基于数据立方之上。这个数据立方体包含了按照“returnflag(退货标记)”、“orderstatus(订单状态)”和“date(日期)”进行汇总的记录。因为退货标记和订单状态是一个固定的数量,而日期范围被限定在3年(大概1000天)。这就意味着这个数据立方体里的行数最多就是“标记数×状态数×天数”,对O定义的时间复杂度来说就是一个常量。这个新的执行计划将会保证不管源数据有多大都有一个固定的执行时间。这就我们想要的效果!
     

    1508308253305.jpg

    图3. 通过预计算实现从O(N) 到O(1)。图片由Yang Li友情提供


      Kylin的架构一览
      如我们所见,Kylin是一个依赖于预计算的系统。其核心是基于经典的立方体理论,并发展成一个大数据上的SQL解决方案(见图4)。它使用模型和立方体概念来定义预计算的空间。构建引擎从数据源载入数据,并在使用MapReduce或Spark的分布式系统上进行预计算。被计算出来的立方体被存储在HBase里。当一个查询来到时,Kylin把它编译成一个关系表达式,找到匹配的模型,并基于预计算好的数据立方体而不是原始数据执行这个表达式。
      
     

    1508308298996.jpg

    图4 Apache Kylin的架构。图片由Yang Li友情提供


      这里的关键就是建模。如果你对数据以及分析的需求有非常好的理解,你是可以用正确的模型和立方体定义来找到正确的预计算。接着,绝大多数(如果不是全部)的查询都可以被转化成对此立方体的查询。 
      (延展阅读:一个展示Kylin在不同数据量级别上拥有一致的表现的星形模型基准测试。)
      Kylin 2.0的特性
      对雪花模型的支持和TPC-H基准测试
      Kylin 2.0引入了对元数据建模的增强,并且可以支持开箱即用的雪花模型。为了演示建模和SQL能力上的改进,我们进行了用Kylin 2.0运行TPC-H查询的基准测试。
      需要注意的是,这里的目标并不是想与其他人的TPC-H结果进行比较。一方面,根据TPC-H规范,不允许在表之间进行预先计算,因此在这个意义上,Kylin不能算是有效的TPC-H系统。另一方面,我们还没有对这些查询进行性能调优。改善的空间还是很大的。
      根据相同的零售场景,让我们快速查看一些有趣的TPC-H查询。图6是TPC-H查询07。SQL里面的字太小,可能看不清楚,但它给出了查询的复杂性的粗略感觉。该图是执行计划,强调了预计算(白色)与在线计算(蓝色)的部分。很容易看出,大部分关系运算符是预先计算的。剩下的Sort / Proj / Filter在很少的记录上工作,因此查询可以超快。在相同的硬件和相同的数据集上,Kylin用了0.17秒完成,而Hive + Tez对此查询运行了35.23秒。这显示了预计算所带来的差异。
     

    1508308344341.jpg

    图6 TPC-H的查询07。图片由Yang Li友情提供


      图7所示的TPC-H查询11是另一个例子。这个查询有四个子查询,比前一个更复杂。 其执行计划包括两个分支,每个分支从预先计算的立方体载入数据。 分支结果再连接起来,这是一个复杂的在线计算。随着在线计算部分的增加,预计算的部分减少,Kylin的运行时间更长:3.42秒。 然而,完全在线计算的Hive + Tez仍然要慢一点,运行时间为15.87秒。
      
     

    1508308383052.jpg

    图7 TPC-H的查询11。图片由Yang Li友情提供


      (有关Kylin和TPC-H的更多详细信息,请参阅此链接。此链接包含可以在你自己的环境中重复基准测试的步骤,以及我们在两个不同Hadoop集群中测试的所有TPC-H查询的性能结果。)
      为近实时分析准备的流式立方体
      预先计算给ETL流程增加了额外的时间,这在实时场景中会成为一个问题。为了解决这个问题,Kylin现在支持增量加载新添加的数据,而不会影响历史数据。 已有RestAPI可用于自动触发增量构建。每日构建一次是最常见的,现在更频繁的数据加载也是可行的。
      从1.6版开始,Kylin可以直接从Kafka获取数据,并进行近乎实时的数据分析。使用基于内存的立方体算法,微型增量构建可以在几分钟内完成。生成的结果是许多小的立方体分片,可以给查询提供实时的结果。
      为了展示这个特性是如何运作的,我们构建了一个演示网站来实时分析Twitter消息。它运行在一个八个节点的AWS集群上,有三个Kafka broker。输入是一个Twitter样本源,每秒有超过10K条消息。立方体的平均复杂度是:九个维度和三个测量数据。增量构建是每两分钟触发一次,并在三分钟内完成。总体而言,系统在实时性上有五分钟的延迟。
      
     

    1508308419429.jpg

    图8 近实时的Twitter分析。图片由Yang Li友情提供


      该演示按照语言和设备维度显示了Twitter消息的趋势。在图8中可以看到,美国白天的英文消息量上升,而亚洲语言的消息量在夜间下降。演示里还有一个标签云,用以显示最新的热门话题。在标签云下面是最热门标签的趋势。所有图表都是实时到最近五分钟。
      总结
      Apache Kylin是Hadoop上一个流行的OLAP引擎。通过使用预计算技术,它可以使SQL对大数据的查询速度有数量级的加快,并使交互式BI和其他在线应用程序能够直接在大数据上运行。
      Kylin 2.0是最新版本,可以在这里下载。新版本的特性包括:Hadoop上的小于秒级的SQL延迟;雪花模型的支持和成熟的SQL功能;流式立方体用于近实时分析;内置时间/窗口/百分位数功能;和可以将构建时间缩短一半的Spark构建立方体。

    ——36Kr


    查看详情

浙ICP备11056009号-1

版权所有:杭州市云计算与大数据协会 电话:0571-87758272 传真:0571-87758273 技术支持:浙江鸿程计算机系统有限公司