当前位置:星玄未来ag8.com网站|首页平台主页 > 星玄未来ag8.com网站|首页平台国内 > 星玄未来ag8.com网站|首页平台内容

lol遇上ag8.com网站|首页知乎

开篇:写给致力于大数据技术发展的志同道合者

写在开头,我们是谁?

我们是星环科技的大数据研发部门,是国内专注于大数据平台技术研发的团队,大数据领域平均工作经验超过3年,一支有技术理想的团队。

为什么我们要创建大数据开放实验室的公众号?

1. 复杂的大数据技术栈

提到大数据,很多人可能都听说过4V - Big Volume, Big Velocity, Big Variety, Big Value,大数据从业人员的工作内容也都和这4个V中的某些内容密切相关。

相比较传统的数据库技术,大数据的技术栈在过去几年取得非常迅速的发展,尤其是Hadoop和Spark已经构建了一个庞大的技术生态圈。

文件系统方面,除了传统的行式存储,还有新的列式存储格式如ORC,Parquet,以及一些新型的用SSD或者内存加速的存储,如Transwarp Holodesk以及Tachyon。此外,还有Ceph等新型文件系统。

在文件系统之上,各种存储引擎也迅速发展,如NoSQL类的HBase,MongoDB,CouchDB,它们在一些大数据场景下表现的非常出色(如高并发,文档存储等),而放弃另外一些特性,如事务和SQL支持;不过近年也涌现出一些新的NoSQL存储引擎,重新拾起来SQL和事务,如VoltDB,CockroachDB,以及Transwarp Hyperbase。

计算引擎的发展更是日新月异,可以按照批处理/交互式/流式/迭代式做个大体的分类。批处理引擎在大数据领域发展的最快,MapReduce,Spark,Tez等已在大规模商用;交互式分析引擎的代表有Dremel,Presto,Impala等,目前还处于未能完全证明商用能力,但是在快速发展并且验证的阶段;流式引擎这两年发展很快,Spark Streaming/Flink/Storm/Samza是其中的代表;迭代式引擎有Graphx,Pregel,以及Transwarp Graphene等。

数据分析领域,各种工具更是层出纷纭,如Hive,Mahout,MLlib,R,Kylin等,除了开源技术,我们研发的Transwarp Inceptor是国内经过商业检验的比较优秀的大数据分析工具。

数据集成和调度工具也有很多的开源项目涌现出来,如Oozie,Azkaban,Crunch,Sqoop,Flume,Kafka等等。

因为这么复杂的技术栈,以及各种层出不穷的新技术,开发者会面临着极大的学习成本,以及很困难的选型考量。如何选择更合适的技术方案,如何做基于大数据的新的应用的开发,如何去管理和运维大数据产品,这是新技术时代的主要问题。因此,我们希望通过大数据开放实验室,将我们掌握的一些技术/原理等传播给读者,分享我们的经验和教训,共同促进大家对大数据技术的掌握和理解。

2. 曲折反复的发展趋势

2. qu zhe fan fu de fa zhan qu shi

为了处理大数据的4个V,大数据的技术栈变得非常繁杂,同时各个技术的发展趋势在过去几年也有一些有意思的变化。如MPP并行计算和分布式批处理计算的方向上分分合合,低延时计算架构的演变,以及NoSQL数据库的演进路线。

传统的并行数据库(如MPP架构)和基于MapReduce/Spark的分布式批处理的计算模式,在2010年左右曾经发生过比较激烈的技术方向辩论(http://database.cs.brown.edu/papers/stonebraker-cacm2010.pdf, http://www.cs.princeton.edu/courses/archive/spr11/cos448/web/docs/week10_reading2.pdf ),而后几年,Cloudera的分析引擎Impala又将Share Nothing 的MPP(Massive Parallel Processing)处理风格引入,分歧的双方似乎又回到了起点。不过随着Spark等类似的内存计算引擎的兴起以及完善,

MPP的技术又被抛弃,并且涌现出来性能和可扩展性更好的数据分析引擎,如Transwarp Inceptor,Presto以及SparkSQL,分布式批处理又再次和MPP技术方向分道扬镳。

为了解决Big Velocity,满足IoT等场景的需求,实时和低延时处理的计算架构在快速的发展过程中,如何处理批处理和交互式分析之间的平衡,也不断推进这计算架构的演进。最经典的莫过于Lambda架构,同时也是使用比较广泛的架构;此外Twitter的SummingBird支持以批处理或者流处理模式,或者混合模式以统一的方式来执行代码,也是个比较新颖的架构。

NoSQL数据库发展也非常有意思,早期因为传统数据库处理速度慢,事务过于复杂,SQL编译过重等原因,不能满足很多场景的需求,各种NoSQL数据库快速发展起来,如HBase,Cassandra,MongoDB等,API编程开始流行。然而随着时间推移,各个NoSQL数据库发现了API编程的缺陷以及功能缺失导致的适用场景首先,又开始走回SQL之路,如Cassandra和MongoDB;此外,不支持事务的架构又不能保证2~3年后是否会因为不满足业务需求而过时,也是NoSQL数据库的一个隐忧。因此,图灵奖得主大神Michael Stonebraker预测NoSQL数据库最终将和SQL数据库融合:SQL数据库们通过增加对非结构化数据的处理,如JSON的支持来提升业务场景的可适应性;而NoSQL数据库则开始加入SQL的支持和分布式事务(参见Michael Stonebraker的演讲 “What Does ‘Big Data’ Mean and Who Will Win?”)。在这点上,Transwarp Hyperbase早已经开始了这个技术融合,基本完成了SQL支持/分布式事务以及非结构化数据处理能力的打造。

技术的发展趋势往往不是那么一往无前,而是一直不停的迭代,然后论证,然后互相影响,并可能出现一些方向上的变化。大数据技术也同样如此,对于从业人员来说,在设计一个新系统的时候往往需要考虑到今后一定时间的发展趋势,并接合着业务来推进系统的演进。这也是我们创建开发实验室的第二个原因:与广大从业人员一起对大数据发展的历史故事进行梳理,分析对未来技术的趋势的看法,然后在细分领域寻求突破,以更好的适应这个大数据时代。

3. 星环大数据技术的布道者

星环专注于大数据技术超过3年,目前Transwarp Data Hub包含4个组件来分别解决大数据的4-V技术问题。Inceptor解决了Big Volume上的ETL和Analytics的问题,Stream针对Big Velocity提供了基于SQL的解决方案,Hyperbase融合了对结构化数据和非结构化数据的处理能力,从而可以满足Big Variety的需要,Discover帮助用户来挖掘出big data里面的Big Value。

TDH走的是非开源路线,因此在技术传播上没有开源项目对大众影响深远。我们认为技术的共享不应该有边界,因此希望通过这个公众平台,将我们研发的有意思的功能,模型,方案等新技术,通过比较合理的方式与外界共享,并通过这个平台构建一个积极反馈的闭环。

我们的愿景

以技术之名,做一个有价值的大数据技术深度分享的平台;

以原创为主,做一个有深度的创新思维的技术社区;

欢迎有技术理想的朋友们加入我们。

当前文章:http://www.niaoeng.com/dnzso7a/57581-59008-39398.html

发布时间:05:43:16


{相关文章}

微信”影响力报告:用数据读懂微信五大业务

点击上方蓝色字体关注。


您还可以搜索公众号“D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO,企业协作,网络数通,信息安全,企业移动应用,系统集成,服务器,存储,呼叫中心,视频会议,视频监控等)的子公众号。


=======


去年年初,企鹅智酷发布了首份《微信数据化报告》。报告上线后,它的英文版本就获得了超过10万阅读量。中文版的转发转载和引用,几乎无法统计。


这次我们带来最新的2016版《微信数据化报告》,涵盖 社交、支付、媒体、生活服务、企业服务五项微信业务的数据和趋势解读。


报告采样的全国范围用户,分别来自企鹅智酷的网络调研,和中国信息通信研究院产业与规划研究所的电话调研(在数据中分别标注)。


样本分别覆盖全国40443名网民和全国1101名电话用户,以及1017位微信公众号运营者和806位微信企业号运营者。


报告核心数据如下:


微信用户中男性用户居多,企业职员占比超过四成

超过九成微信用户每天都会使用微信,半数用户每天使用微信超过1小时


拥有200位以上好友的微信用户占比最高,61.4%用户每次打开微信必刷“朋友圈”


35.8%的微信读书用户,提升了自己的阅读量;超过1/4微信运动用户,提升了


自己的运动量


微信红包是微信支付中渗透率最高的功能,近七成用户每月支付/转账额度超过100元


微信支付走向线下的优势是简便和优惠,超过半数用户将微信支付视作线下付款的重要工具


社交网络成为第二大新闻渠道,渗透率超电脑+电视


促成用户微信分享新闻三要素:价值,趣味,感动


超过六成微信用户使用过微信生活服务,手机充值、买电影票、吃喝玩乐消费


渗透率最高


泛媒体类公众号比例最高,超过1/4;服务行ag8.com网站|首页在翻译_星玄未来ag8.com网站|首页平台业公众号占比约1/5


微信企业号运营者调研显示,传统制造业占比最高


运营者对公众号的投资,数量和金额均明显增长


(注:报告所发布数据和结论,均为企鹅智酷与中国信息通信研究院产业与规划研究所,作为第三方研究平台的独立数据和判断,不代表微信官方立场。


以下是报告核心内容:


一、微信用户长什么样?


二、微信+社交=?


微信+社交的现状和趋势:


1.基于社交的用户粘性,聚集广泛、不断扩展的线上线下好友关系,延伸出更多的服务领域。这是微信+社交谷歌ag8.com网站|首页助手发布视频_星玄未来ag8.com网站|首页平台的关键脉络。


2.朋友圈已成为用户手机社交的主阵地(从全网平台看,很可能是第一阵地),用户表现出登录高频、点赞活跃、喜爱围观好友生活状态的行为特点。


3.利用朋友圈的活跃优势,微信尝试提供了更多的社交玩法和商业化方式,如短视频、红包照片、朋友圈广告等。该类探索值得继续下去,挖掘社交链条内部和外延的更多生态和服务价值。


4.社交圈扩大、接收信息繁杂也给微信提出新的难题,如何提高用户的社交效率、让用户更易触达有价值的信息而不疲惫,这是社交类产品的长远任务。


三、微信+支付=?



微信+支付的现状及趋势:


1.受益于红包等强社交支付功能的引爆,支付在微信用户中渗透率快速增长。


2.随着应用场景扩大,微信支付的消费额度开始增长。超过五分之一调研用户,月均微信支付额度超过千元。


3.随着在金融和电商领域进一步打通服务,微信支付有望将现金流从社交流转引电器ag8.com网站|首页标志_星玄未来ag8.com网站|首页平台导向金融流转和消费流转。


4.环境建设(银行金融流程、线下支付覆盖)将是微信等互联网支付产品未来的业务重点。


四、微信+媒体=?


  微信+媒体的现状及趋势:


  1. 以微信为代表的社交平台,成为新的媒体传播核心渠道。在国内外,媒体拥抱社交传播,已成为大趋势。


2.媒体消费场景全面“移动化”,新闻广度(新闻APP)+新闻过滤(微信等社交平台),成为网民获取新ag8.com网站|首页大会即将召开?_星玄未来ag8.com网站|首页平台闻的“左右手”。


3.微信公众号+自媒体,改变了媒体舆论场权重配比。众媒时代,信息传播架构将被社交媒体消解和重构。


4.去中心化的新媒体架构依赖于强社交链,并非人人可学。微ag8.com网站|首页对人脑的好处_星玄未来ag8.com网站|首页平台信+媒体模式已有很多跟进者,但复制将会很难。


五、微信+生活服务=?


  微信+生活服务的现状及趋势:


1.从调研看,微信已基本完成从社交平台向多维度服务平台的延展。整体渗透率可观。


2.线下互联网化程度越高的行业,在微信平台的引流效应越明显。


3.在高度碎片化的生活节奏中, 微信读书、微信运动这样的服务,正在让碎片时间增值。


4.和其他相对成熟的行业相比,金融服务+微信未来可延展的空间更大。


六、微信+企业服务=?


  微信+企业服务的现状及趋势:


1.用户高度聚集的地方,会吸引ag8.com网站|首页的硬件应用瓶颈_星玄未来ag8.com网站|首页平台大量服务用户的企业进驻,这是平台的价值。

在微信公众号中,传媒娱乐类运营者占比最高,服务行业次之。这也符合平台与用户交互场景的粘性关系。


2.企业号对于提升各公司内部运营管理效率,效果较为明显。因此,制造业等需要提升流程效率的行业,对企业号的关注度和使用率更高。在互联网渗透度中低水准的行业中,未来会挖掘出更多潜在业务模式和服务窗口。


3.微信帮助企业获取和服务用户(会员)方面,潜力已被很好激活。为了更近距离触达和服务精准用户,运营者在微信平台上的投入不断提升。目前看这一领域的天花板还远远未到,接下来将进入更高规模的爆发期。


(来源:腾讯科技)