Python培训哪里最好?
相信在IT领域发展的同学对Java很熟悉。Python编程语言排行中一直处于领先地位,这可以直接体现Python的重要。因此很多同学准备参加Python培训机构系统学习。那么,Python培训机构哪家比较好?下面我们介绍一下。
随着Python普及,越来越多的人了解py,企业也会对求职者提出更高的要求,他们想招聘一些能马上开始工作的人,所以往往会招聘一些有项目开发经验的人。这就是为什么那么多计算机专业的大学生找不到工作,所以越来越多的大学生会选择在毕业前后参加一些专业的Python培训课程,以增加他们的实践经验。只有增强自己的力量,才能立于不败之地。
Python培训机构哪家比较好?判断Python培训机构好与坏主要看以下几个方面
1.看教学课程内容
学习Java技术,最主要是与时俱进,掌握的技术点能够满足时下企业的用人需求。而想要了解一家培训机构所提供的课程是否新颖,也可以去机构的官网上看看,了解自己想学习的学科的课程大纲。看看学习路线图是如何安排的,有没有从零到一的系统搭建,是不是有强化实训、实操的比重,有尽量多的项目实战。因为企业对Java从业者的技术能力和动手实战能力要求较高。
2.看师资力量
因为Java开发技术知识的专业性很强,如果盲目去学很容易走进误区。相反,有讲师带领,站在巨人的肩膀上,往往事半功倍。毕竟现在这个时代只要多跟别人交流才能获得更多更有价值的信息,初学者千万不能闭门造车。
3.看口碑
行业内口碑比较好,学生对培训机构比较认可,这种机构把精力放在了学生身上的机构,才是做教育的应有态度。
4.看就业情况
以学生就业为目标的培训机构现在才是最主要的。要知道就业也是教学成果的体现,没有好的教学保证是做不到好的就业的。
5.上门免费试听
试听是为了更好的去感受培训机构的课程内容、讲课风格、班级氛围等,同时也能通过和班上在读同学进行交流,更进一步去了解这家培训机构各个方面是否符合自己的需要。
大数据处理需要用到的九种编程语言
大数据处理需要用到的九种编程语言
随着大数据的热潮不断升温,几乎各个领域都有洪水倾泻般的信息涌来,面对用户成千上万的浏览记录、记录行为数据,如果就单纯的Excel来进行数据处理是远远不能满足的。但如果只用一些操作软件来分析,而不怎么如何用逻辑数据来分析的话,那也只是简单的数据处理。
替代性很高的工作,而无法深入规划策略的核心。
当然,基本功是最不可忽略的环节,想要成为数据科学家,对于这几个程序你应该要有一定的认识:
R
若要列出所有程序语言,你能忘记其他的没关系,但最不能忘的就是R。从1997年悄悄地出现,最大的优势就是它免费,为昂贵的统计软件像是Matlab或SAS的另一种选择。
但是在过去几年来,它的身价大翻转,变成了资料科学界眼中的宝。不只是木讷的统计学家熟知它,包括WallStreet交易员、生物学家,以及硅谷开发者,他们都相当熟悉R。多元化的公司像是Google、Facebook、美国银行以及NewYorkTimes通通都使用R,它的商业效用持续提高。
R的好处在于它简单易上手,透过R,你可以从复杂的数据集中筛选你要的数据,从复杂的模型函数中操作数据,建立井然有序的图表来呈现数字,这些都只需要几行程序代码就可以了,打个比方,它就像是好动版本的Excel。
R最棒的资产就是活跃的动态系统,R社群持续地增加新的软件包,还有以内建丰富的功能集为特点。目前估计已有超过200万人使用R,最近的调查显示,R在数据科学界里,到目前为止最受欢迎的语言,占了回复者的61%(紧追在后的是39%的Python)。
它也吸引了WallStreet的注目。传统而言,证券分析师在Excel档从白天看到晚上,但现在R在财务建模的使用率逐渐增加,特别是可视化工具,美国银行的副总裁NiallO’Conno说,「R让我们俗气的表格变得突出」。
在数据建模上,它正在往逐渐成熟的专业语言迈进,虽然R仍受限于当公司需要制造大规模的产品时,而有的人说他被其他语言篡夺地位了。
“R更有用的是在画图,而不是建模。”顶尖数据分析公司Metamarkets的CEO,MichaelDriscoll表示,
“你不会在Google的网页排名核心或是Facebook的朋友们推荐算法时看到R的踪影,工程师会在R里建立一个原型,然后再到Java或Python里写模型语法”。
举一个使用R很有名的例子,在2010年时,PaulButler用R来建立Facebook的世界地图,证明了这个语言有多丰富多强大的可视化数据能力,虽然他现在比以前更少使用R了。
“R已经逐渐过时了,在庞大的数据集底下它跑的慢又笨重”Butler说。
所以接下来他用什么呢?
Python
如果说R是神经质又令人喜爱的Geek,那Python就是随和又好相处的女生。
Python结合了R的快速、处理复杂数据采矿的能力以及更务实的语言等各个特质,迅速地成为主流,Python比起R,学起来更加简单也更直观,而且它的生态系统近几年来不可思议地快速成长,在统计分析上比起R功能更强。
Butler说,“过去两年间,从R到Python地显著改变,就像是一个巨人不断地推动向前进”。
在数据处理范畴内,通常在规模与复杂之间要有个取舍,而Python以折衷的姿态出现。IPythonNotebook(记事本软件)和NumPy被用来暂时存取较低负担的工作量,然而Python对于中等规模的数据处理是相当好的工具;Python拥有丰富的资料族,提供大量的工具包和统计特征。
美国银行用Python来建立新产品和在银行的基础建设接口,同时也处理财务数据,“Python是更广泛又相当有弹性,所以大家会对它趋之若鹜。”O’Donnell如是说。
然而,虽然它的优点能够弥补R的缺点,它仍然不是最高效能的语言,偶尔才能处理庞大规模、核心的基础建设。Driscoll是这么认为的。
Julia
今日大多数的数据科学都是透过R、Python、Java、Matlab及SAS为主,但仍然存在着鸿沟要去弥补,而这个时候,新进者Julia看到了这个痛点。
Julia仍太过于神秘而尚未被业界广泛的采用,但是当谈到它的潜力足以抢夺R和Python的宝座时,数据黑客也难以解释。原因在于Julia是个高阶、不可思议的快速和善于表达的语言,比起R要快的许多,比起Python又有潜力处理更具规模的数据,也很容易上手。
“Julia会变的日渐重要,最终,在R和Python可以做的事情在Julia也可以”。Butler是这么认为的。
就现在而言,若要说Julia发展会倒退的原因,大概就是它太年轻了。Julia的数据小区还在初始阶段,在它要能够和R或Python竞争前,它还需要更多的工具包和软件包。
Driscoll说,它就是因为它年轻,才会有可能变成主流又有前景。
Java
Driscoll说,Java和以Java为基础的架构,是由硅谷里最大的几家科技公司的核心所建立的,如果你从Twitter、Linkedin或是Facebook里观察,你会发现Java对于所有数据工程基础架构而言,是非常基础的语言。
Java没有和R和Python一样好的可视化功能,它也不是统计建模的最佳工具,但是如果你需要建立一个庞大的系统、使用过去的原型,那Java通常会是你最基的选择。
Hadoop and Hive
为了迎合大量数据处理的需求,以Java为基础的工具群兴起。Hadoop为处理一批批数据处理,发展以Java为基础的架构关键;相较于其他处理工具,Hadoop慢许多,但是无比的准确和可被后端数据库分析广泛使用。和Hive搭配的很好,Hive是基于查询的架构下,运作的相当好。
Scala
又是另一个以Java为基础的语言,和Java很像,对任何想要进行大规模的机械学习或是建立高阶的算法,Scala会是逐渐兴起的工具。它是善于呈现且拥有建立可靠系统的能力。
“Java像是用钢铁建造的;Scala则是让你能够把它拿进窑烤然后变成钢的黏土”Driscoll说。
Kafka andStorm
说到当你需要快速的、实时的分析时,你会想到什么?Kafka将会是你的最佳伙伴。其实它已经出现五年有了,只是因为最近串流处理兴起才变的越来越流行。
Kafka是从Linkedin内诞生的,是一个特别快速的查询讯息系统。Kafka的缺点呢?就是它太快了,因此在实时操作时它会犯错,有时候会漏掉东西。
鱼与熊掌不可兼得,「必须要在准确度跟速度之间做一个选择」,Driscoll说。所以全部在硅谷的科技大公司都利用两个管道:用Kafka或Storm处理实时数据,接下来打开Hadoop处理一批批处理数据系统,这样听起来有点麻烦又会有些慢,但好处是,它非常非常精准。
Storm是另一个从Scala写出来的架构,在硅谷逐渐大幅增加它在串流处理的受欢迎程度,被Twitter并购,这并不意外,因为Twitter对快速事件处理有极大的兴趣。
Matlab
Matlab可以说是历久不衰,即使它标价很高;在非常特定的利基市场它使用的相当广泛,包括密集的研究机器学习、信号处理、图像辨识等等。
Octave
Octave和Matlab很像,除了它是免费的之外。然而,在学术信号处理的圈子,几乎都会提到它。
GO
GO是另一个逐渐兴起的新进者,从Google开发出来的,放宽点说,它是从C语言来的,并且在建立强大的基础架构上,渐渐地成为Java和Python的竞争者。
这么多的软件可以使用,但我认为不见得每个都一定要会才行,知道你的目标和方向是什么,就选定一个最适合的工具使用吧!可以帮助你提升效率又达到精准的结果。
以上是小编为大家分享的关于大数据处理需要用到的九种编程语言的相关内容,更多信息可以关注环球青藤分享更多干货
基诺里维斯演的那部动画片叫什么来的
中文片名
盲区行者
原片名
A Scanner Darkly
更多中文片名
双面魔神
心机扫描 .....台湾译名
黑暗扫描仪
影片类型
动画 / 惊悚 / 剧情 / 科幻 / 悬疑
片长
100 分钟
国家/地区
美国
对白语言
英语
色彩
彩色
导演
理查德·林克莱特 Richard Linklater
编剧
菲利普·迪克 Philip K. Dick .....(novel)
理查德·林克莱特 Richard Linklater .....(screenplay)
演员
基努·李维斯 Keanu Reeves .....Bob Arctor
小罗伯特·唐尼 Robert Downey Jr. .....James Barris
伍迪·哈里森 Woody Harrelson .....Ernie Luckman
维诺娜·赖德 Winona Ryder .....Donna
Mitch Baker .....Brown Bear Lodge Host
Casey Chapman .....Girl at Scanning Station
Melody Chase .....Arctor's Wife
Dameon Clarke .....Mike
Rory Cochrane .....Charles Freck
Jack Cruz .....Police Officer
Jason Douglas .....New Path Farm Manager
Chamblee Ferguson .....Medical Deputy #2
Alex Jones .....Arrested Protester
Heather Kafka .....New Path Girl
Mona Lee Fultz
Marco Perella .....Donald
Leila Plummer .....New Path Resident #2
Steven Chester Prince .....Cop
Angela Rawna .....Medical Deputy #1
Christopher Ryan .....New Path Resident #1
Andrew Sparkes .....P.A. announcement (voice)
Eliza Stevens .....Arctor's Daughter #1
Rommel Sulit .....New Path Staff Member #2
Lisa Del Dotto .....Scanner (uncredited)
制作人
乔治·克鲁尼 George Clooney .....executive producer
史蒂文·索德伯格 Steven Soderbergh .....executive producer
剧情介绍
2013年,美国加利福尼亚州,毒品再度泛滥到无法控制的地步。其中,一种能导致服用者精神分裂的毒品“D物质”大行其肆,整个国家几乎陷入一片混乱当中。黑暗势力更是借此机会迅速壮大……
自然,作为国家机器之一的警方不会袖手旁观。警方对毒品的追查更是进入了几近“疯狂”的地步。其中,秘密警察弗雷德(基努·里维斯)便奉命调查一个毒品的源头,他和搭档不畏危险潜入黑社会组织,逐步调查出罪魁祸首原是一个名叫阿克特的大毒枭。随着案件的展开,弗雷德感到自己的女友唐娜(薇诺娜·瑞德)和毒枭阿克特有着千丝万缕的关系,并因此对其逐渐失去信任。更令他惊异的是,随着进一步的调查,种种迹象都在表明,大毒枭阿克特竟然和自己的警察身份渐渐出现了莫名其妙的“重合”。
[编辑本段]相关评论
A Scanner See?
Everything Is Not Going To Be OK
大段的剧情铺排紧接着另一段,电影似乎更关心完成一次对原著的完整叙述,如果没有独特的画面,影片将平凡得更彻底。
——Variety
虽然给人的印象没有《Waking Life》那么深刻,同时剧本的改编也明显要逊色于原作,但影片仍然保留了这部1977年创作的长青杰作的神采,并且装饰有基努·李维斯的个人风格。
——Emanuellevy.com
不仅仅是一次黑暗的扫描,几乎可以称为一次深不可测的探索。
——Cinema Signals
那些无聊的场面一个接着一个:影片里的角色总是喋喋不休,无论是坐在车里,坐在餐桌旁,坐在起居室里,还是办公室里,我想这部影片的名字或许改成《The Big Sit.》。
——好莱坞报道
[编辑本段]幕后制作
影片风格
在《盲区行者》里,故事发生在一个并不遥远的未来,那时一种新的药物被发明,它的名字叫“D物质”,影片就是从这种风靡一时的药物入手,讲述了由基努·李维斯扮演的秘密特工阿克特的故事。阿克特刚刚接受了一项秘密最终任务,追踪犯罪头目卢克曼(伍迪·哈里森),极端妄想狂弗莱克(罗里·克茨兰),以及漂亮的堂娜(维诺娜·赖德),当影片拨开重重烟雾的时候,阿克特发现自己为了隐秘身份而服用“D物质”,并且他的意识开始失去控制,很难再分清什么是真实的,什么是想象的,最终发现了深深隐藏的真相。
理查德·林克莱特将菲利普·迪克(Philip K. Dick)的经典小说搬上银幕,将其变成一部具有严峻挑战性的,考验逻辑推理能力的黑色电影。作为一名作家,菲利普·迪克成为新世纪文化偶像的过程是漫长但稳定的,他在自己的作品中构筑了充满未来派的世界,包括《银翼杀手》、《宇宙威龙》、《少数派报告》、《致命报酬》,这些影片都改编自他的小说,从1995年起,他的作品已经畅销2000多万册,被翻译超过25种语言。
影片整个进程都追逐着药物的迷幻效果,并且借此来抨击这个假想政权的滥用权力来控制人民。影片所呈现的独特画面并非首创,之前在2001年,导演理查德·林克莱特已经在《Waking Life》中使用了这种插值交换的胶片处理方法,在那部具有动画风格的电影中,导演同样融合了迷幻感强烈的气氛,以此来表现一个人游移的精神状态。
影片由真人影片转为动画风格的过程花费了整整15个月的时间,画师在此期间要根据导演的要求,在纸或帆布上画出影片的背景画面,然后再交由电脑,将这些影响与影片中已经被“动画化”的角色合在一起,当然并非所有的部分都如此简单,《盲区行者》中也有一个1分钟的画面,花费了30名画师一共花费500小时才最终完成。
制作过程
一直坚持独立制作的理查德·林克莱特,无疑是好莱坞最多才多艺的导演之一,他既能成功驾驭《爱在日落黄昏后》等技术朴素、全凭对白取胜的文艺影片,又能拍摄《少棒闯天下》这样简单直接的商业大制,还能操纵《梦醒人生》这种匪夷所思的技术风格化电影。在最新的这部《盲区行者》中,林克莱特主要就是要大秀特秀他的独创动画渲染技术,在大银幕至上做一次独特的电影试验。除此之外,他还继续发扬着他超强的笔头功力,创作出一串串曼妙精巧的角色对白,这也是继《爱在日落黄昏后》之后,林克莱特首次为自己导演的影片亲自执笔;当然,对于这样一部集合众多明星的影片,林克莱特也显示出精明商业头脑的一面,不仅要吸引数量庞大的原漫画迷,也会让慕明星而来的影迷们尽其所兴。
影片采用近年来逐渐成熟且应用渐广的动画渲染技术。即先将真实人物的表演拍摄下来,再让动画师按照演员的表演,在幕布投影上描绘出人物的轮廓,如此一番下来,便能达到令人叹为观止的影像效果:乍一看像是卡通片,仔细观察后发现“卡通”人物的神情举止,与真实演员堪称毫厘不差。这种拍摄制作方式,主要由真人表演和后期制作两大步骤组成,前一步演员只需照常按剧本表演即可,同普通的电影拍摄别无二样;后一步则需要像鲍伯·塞比斯顿这样的专业动画制作师来完成后期处理。这种耗时耗力的新兴拍摄方式,听起来异常繁琐,想必造价也定当不菲——其实不然,本片的拍摄成本仅为800万美元,其中还包含几位名头不小的主演们的高额片酬。其节省的秘诀在于,该拍摄方法不像3D动画一样需要精确计算,由众多专业高手来共同完成,而是采用传统的手绘动画。
演员阵容
成名自虚拟世界的基努·里维斯此次再次进入虚拟的状态之下。然而,这次俨然与此前的数字环境有了极大的改变。本片在经过动画处理之后的画面似乎在很大程度上掩盖了演员的本色以及在故事中的激情发挥等。即便如此,也无法阻挡基努对本片的极大热诚。
近年来,在生活中郁郁寡欢的基努·里维斯似乎在事业上突然焕发了第二春,以取之不尽用之不竭的精力和热情,轰轰烈烈地全身心投入到电影事业当中。近两年里维斯接片数量惊人,其角色类型更是千姿百态:去年在《吮拇指的人》中客串了老大不小且神神叨叨的心理医生;今年又将不惜以四十二岁的高龄去挑战青春戏美版《触不到的恋人》;去年带着众漫画迷们的殷切希望主演了根据经典漫画改编的《地狱神探》,反响还算不错;今年则彻底“沦落”为卡通形象,在新片《盲区行者》中做了一回忠奸两面人。如此不辞辛苦地工作,自然是获得了影迷们的一致认可。如今的基努·里维斯已经彻底打破了人们脑中过于深刻的虚拟世界中的“救世主”形象,成为轻松驾驭种种高难度角色的演技多面手。事实上,《盲区行者》早在筹拍之时,漫画迷们就已经在他们的心目当中评选出了最为适合饰演人格分裂的阿克特的人选,这个人就是基努里维斯。在如此高涨人气的支持下,以漫画形象示人的里维斯,满面春光依然清晰可见。
与基努·里维斯相比,两位配角小罗伯特·唐尼和薇诺娜·瑞德的加盟,则要有些出人意料。巧合的是,此二位明星都曾因负面事件在好莱坞闹得沸沸扬扬,却一同在此新片中均摆出强势复出的姿态。薇诺娜·瑞德这位在二十五岁之前就获得过两次奥斯卡提名的天才女星,自从五年前的盗窃事件后,事业几乎陷入了停滞状态,人气更是极度下滑,一时间似乎消失在了人们的视线当中。好在瑞德一直积极配合调查,没有造成更轰动的负面影响,在官司完全了结以后,薇诺娜首次重回主流电影。更是选择加盟了这部风格另类的先锋类型片,而且恰好与在拍摄《吸血惊情四百年》时传过绯闻的老搭档基努·里维斯再度合作,一时间种种猜测风生水起,薇诺娜也再度成为媒体关注的焦点。可见其复出策略之高明,值得后人好好借鉴。与之相似的小罗伯特·唐尼,因毒瘾而官司不断,几进几出牢房之后,依然让人们看不到好转的苗头……
此外在黑客帝国动画版Kid's Story 中也有基努饰演的尼奥的动画形象
如何重新读取kafka集群topic
Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平
扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支持与Kafka集成,其中Spark
Streaming作为后端流引擎配合Kafka作为前端消息系统正成为当前流处理系统的主流架构之一。
然而,当下越来越多的安全漏
洞、数据泄露等问题的爆发,安全正成为系统选型不得不考虑的问题,Kafka由于其安全机制的匮乏,也导致其在数据敏感行业的部署存在严重的安全隐患。本
文将围绕Kafka,先介绍其整体架构和关键概念,再深入分析其架构之中存在的安全问题,最后分享下Transwarp在Kafka安全性上所做的工作及
其使用方法。
Kafka架构与安全
首先,我们来了解下有关Kafka的几个基本概念:
Topic:Kafka把接收的消息按种类划分,每个种类都称之为Topic,由唯一的Topic Name标识。
Producer:向Topic发布消息的进程称为Producer。
Consumer:从Topic订阅消息的进程称为Consumer。
Broker:Kafka集群包含一个或多个服务器,这种服务器被称为Broker。
Kafka的整体架构如下图所示,典型的Kafka集群包含一组发布消息的Producer,一组管理Topic的Broker,和一组订阅消息的
Consumer。Topic可以有多个分区,每个分区只存储于一个Broker。Producer可以按照一定的策略将消息划分给指定的分区,如简单的
轮询各个分区或者按照特定字段的Hash值指定分区。Broker需要通过ZooKeeper记录集群的所有Broker、选举分区的Leader,记录
Consumer的消费消息的偏移量,以及在Consumer Group发生变化时进行relalance.
Broker接收和发送消息是被动的:由Producer主动发送消息,Consumer主动拉取消息。
然而,分析Kafka框架,我们会发现以下严重的安全问题:
网络中的任何一台主机,都可以通过启动Broker进程而加入Kafka集群,能够接收Producer的消息,能够篡改消息并发送给Consumer。
网络中的任何一台主机,都可以启动恶意的Producer/Consumer连接到Broker,发送非法消息或拉取隐私消息数据。
Broker不支持连接到启用Kerberos认证的ZooKeeper集群,没有对存放在ZooKeeper上的数据设置权限。任意用户都能够直接访问ZooKeeper集群,对这些数据进行修改或删除。
Kafka中的Topic不支持设置访问控制列表,任意连接到Kafka集群的Consumer(或Producer)都能对任意Topic读取(或发送)消息。
随着Kafka应用场景越来越广泛,特别是一些数据隐私程度较高的领域(如道路交通的视频监控),上述安全问题的存在犹如一颗定时炸弹,一旦内网被黑客
入侵或者内部出现恶意用户,所有的隐私数据(如车辆出行记录)都能够轻易地被窃取,而无需攻破Broker所在的服务器。
Kafka安全设计
基于上述分析,Transwarp从以下两个方面增强Kafka的安全性:
身份认证(Authentication):设计并实现了基于Kerberos和基于IP的两种身份认证机制。前者为强身份认证,相比于后者具有更好的安全性,后者适用于IP地址可信的网络环境,相比于前者部署更为简便。
权限控制(Authorization):设计并实现了Topic级别的权限模型。Topic的权限分为READ(从Topic拉取数据)、WRITE(向Topic中生产数据)、CREATE(创建Topic)和DELETE(删除Topic)。
Broker启动时,需要使用配置文件中的身份和密钥文件向KDC(Kerberos服务器)认证,认证通过则加入Kafka集群,否则报错退出。
Producer(或Consumer)启动后需要经过如下步骤与Broker建立安全的Socket连接:
Producer向KDC认证身份,通过则得到TGT(票证请求票证),否则报错退出
Producer使用TGT向KDC请求Kafka服务,KDC验证TGT并向Producer返回SessionKey(会话密钥)和ServiceTicket(服务票证)
Producer
使用SessionKey和ServiceTicket与Broker建立连接,Broker使用自身的密钥解密ServiceTicket,获得与
Producer通信的SessionKey,然后使用SessionKey验证Producer的身份,通过则建立连接,否则拒绝连接。
ZooKeeper需要启用Kerberos认证模式,保证Broker或Consumer与其的连接是安全的。
Topic的访问控制列表(ACL)存储于ZooKeeper中,存储节点的路径为/acl/topic/user,
节点数据为R(ead)、W(rite)、C(reate)、D(elete)权限的集合,如/acl/transaction/jack节点的数据为
RW,则表示用户jack能够对transaction这个topic进行读和写。
另外,kafka为特权用户,只有kafka用户能够赋予/取消权限。因此,ACL相关的ZooKeeper节点权限为kafka具有所有权限,其他用户不具有任何权限。
构建安全的Kafka服务
首先,我们为Broker启用Kerberos认证模式,配置文件为/etc/kafka/conf/server.properties,安全相关的参数如下所示:
其中,authentication参数表示认证模式,可选配置项为simple, kerberos和ipaddress,默认为simple。当认证模式为kerberos时,需要额外配置账户属性principal和对应的密钥文件路径keytab.
认证模式为ipaddress时,Producer和Consumer创建时不需要做任何改变。而认证模式为kerberos时,需要预先创建好相应的principal和keytab,并使用API进行登录,样例代码如下所示:
public class SecureProducer extends Thread {
private final kafka.javaapi.producer.ProducerInteger, String producer;
private final String topic;
private final Properties props = new Properties();
public SecureProducer(String topic) {
AuthenticationManager.setAuthMethod("kerberos");
AuthenticationManager.login("producer1", "/etc/producer1.keytab");
props.put("serializer.class", "kafka.serializer.StringEncoder");
props.put("metadata.broker.list",
"172.16.1.190:9092,172.16.1.192:9092,172.16.1.193:9092");
// Use random partitioner. Don't need the key type. Just set it to Integer.
// The message is of type String.
producer = new kafka.javaapi.producer.ProducerInteger, String(
new ProducerConfig(props));
this.topic = topic;
}
kafka问题求助
Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支持与Kafka集成,其中Spark Streaming作为后端流引擎配合Kafka作为前端消息系统正成为当前流处理系统的主流架构之一。
然而,当下越来越多的安全漏洞、数据泄露等问题的爆发,安全正成为系统选型不得不考虑的问题,Kafka由于其安全机制的匮乏,也导致其在数据敏感行业的部署存在严重的安全隐患。本文将围绕Kafka,先介绍其整体架构和关键概念,再深入分析其架构之中存在的安全问题,最后分享下Transwarp在Kafka安全性上所做的工作及其使用方法。
Kafka架构与安全
首先,我们来了解下有关Kafka的几个基本概念:
Topic:Kafka把接收的消息按种类划分,每个种类都称之为Topic,由唯一的Topic Name标识。
Producer:向Topic发布消息的进程称为Producer。
Consumer:从Topic订阅消息的进程称为Consumer。
Broker:Kafka集群包含一个或多个服务器,这种服务器被称为Broker。
Kafka的整体架构如下图所示,典型的Kafka集群包含一组发布消息的Producer,一组管理Topic的Broker,和一组订阅消息的Consumer。Topic可以有多个分区,每个分区只存储于一个Broker。Producer可以按照一定的策略将消息划分给指定的分区,如简单的轮询各个分区或者按照特定字段的Hash值指定分区。Broker需要通过ZooKeeper记录集群的所有Broker、选举分区的Leader,记录Consumer的消费消息的偏移量,以及在Consumer Group发生变化时进行relalance. Broker接收和发送消息是被动的:由Producer主动发送消息,Consumer主动拉取消息。
然而,分析Kafka框架,我们会发现以下严重的安全问题:
1.网络中的任何一台主机,都可以通过启动Broker进程而加入Kafka集群,能够接收Producer的消息,能够篡改消息并发送给Consumer。
2.网络中的任何一台主机,都可以启动恶意的Producer/Consumer连接到Broker,发送非法消息或拉取隐私消息数据。
3.Broker不支持连接到启用Kerberos认证的ZooKeeper集群,没有对存放在ZooKeeper上的数据设置权限。任意用户都能够直接访问ZooKeeper集群,对这些数据进行修改或删除。
4.Kafka中的Topic不支持设置访问控制列表,任意连接到Kafka集群的Consumer(或Producer)都能对任意Topic读取(或发送)消息。
随着Kafka应用场景越来越广泛,特别是一些数据隐私程度较高的领域(如道路交通的视频监控),上述安全问题的存在犹如一颗定时炸弹,一旦内网被黑客入侵或者内部出现恶意用户,所有的隐私数据(如车辆出行记录)都能够轻易地被窃取,而无需攻破Broker所在的服务器。
Kafka安全设计
基于上述分析,Transwarp从以下两个方面增强Kafka的安全性:
身份认证(Authentication):设计并实现了基于Kerberos和基于IP的两种身份认证机制。前者为强身份认证,相比于后者具有更好的安全性,后者适用于IP地址可信的网络环境,相比于前者部署更为简便。
权限控制(Authorization):设计并实现了Topic级别的权限模型。Topic的权限分为READ(从Topic拉取数据)、WRITE(向Topic中生产数据)、CREATE(创建Topic)和DELETE(删除Topic)。
基于Kerberos的身份机制如下图所示:
Broker启动时,需要使用配置文件中的身份和密钥文件向KDC(Kerberos服务器)认证,认证通过则加入Kafka集群,否则报错退出。
Producer(或Consumer)启动后需要经过如下步骤与Broker建立安全的Socket连接:
1.Producer向KDC认证身份,通过则得到TGT(票证请求票证),否则报错退出
2.Producer使用TGT向KDC请求Kafka服务,KDC验证TGT并向Producer返回SessionKey(会话密钥)和ServiceTicket(服务票证)
3.Producer使用SessionKey和ServiceTicket与Broker建立连接,Broker使用自身的密钥解密ServiceTicket,获得与Producer通信的SessionKey,然后使用SessionKey验证Producer的身份,通过则建立连接,否则拒绝连接。
ZooKeeper需要启用Kerberos认证模式,保证Broker或Consumer与其的连接是安全的。
Topic的访问控制列表(ACL)存储于ZooKeeper中,存储节点的路径为/acl/topic/user,节点数据为R(ead)、W(rite)、C(reate)、D(elete)权限的集合,如/acl/transaction/jack节点的数据为RW,则表示用户jack能够对transaction这个topic进行读和写。
另外,kafka为特权用户,只有kafka用户能够赋予/取消权限。因此,ACL相关的ZooKeeper节点权限为kafka具有所有权限,其他用户不具有任何权限。
构建安全的Kafka服务
首先,我们为Broker启用Kerberos认证模式,配置文件为/etc/kafka/conf/server.properties,安全相关的参数如下所示:
其中,authentication参数表示认证模式,可选配置项为simple, kerberos和ipaddress,默认为simple。当认证模式为kerberos时,需要额外配置账户属性principal和对应的密钥文件路径keytab.
认证模式为ipaddress时,Producer和Consumer创建时不需要做任何改变。而认证模式为kerberos时,需要预先创建好相应的principal和keytab,并使用API进行登录,样例代码如下所示:
public class SecureProducer extends Thread {
private final kafka.javaapi.producer.ProducerInteger, String producer;
private final String topic;
private final Properties props = new Properties();
public SecureProducer(String topic) {
AuthenticationManager.setAuthMethod(“kerberos”);
AuthenticationManager.login(“producer1″, “/etc/producer1.keytab”);
props.put(“serializer.class”, “kafka.serializer.StringEncoder”);
props.put(“metadata.broker.list”,
“172.16.1.190:9092,172.16.1.192:9092,172.16.1.193:9092″);
// Use random partitioner. Don’t need the key type. Just set it to Integer.
// The message is of type String.
producer = new kafka.javaapi.producer.ProducerInteger, String(
new ProducerConfig(props));
this.topic = topic;
}
. . .
Topic权限管理
Topic的权限管理主要是通过AuthorizationManager这个类来完成的,其类结构如下图所示:
其中,resetPermission(user, Permissions, topic) 为重置user对topic的权限。
grant(user, Permissions, topic) 为赋予user对topic权限。
revoke(user, Permissions, topic) 为取消user对topic权限。
isPermitted(user, Permissions, topic) 为检查user对topic是否具有指定权限。
调用grant或revoke进行权限设置完成后,需要commit命令提交修改到ZooKeeper
Kerberos模式下,AuthorizationManager需要先使用AuthenticationManager.login方法登录,与ZooKeeper建立安全的连接,再进行权限设置。示例代码如下所示:
public class AuthzTest {
public static void main(String[] args) {
Properties props = new Properties();
props.setProperty(“authentication”, “kerberos”);
props.setProperty(“zookeeper.connect”, “172.16.2.116:2181,172.16.2.117:2181,172.16.2.118:2181″);
props.setProperty(“principal”, “kafka/host1@TDH”);
props.setProperty(“keytab”, “/usr/lib/kafka/config/kafka.keytab”);
ZKConfig config = new ZKConfig(props);
AuthenticationManager.setAuthMethod(config.authentication());
AuthenticationManager.login(config.principal(), config.keytab());
AuthorizationManager authzManager = new AuthorizationManager(config);
// reset permission READ and WRITE to ip 172.16.1.87 on topic test
authzManager.resetPermission(“172.16.1.87″,
new Permissions(Permissions.READ, Permissions.WRITE), “test”);
// grant permission WRITE to ip 172.16.1.87 on topic test
authzManager.grant(“172.16.1.87″, new Permissions(Permissions.CREATE), “test”);
// revoke permission READ from ip 172.16.1.87 on topic test
authzManager.revoke(“172.16.1.87″, new Permissions(Permissions.READ), “test”);
// commit the permission settings
authzManager.commit();
authzManager.close();
}
}
ipaddress认证模式下,取消和赋予权限的操作如下所示:
public class AuthzTest {
public static void main(String[] args) {
Properties props = new Properties();
props.setProperty(“authentication”, “ipaddress”);
props.setProperty(“zookeeper.connect”,
“172.16.1.87:2181,172.16.1.88:2181,172.16.1.89:2181″);
ZKConfig config = new ZKConfig(props);
// new authorization manager
AuthorizationManager authzManager = new AuthorizationManager(config);
// reset permission READ and WRITE to ip 172.16.1.87 on topic test
authzManager.resetPermission(“172.16.1.87″,
new Permissions(Permissions.READ, Permissions.WRITE), “test”);
// grant permission WRITE to ip 172.16.1.87 on topic test
authzManager.grant(“172.16.1.87″, new Permissions(Permissions.CREATE), “test”);
// revoke permission READ from ip 172.16.1.87 on topic test
authzManager.revoke(“172.16.1.87″, new Permissions(Permissions.READ), “test”);
// commit the permission settings
authzManager.commit();
authzManager.close();
}
}
总结与展望
本文通过介绍Kafka现有架构,深入挖掘其中存在的安全问题,并给出Transwarp在Kafka安全上所做的工作及其使用方式。然而,纵观Hadoop Spark生态系统,安全功能还存在很多问题,各组件的权限系统独立混乱,缺少集中易用的账户管理系统。某些组件的权限管理还很不成熟,如Spark的调度器缺少用户的概念,不能限制具体用户使用资源的多少。Transwarp基于开源版本,在安全方面已有相当多的积累,并持续改进开发,致力于为企业用户提供一个易用、高效、安全和稳定的基础数据平台。
kafka发送消息的时候报超时,有人遇到过吗
Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支持与Kafka集成,其中SparkStreaming作为后端流引擎配合Kafka作为前端消息系统正成为当前流处理系统的主流架构之一。然而,当下越来越多的安全漏洞、数据泄露等问题的爆发,安全正成为系统选型不得不考虑的问题,Kafka由于其安全机制的匮乏,也导致其在数据敏感行业的部署存在严重的安全隐患。本文将围绕Kafka,先介绍其整体架构和关键概念,再深入分析其架构之中存在的安全问题,最后分享下Transwarp在Kafka安全性上所做的工作及其使用方法。Kafka架构与安全首先,我们来了解下有关Kafka的几个基本概念:Topic:Kafka把接收的消息按种类划分,每个种类都称之为Topic,由唯一的TopicName标识。Producer:向Topic发布消息的进程称为Producer。Consumer:从Topic订阅消息的进程称为Consumer。Broker:Kafka集群包含一个或多个服务器,这种服务器被称为Broker。Kafka的整体架构如下图所示,典型的Kafka集群包含一组发布消息的Producer,一组管理Topic的Broker,和一组订阅消息的Consumer。Topic可以有多个分区,每个分区只存储于一个Broker。Producer可以按照一定的策略将消息划分给指定的分区,如简单的轮询各个分区或者按照特定字段的Hash值指定分区。Broker需要通过ZooKeeper记录集群的所有Broker、选举分区的Leader,记录Consumer的消费消息的偏移量,以及在ConsumerGroup发生变化时进行relalance.Broker接收和发送消息是被动的:由Producer主动发送消息,Consumer主动拉取消息。然而,分析Kafka框架,我们会发现以下严重的安全问题:1.网络中的任何一台主机,都可以通过启动Broker进程而加入Kafka集群,能够接收Producer的消息,能够篡改消息并发送给Consumer。2.网络中的任何一台主机,都可以启动恶意的Producer/Consumer连接到Broker,发送非法消息或拉取隐私消息数据。3.Broker不支持连接到启用Kerberos认证的ZooKeeper集群,没有对存放在ZooKeeper上的数据设置权限。任意用户都能够直接访问ZooKeeper集群,对这些数据进行修改或删除。4.Kafka中的Topic不支持设置访问控制列表,任意连接到Kafka集群的Consumer(或Producer)都能对任意Topic读取(或发送)消息。随着Kafka应用场景越来越广泛,特别是一些数据隐私程度较高的领域(如道路交通的视频监控),上述安全问题的存在犹如一颗定时炸弹,一旦内网被黑客入侵或者内部出现恶意用户,所有的隐私数据(如车辆出行记录)都能够轻易地被窃取,而无需攻破Broker所在的服务器。Kafka安全设计基于上述分析,Transwarp从以下两个方面增强Kafka的安全性:身份认证(Authentication):设计并实现了基于Kerberos和基于IP的两种身份认证机制。前者为强身份认证,相比于后者具有更好的安全性,后者适用于IP地址可信的网络环境,相比于前者部署更为简便。权限控制(Authorization):设计并实现了Topic级别的权限模型。Topic的权限分为READ(从Topic拉取数据)、WRITE(向Topic中生产数据)、CREATE(创建Topic)和DELETE(删除Topic)。基于Kerberos的身份机制如下图所示:Broker启动时,需要使用配置文件中的身份和密钥文件向KDC(Kerberos服务器)认证,认证通过则加入Kafka集群,否则报错退出。Producer(或Consumer)启动后需要经过如下步骤与Broker建立安全的Socket连接:1.Producer向KDC认证身份,通过则得到TGT(票证请求票证),否则报错退出2.Producer使用TGT向KDC请求Kafka服务,KDC验证TGT并向Producer返回SessionKey(会话密钥)和ServiceTicket(服务票证)3.Producer使用SessionKey和ServiceTicket与Broker建立连接,Broker使用自身的密钥解密ServiceTicket,获得与Producer通信的SessionKey,然后使用SessionKey验证Producer的身份,通过则建立连接,否则拒绝连接。ZooKeeper需要启用Kerberos认证模式,保证Broker或Consumer与其的连接是安全的。Topic的访问控制列表(ACL)存储于ZooKeeper中,存储节点的路径为/acl//,节点数据为R(ead)、W(rite)、C(reate)、D(elete)权限的集合,如/acl/transaction/jack节点的数据为RW,则表示用户jack能够对transaction这个topic进行读和写。另外,kafka为特权用户,只有kafka用户能够赋予/取消权限。因此,ACL相关的ZooKeeper节点权限为kafka具有所有权限,其他用户不具有任何权限。构建安全的Kafka服务首先,我们为Broker启用Kerberos认证模式,配置文件为/etc/kafka/conf/server.properties,安全相关的参数如下所示:其中,authentication参数表示认证模式,可选配置项为simple,kerberos和ipaddress,默认为simple。当认证模式为kerberos时,需要额外配置账户属性principal和对应的密钥文件路径keytab.认证模式为ipaddress时,Producer和Consumer创建时不需要做任何改变。而认证模式为kerberos时,需要预先创建好相应的principal和keytab,并使用API进行登录,样例代码如下所示:publicclassSecureProducerextendsThread{privatefinalkafka.javaapi.producer.Producerproducer;privatefinalStringtopic;privatefinalPropertiesprops=newProperties();publicSecureProducer(Stringtopic){AuthenticationManager.setAuthMethod(“kerberos”);AuthenticationManager.login(“producer1″,“/etc/producer1.keytab”);props.put(“serializer.class”,“kafka.serializer.StringEncoder”);props.put(“metadata.broker.list”,“172.16.1.190:9092,172.16.1.192:9092,172.16.1.193:9092″);//Userandompartitioner.Don’tneedthekeytype.JustsetittoInteger.//ThemessageisoftypeString.producer=newkafka.javaapi.producer.Producer(newProducerConfig(props));this.topic=topic;}...Topic权限管理Topic的权限管理主要是通过AuthorizationManager这个类来完成的,其类结构如下图所示:其中,resetPermission(user,Permissions,topic)为重置user对topic的权限。grant(user,Permissions,topic)为赋予user对topic权限。revoke(user,Permissions,topic)为取消user对topic权限。isPermitted(user,Permissions,topic)为检查user对topic是否具有指定权限。调用grant或revoke进行权限设置完成后,需要commit命令提交修改到ZooKeeperKerberos模式下,AuthorizationManager需要先使用AuthenticationManager.login方法登录,与ZooKeeper建立安全的连接,再进行权限设置。示例代码如下所示:publicclassAuthzTest{publicstaticvoidmain(String[]args){Propertiesprops=newProperties();props.setProperty(“authentication”,“kerberos”);props.setProperty(“zookeeper.connect”,“172.16.2.116:2181,172.16.2.117:2181,172.16.2.118:2181″);props.setProperty(“principal”,“kafka/host1@TDH”);props.setProperty(“keytab”,“/usr/lib/kafka/config/kafka.keytab”);ZKConfigconfig=newZKConfig(props);AuthenticationManager.setAuthMethod(config.authentication());AuthenticationManager.login(config.principal(),config.keytab());AuthorizationManagerauthzManager=newAuthorizationManager(config);//resetpermissionREADandWRITEtoip172.16.1.87ontopictestauthzManager.resetPermission(“172.16.1.87″,newPermissions(Permissions.READ,Permissions.WRITE),“test”);//grantpermissionWRITEtoip172.16.1.87ontopictestauthzManager.grant(“172.16.1.87″,newPermissions(Permissions.CREATE),“test”);//revokepermissionREADfromip172.16.1.87ontopictestauthzManager.revoke(“172.16.1.87″,newPermissions(Permissions.READ),“test”);//committhepermissionsettingsauthzManager.commit();authzManager.close();}}ipaddress认证模式下,取消和赋予权限的操作如下所示:publicclassAuthzTest{publicstaticvoidmain(String[]args){Propertiesprops=newProperties();props.setProperty(“authentication”,“ipaddress”);props.setProperty(“zookeeper.connect”,“172.16.1.87:2181,172.16.1.88:2181,172.16.1.89:2181″);ZKConfigconfig=newZKConfig(props);//newauthorizationmanagerAuthorizationManagerauthzManager=newAuthorizationManager(config);//resetpermissionREADandWRITEtoip172.16.1.87ontopictestauthzManager.resetPermission(“172.16.1.87″,newPermissions(Permissions.READ,Permissions.WRITE),“test”);//grantpermissionWRITEtoip172.16.1.87ontopictestauthzManager.grant(“172.16.1.87″,newPermissions(Permissions.CREATE),“test”);//revokepermissionREADfromip172.16.1.87ontopictestauthzManager.revoke(“172.16.1.87″,newPermissions(Permissions.READ),“test”);//committhepermissionsettingsauthzManager.commit();authzManager.close();}}总结与展望本文通过介绍Kafka现有架构,深入挖掘其中存在的安全问题,并给出Transwarp在Kafka安全上所做的工作及其使用方式。然而,纵观HadoopSpark生态系统,安全功能还存在很多问题,各组件的权限系统独立混乱,缺少集中易用的账户管理系统。某些组件的权限管理还很不成熟,如Spark的调度器缺少用户的概念,不能限制具体用户使用资源的多少。Transwarp基于开源版本,在安全方面已有相当多的积累,并持续改进开发,致力于为企业用户提供一个易用、高效、安全和稳定的基础数据平台。