本文目录一览:
- 1、求个网页分析爬虫,能分析域名下所有的页面,把有我要找的关键字的页面自己打开。
- 2、Python爬虫获取数据犯法吗?
- 3、大量带360水印视频上传,全都是偷拍的吗?
- 4、如果黑客做搜索引擎,不遵守robots协议,那世界不是完了?
- 5、黑客如何强行看到别人的视频URL,然后把它弄到自己的网站或者空间里放??????急切!!!!
- 6、黑客是什么,能做什么
求个网页分析爬虫,能分析域名下所有的页面,把有我要找的关键字的页面自己打开。
1 爬虫技术研究综述
引言�
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:�
(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。�
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。�
(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。�
(4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。�
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general�purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。�
1 聚焦爬虫工作原理及关键技术概述�
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如图1(a)流程图所示。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1(b)所示。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。�
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:�
(1) 对抓取目标的描述或定义;�
(2) 对网页或数据的分析与过滤;�
(3) 对URL的搜索策略。�
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。�
2 抓取目标描述�
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。�
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:�
(1) 预先给定的初始抓取种子样本;�
(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;�
(3) 通过用户行为确定的抓取目标样例,分为:�
a) 用户浏览过程中显示标注的抓取样本;�
b) 通过用户日志挖掘得到访问模式及相关样本。�
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。�
现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标数据模式和基于领域概念三种。�
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:()预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等
我可以帮你做一个搜索引擎。站内的
Python爬虫获取数据犯法吗?
没有的事,如果是这样的话,百度,谷歌这些搜索引擎公司也是犯法的了。他们也是爬取别人的网站,获取信息,给用户用的。其实搜索引擎就是一种爬虫。
如果网站本身不做鉴别,网站会认为爬虫和一般的浏览器的行为是一样的。
大量带360水印视频上传,全都是偷拍的吗?
大量带360水印的上传视频是偷拍的可能性比较大。
1. 视频拍摄的角度来推测。
根据目前流传出的大量视频来看,大部分视频从拍摄角度来说位置大概是天花板或者墙缝里。
那种专业级拍片的效果我们一般都见过,故事情节大都会事先进行设置,拍摄的场地也会提前布置,演员一般也会经过精心装扮。
专业拍片一般都把这种片子当作电影或者电视剧在制作,有片头、剧情、片尾、固定的几个男女主角,这样拍摄的片子更具商业价值和可看性。
2. 国人对此种事情还是比较羞涩的。
国内并不像某些国家那样开放,我们国人还是十分羞涩内敛,避讳在公众场所谈及此事,普遍认为是这都是个人的隐私,一般都不会在光天化日之下夸夸其谈。
那就更别说有人喜欢自拍自嗨后,还上传到网上骗流量吧!如果真的是自己玩,不如就用手机拍拍就好了,何必还颇费周折地爬到旅店的屋顶,去挖个洞,按个摄像头来拍摄啊!估计真的这么多,不知道要浪费多少时间!
因此,可以说这种情况只能是偷拍的,在住酒店的人不知情的情况下,有人故意提前安装上摄像头,等住进酒店时就顺其自然地记录下这些隐私行为,然后再上传到一些成人网站上,以此赢得点击量和观看率,获得更多的利益。
另外,更重要的是我们也许在网上看到了这些不雅的视频,但是,令我们乍舌的是很多酒店里会不会都安装了这样的隐形摄像头,那我们住店人的隐私还能够得到保障吗?岂不是全部都早已暴露无遗了。
如果黑客做搜索引擎,不遵守robots协议,那世界不是完了?
robots协议就好比你到一个景点旅游,在这个景点有一部分写着此景点暂停开放,这样游客就不能进这样的景点了。类比过来,这个暂停开放的标志就是robots协议,这个游客就是指搜索引擎。
如果有小偷或者坏蛋,或者不遵守规则的人,无视暂停开放的警告,硬闯暂停开放的景点,这也是可以进去的。要是黑客做搜索引擎,不遵守robots协议是很正常的。,但世界不会完蛋。
Robots协议就是对搜索引擎的警告,不允许搜索引擎进去,但是普通的用户打开一个网站是可以看到不允许搜索引擎看的内容的,比如淘宝全站robots,但是普通用户都可以自由进入淘宝,还可以在淘宝买自己喜欢的东西,但是搜索引擎是一点也看不到的。
Robots协议是是对搜索引擎的禁止,有人说robots可以保护私人秘密,这完全扯淡,你既然把你的东西放在网站上,就是想要有人看,有人浏览,除非你如淘宝一样,不需要搜索引擎带来的流量,靠“淘宝”这个品牌效应就可以做到最大。如果说网站的用户信息怕泄露给搜索引擎,这也是扯淡,别把搜索引擎当作神,它只是个小孩而已。搜索引擎是以网页的形式抓取,除非你把用户信息做成网页放到网站上,否则不会的。
百度说360违反了robots协议,就是因为360抓取了百度的网页内容,百度robots掉了360,不允许360抓取百度的内容,但是360还是抓取了,我想这就是全部的内容,所谓的用户体验、安全之类的全都是废话和借口,是找不到话说时的什么话都敢说。
robots就是一个协议,可以遵守也可以不遵守,就像暂停开放一样,当来了个政府大员想进去还能暂停开放吗?就像在公交车给老人让座一样,你可以让座,也可以不让座,让座是一种美德,你可以要,也可以不要,这跟你是好是坏没有关系。但是社会压力和政府强迫你让座,那他们是违反你自己的意愿,他们都是无耻的,他们比道德败坏者还要道德败坏。
黑客如何强行看到别人的视频URL,然后把它弄到自己的网站或者空间里放??????急切!!!!
用这个软件进行探测,我正用,非常的好用,Project URL Snooper V1.1 Beta 1 汉化注册版,方法如下:1. 安装软件Project URL Snooper,不用我唠叨怎么安装了吧。2. Project URL Snooper安装有点与众不同,就是你必须再安装一个侦测驱动(一般都同时打包捆绑在一起),位置在开始--程序――Project URL Snooper ――WinPcap 2.3 驱动安装,到此才算安装好了Project URL Snooper。3.安装完成后重新启动一下电脑(如果不重新启动计算机,不能进行下一步设置)。4.启动Project URL Snooper,点击“常规选项”配置适配器(网卡)。很多朋友在安装使用Project URL Snooper时候,就是因为不知如何配置适配器而中止了嗅探工具的使用。我第一次用Project URL Snooper,在此处也摸索了好长时间。就是下图中的“网络侦测选项”下的适配器选项,点开后边的下拉选项,选中你上网的那个网卡信息,如果你不知道就反复试试吧(有一点必须说的就是你用双网卡的时候,要注意选择你用的是哪块网卡上的网)。5.配置完成后,我们开始试着嗅探一个在线电影地址。打开某个媒体网站,在点击播放电影之前,打开运行URLSnooper,并点击“侦测网络”,URLSnooper在播放器与媒体软件连接播放的时候侦测到电影的网路地址。特别注意的是,先点击“侦测网络”然后点击播放电影,如果先播放电影后侦测,你就侦测不出电影地址了。6.随着电影的播放,在Project URL Snooper下会出现各种连接信息,我们需要找的就是电影地址信息(一般流媒体协议无非就是mms、rtsp或者http,当然例外的还有pnm)。7. 找到电影真实路径,右键复制或者按Ctrl+c(复制)。呵呵~~,下面怎么做不用具体说了吧?把电影地址粘贴到影音传送带下载吧。
黑客是什么,能做什么
什么是黑客?
Jargon File中对“黑客”一词给出了很多个定义,大部分定义都涉及高超的编程技术,强烈的解决问题和克服限制的欲望。如果你想知道如何成为一名黑客,那么好,只有两方面是重要的。(态度和技术)
长久以来,存在一个专家级程序员和网络高手的共享文化社群,其历史可以追溯到几十年前第一台分时共享的小型机和最早的ARPAnet实验时期。 这个文化的参与者们创造了“黑客”这个词。 黑客们建起了Internet。黑客们使Unix操作系统成为今天这个样子。黑客们搭起了Usenet。黑客们让WWW正常运转。如果你是这个文化的一部分,如果你已经为它作了些贡献,而且圈内的其他人也知道你是谁并称你为一个黑客,那么你就是一名黑客。
黑客精神并不仅仅局限于软件黑客文化圈中。有些人同样以黑客态度对待其它事情如电子和音乐---事实上,你可以在任何较高级别的科学和艺术中发现它。软件黑客们识别出这些在其他领域同类并把他们也称作黑客---有人宣称黑客实际上是独立于他们工作领域的。 但在本文中,我们将注意力集中在软件黑客的技术和态度,以及发明了“黑客”一词的哪个共享文化传统之上。
另外还有一群人,他们大声嚷嚷着自己是黑客,实际上他们却不是。他们是一些蓄意破坏计算机和电话系统的人(多数是青春期的少年)。真正的黑客把这些人叫做“骇客”(cracker),并不屑与之为伍。多数真正的黑客认为骇客们是些不负责任的懒家伙,还没什么大本事。专门以破坏别人安全为目的的行为并不能使你成为一名黑客, 正如拿根铁丝能打开汽车并不能使你成为一个汽车工程师。不幸的是,很多记者和作家往往错把“骇客”当成黑客;这种做法激怒真正的黑客。
根本的区别是:黑客们建设,而骇客们破坏。
如果你想成为一名黑客,继续读下去。如果你想做一个骇客,去读 alt.2600 新闻组,并在发现你并不像自己想象的那么聪明的时候去坐5到10次监狱。 关于骇客,我只想说这么多。
---黑客的态度
黑客们解决问题,建设事物,信仰自由和双向的帮助,人人为我, 我为人人。
要想被认为是一名黑客,你的行为必须显示出你已经具备了这种态度。要想做的好象你具备这种态度,你就不得不真的具备这种态度。但是如果你想靠培养黑客态度在黑客文化中得到承认,那就大错特错了。因为成为具备这些特质的这种人对你自己非常重要,有助于你学习,并给你提供源源不断的活力。同所有有创造性的艺术一样,成为大师的最有效方法就是模仿大师的精神---不是仅从理智上,更要从感情上进行模仿。
So,如果你想做一名黑客,请重复以下事情直到你相信它们:
1 这世界充满待解决的迷人问题
做一名黑客有很多乐趣,但却是些要费很多气力方能得到的乐趣。 这些努力需要动力。成功的运动员从健壮体魄,挑战自我极限中汲取动力。同样,做黑客,你必须
要有从解决问题,磨练技术,锻炼智力中得到基本的热望。如果你还不是这类人又想做黑客,你就要设法成为这样的人。否则你会发现,你的黑客热情会被其他诱惑无情地吞噬掉---如金钱、性和社会上的虚名。
(同样你必须对你自己的学习能力建立信心---相信尽管你对某问题所知不多,但如果你一点一点地学习、试探,你最终会掌握并解决它。)
2. 一个问题不应该被解决两次
聪明的脑瓜是宝贵的,有限的资源。当这个世界还充满其他有待解决的有趣问题之时,他们不应该被浪费在重新发明轮子这些事情上。 作为一名黑客,你必须相信其他黑客的思考时间是宝贵的---因此共享信息,解决问题并发布结果给其他黑客几乎是一种道义,这样其他人就可以去解决新问题而不是重复地对付旧问题。
(你不必认为你一定要把你的发明创造公布出去,但这样做的黑客是赢得大家尊敬最多的人。卖些钱来给自己养家糊口,买房买车买计算机甚至发大财和黑客价值也是相容的,只要你别忘记你还是个黑客。)
3. 无聊和乏味的工作是罪恶
黑客们应该从来不会被愚蠢的重复性劳动所困扰,因为当这种事情发生时就意味着他们没有在做只有他们才能做的事情---解决新问题。这样的浪费伤害每一个人。因此,无聊和乏味的工作不仅仅是令人不舒服而已,它们是极大的犯罪。 要想做的象个黑客,你必须完全相信这点并尽可能多地将乏味的工作自动化,不仅为你自己,也为了其他人(尤其是其他黑客们)。
(对此有一个明显的例外。黑客们有时也做一些重复性的枯燥工作以进行“脑力休息”,或是为练熟了某个技巧,或是获得一些除此无法获得的经验。但这是他自己的选择---有脑子的人不应该被迫做无聊的活儿。)
4 自由就是好
黑客们是天生的反权威主义者。任何能向你发命令的人会迫使你停止解决令你着迷的问题,同时,按照权威的一般思路,他通常会给出一些极其愚昧的理由。因此,不论何时何地,任何权威,只要他压迫你或其他黑客,就要和他斗到底。
(这并非说任何权力都不必要。儿童需要监护,罪犯也要被看管起来。 如果服从命令得到某种东西比起用其他方式得到它更节约时间,黑客会同意接受某种形式的权威。但这是一个有限的、特意的交易;权力想要的那种个人服从不是你的给予,而是无条件的服从。)
权力喜爱审查和保密。他们不信任自愿的合作和信息共享---他们只喜欢由他们控制的合作。因此,要想做的象个黑客,你得对审查、保密,以及使用武力或欺骗去压迫人们的做法有一种本能的反感和敌意。
5. 态度不能替代能力
要做一名黑客,你必须培养起这些态度。但只具备这些态度并不能使你成为一名黑客,就象这并不能使你成为一个运动健将和摇滚明星一样。成为一名黑客需要花费智力,实践,奉献和辛苦。
因此,你必须学会不相信态度,并尊重各种各样的能力。黑客们不会为那些故意装模做样的人浪费时间,但他们却非常尊重能力---尤其是做黑客的能力,不过任何能力总归是好的。具备很少人才能掌握的技术方面的能力尤其为好,而具备那些涉及脑力、技巧和聚精会神的能力为最好。
如果你尊敬能力,你会享受提高自己能力的乐趣---辛苦的工作和奉献会变成一种高度娱乐而非贱役。 要想成为一名黑客,这一点非常重要。
基本黑客技术
黑客态度是重要的,但技术更加重要。态度无法替代技术,在你被别的黑客称为黑客之前,有一套基本的技术你必须掌握。 这套基本技术随着新技术的出现和老技术的过时也随时间在缓慢改变。例如,过去包括使用机器码编程,而知道最近才包括了HTML语言。但现在明显包括以下技术:
1 学习如何编程
这当然是最基本的黑客技术。如果你还不会任何计算机语言,我建议你从Python开始。它设计清晰,文档齐全,对初学者很合适。尽管是一门很好的初级语言,它不仅仅只是个玩具。它非常强大,灵活,也适合做大型项目。
但是记住,如果你只会一门语言,你将不会达到黑客所要求的技术水平,甚至也不能达到一个普通程序员的水平---你需要学会如何以一个通用的方法思考编程问题,独立于任何语言。要做一名真正的黑客,你需要学会如何在几天内通过一些手册,结合你现在所知,迅速掌握一门新语言。这意味着你应该学会几种不同的语言。
如果要做一些重要的编程,你将不得不学习C语言,Unix的核心语言。其他对黑客而言比较重要的语言包括Perl和LISP。 Perl很实用,值得一学;它被广泛用于活动网页和系统管理,因此即便你从不用Perl写程序,至少也应该能读懂它。 LISP 值得学习是因为当你最终掌握了它你会得到丰富的经验;这些经验使你在以后的日子里成为一个更好的程序员,即使你实际上可能很少使用LISP本身。
当然,实际上你最好四种都会。 (Python, C, Perl, and LISP). 除了是最重要的四种基本语言,它们还代表了四种非常不同的编程方法,每种都会让你受益非浅。
这里我无法完整地教会你如何编程---这是个复杂的活儿。但我可以告诉你,书本和课程也不能作到。几乎所有最好的黑客都是自学成材的。真正能起作用的就是去亲自读代码和写代码。
学习如何编程就象学习用自然语言写作一样。最好的做法是读一些大师的名著,试着自己写点东西,再读些,再写点,又读些,又写点....如此往复,直到你达到自己在范文中看到的简洁和力量。
过去找到好的代码去读是困难的,因为很少有大型程序的可用源代码能让新手练手。这种状况已经得到了很大的改善;现在有很多可用的开放源码软件,编程工具和操作系统(全都有黑客写成)。这使我们自然地来到第二个话题...
2 得到一个开放源码的Unix并学会使用、运行它
我假设你已经拥有了一台个人计算机或者有一个可用的( 今天的孩子们真幸福 :-) )。新手们最基本的一步就是得到一份Linux或BSD-Unix,安装在个人计算机上,并运行它。
当然,这世界上除了Unix还有其他操作系统。但它们都是以二进制形式发送的---你无法读到它的源码,更不可能修改它。尝试在DOS或Windows的机器上学习黑客技术,就象是在腿上绑了铁块去学跳舞。
除此之外,Unix还是Internet的操作系统。你可以不知道Unix而学会用Internet,但不懂它你就无法成为一名Internet黑客。因为这个原因,今天的黑客文化在很大程度上是以Unix为中心的。(这点并不总是真的,一些很早的黑客对此很不高兴,但Unix和Internet之间的共生关系已是如此之强,甚至连微软也无可奈何)
So,装一个Unix---我个人喜欢Linux,不过也有其他选择。(你也可以在同一台机器上同时运行DOS,Windows和Linux)学会它。运行它。用它跟Internet对话。读它的代码。试着去修改他。你会得到比微软操作系统上好的多的编程工具(包括C,Lisp, Python, and Perl),你会得到乐趣,并将学到比你想象的更多知识。
关于学习Unix的更多信息,请看 The Loginataka.
要得到Linux,请看: 哪里能得到 Linux.
3 学会如何使用WWW和写HTML
大多黑客文化建造的东西都在你看不见的地方发挥着作用,帮助工厂、办公室和大学正常运转,表面上很难看到它对他人的生活的影响。Web是一个大大的例外。即便政客也同意,这个巨大而耀眼的黑客玩具正在改变整个世界。单是这个原因(还有许多其它的), 你就需要学习如何掌握Web。
这并不是仅仅意味着如何使用浏览器(谁都会),而是要学会如何写HTML,Web的标记语言。如果你不会编程,写HTML会教你一些有助于学习的思考习惯。因此,先建起自己的主页。
但仅仅建一个主页也不能使你成为一名黑客。 Web里充满了各种网页。多数是无意义的,零信息量垃圾。
要想有价值,你的网页必须有内容---必须有趣或对其它黑客有用。这样,我们来到下一个话题....
黑客文化中的地位大教堂与集市”,解释了许多Linux和开放源码文化的运做原理。我还在它的续集“大教堂与集市”,解释了许多Linux和开放源码文化的运做原理。我还在它的续集“开拓智域”一文中有更直接的论述。