第一次看这本书时,很吃惊的,书上的内容有点新颖,全书延续了普通搜索引擎书籍的风格,但是本书中加入了云计算这一很新的东西,或这样说最近几年比较热的东东。就最近几年的话,云计算比较的火,当然这也是我现在的研究方向的一部分,就现在感觉而言,总结一下我看过的刘鹏的云计算这本书,云计算的开始第一章讲述的就是云计算的起源、发展什么的,也就是云计算是怎么发展起来的,为什么会有云计算,云计算相比于其他的计算有什么用的优势,在哪些方面还需要改进。它他现在的模式是怎么样的,哪些部分已经比较成熟,哪些地方才刚刚开始,一般的书籍的第一章都是绪论,就是讲述研究内容的起源,发展,怎样引入内容进行详细的讲解,这个研究的方向你是怎么想到的,和其他人的研究相比,你的研究有什么值得关注的地方,和别人的不一样的地方在哪里,或者应该这样说,你的方法或是想法在实际中哪怕是理论上对比下来的优势是什么。意义一定要大,我很欣赏我导师的那句话,想法付诸于实际后的意义大不大,一定要大,然后你就有动力继续研究下去,并且把握好大的方向,接下来就是你想怎么去完成这方面的研究,采用什么样的方法去把研究完成,采用什么样的方法去具体搞好自己的研究。这些东西都是需要我们去考虑的,说实话写总结不是很好写,自己如果什么都不看的话,是没什么话拿来写的。平时多积累一点东西以后写起论文来还是有很大的好处的。下面言归正传,讲述一下本书的主要内容,只是自己的感悟和体会,也只是浅谈而已很多深入的东西对于入门者而言都是很吃力的尽量的讲述的详细一点,说实话本浅谈没什么较新的东东。可以当做是我课余时间的消遣或是无聊时候的慰藉,心得体会说不上,只是个人的发发牢骚。如有什么地方讲述的不到位的话,请提出来哦,磊磊会改正滴。
这本书全文12章,其中有一章好像是第七章讲的是云计算的,时间过得太久了忘记那本书上的章节介绍了,抱歉。我主要在研究垂直搜索引擎相关的云计算的技术应用,主要还是改写他人的搜索引擎代码,适应社会上的实际用户的需求,使得我们的生活变得越来越高效、便捷,这个意义说的有点大哈,但是也只有这样说才觉得自己的任务或是责任很大。目前自己的想法是这样的,在别人搜索引擎的基础之上改进一些算法,在不同的领域上进行应用,达到应用的目的,垂直搜索引擎这一块研究的人还是蛮多的。其余的十一章都是重要的章节,首先讲一下第一章,讲的是搜索引擎及其技术架构。和一般的书籍差不多,开始的章节讲的大多是搜索引擎的发展,现状什么的,还有就是搜索引擎的介绍,什么是搜索引擎,搜索引擎的原理,所用到的技术,怎么样实现我们的查询,一般搜索引擎的分类,几种搜索引擎,根据什么来分的类,搜索引擎为什么很重要,没有搜索引擎我们的生活会变成什么样子,我们普通的老百姓每天的生活都离不开信息的检索,这个时候就是搜索引擎的表现机会。在搜索引擎中我们几乎能搜到我们想要的一切。现在社会发展的很快,几乎每天都在更新换代,不管是电脑还是信息,变化的很快,我们都快适应不上社会节奏的变换。搜索引擎从一开始发展到现在已经有三代了,第三代目前还是研究的重点,和我们用户很紧密的搜索引擎时代。也就是以我们用户为中心的时代,个性化的搜索引擎的研究也是很热门的项目。一般的垂直搜索引擎都追求最快、最全、最准。其实搜索引擎研究的东西无非是用户真正的需求是什么,我们应该怎么样来满足用户的需求。哪些信息是用户真正需要的,哪些信息是用户所依赖的。从第一代分析开始,最初的搜索引擎是基于文本的搜索引擎,第二代搜索引擎是基于链接分析的,整个搜索引擎的技术用到的很多,各方面的技术很多,还需要我们在后续的章节进行介绍。
这些东西都是经常提到的信息,在信息检索领域,更多的讲的是技术与理论的结合。很少说只是讲的理论部分,刘挺的那两本书讲的都非常好,但是我一开始看不懂,没办法,没什么基础肯定是看不懂的。关于搜索引擎的发展史,从第一代到第二代,和我们所希望出现的第三代搜索引擎,讲一下搜索引擎的三个目标,更快、更全、更准。这个就是我们现在的搜索引擎的目标。还有就是搜索引擎的三个核心的问题。用户真正需要什么样的信息、哪些信息是和用户的需要相关的,哪些信息是用户可以信赖的。关于搜索引擎的架构书上还有一张图,画的比较好,很直观的反映搜索引擎的工作原理以及技术使用情况。从第二章开始我们就来介绍网络爬虫。
关于网络爬虫,原理部分也就是怎么实现抓取网页的这个涉及到代码部分,目前看的不是很明白,理论部分的思想在本书上体现的也蛮多的,先是讲述了网络爬虫的工作原理,整个互联网的划分,接着是讲述的网络爬虫的类型,本书上分为三种类型,批量型、增量型、垂直型的网络爬虫,每种爬虫的活动范围或是作用的领域是不一样的,各自有自己的优势,也有自己的缺点,关键是怎么样才能发挥好自己的优势,放大自己的优势。其中还讲述了优秀的网络爬虫的几大特性,包括高性能、可扩展性、健壮性、友好性等四大特性。在互联网上面进行爬取的时候还涉及到协议的问题,每个网站都不希望很多的爬虫过来爬取信息,还有一部分信息是不能公开的,所以会设置一些协议,一般的网络爬虫都是会遵守这个协议的。在上个学期研究heritrix的时候发现很多的时候可以不用遵循网络爬虫的协议,当然这个因为是很多的网站并没有设置爬虫不能爬去的协议,如果还是再爬取的时候还是遵循的去寻找那个协议。爬取的效率就会受到影响。接下来就是网络爬虫的爬取策略,什么样的方法进行爬取是最高效的,什么样的领域采用什么样的策略。本书讲述了四大策略,第一和第二都是我们熟悉的策略,宽度或是广度优先的策略,在很多的书本上都会讲述到这一方面的内容。后面两种策略还是比较新的策略,大站优先的原则进行爬取,这个还是有原因的,一般大的网站都是权威性比较高的。还有一个是在线网页重要性计算策略,这个是动态进行的。和pagerank算法比较的相似,只是没有那么复杂而已。对于每个网页都给与相应的奖金,然后平均分配下去。这一部分的内容还需要进一步的分析和研究,不是一下子就能总结出来的,然后就是网页的更新的策略,本书上讲述了三种策略。对于这一部分内容兴趣不是很大,直接看看就行了,我不打算进行研究,这种策略也比较的不太常用。接下来是deepweb的部分,也叫做暗网抓取,一部分的网络爬虫的提交的申请中的组合查询还是比较有意思的,该领域的牛人束长波目前研究的就是这一方面的内容,很荣幸我们经常能在一起聊聊这方面的内容。有个小伙伴说实话真好,然后最后一部分就是网络爬虫的类型,分布式的爬虫最火一点,也就是现代社会的需求,现在的信息量越来越大,一般的爬虫真是没办法满足我们用户的需求。因为现在是大数据的时代。
最近几天看了很多的网络爬虫的论文,都是实现了的垂直搜索引擎的爬虫或是一般系统的网络爬虫,当然作为全文搜索引擎才能涉及到这一块的内容。首先网络爬虫从互联网上面把网页全部爬取下来后利用URL进行解析后放入索引库里面,建立索引,方便以后的用户查询。网络爬虫有很多的种类,每一种的爬虫方式都是不一样的,采用不同的方式的效率也是不相同的。在抽取url的时候涉及到队列的使用,所以现在自己感觉大学里所学习的那些知识很有用,没有经历过大学里认真的学习,到了现在的阶段肯定是适应不了的,大学里计算机专业学习的很多的专业课都是后续课程的延续,也是作为后续课程的基础来说的。搜索引擎的门槛高,只是因为涉及到的知识分布在不同的很多门课程中,感谢大学认真学习的自己。感谢自己当时身边不断鞭策自己的好朋友们。搜索引擎就涉及到很多的课程,比如人工智能、自然语言处理、神经网络学习、数据结构、数据库、计算机网络、操作系统等等主要的课程。对于网络爬虫来说也有一些很重的任务需要其来完成。我研究过的heritrix里面涉及到的很多东西,现在还不清楚,得花时间在上面进一步的研究。一开始配置环境的时候,累得我差点就放弃了,还好自己的毅力不错,这里有点小自信哈,不要见外哦,在网络爬虫收集完网页后,后面的工作才刚刚开始,后面有很多繁杂的事情要做,在能够和用户进行交互之前,大量的索引工作或是数据库的方面,这里的数据库不是传统意义上的数据库,而是我们建立的索引数据库,把索引保存在本地的索引数据库中,方便以后的查询。关于数据库中的数据有结构化的、半结构化的和非结构化的。传统意义上的数据库里面存储的都是结构化的数据。这里所说的工作就是比如重复网页的消除,网页作弊问题的预防和避免等类似的问题。里面涉及到很多的算法来保证我们的网页不会发生重复的现象。有个大师级的同学冯金波在研究重复网页的检测算法。
还有关于过期网页的处理和更新网页的更新的问题,越大的搜索引擎网站所要完成的工作越是多,像百度这样的公司里面涉及到的任务量不是人所能想象出来的。下面说一下爬虫的任务或是种类。爬虫分为三种类型,批量型的爬虫、增量型的爬虫、垂直型的爬虫。一般搜索引擎的使用都是分布式的爬虫,就是利用多个爬虫并行工作,这样的效率非常的高,不会浪费很多时间。现在所用到的爬虫都是很多线程一起工作的,这样的效率才是最高的,只是在网络上进行爬取活动时要考虑到网站服务器的承载力,不能在不允许的情况下进行活动。关于什么是优秀的爬虫,定义是这样的,首先肯定是高性能的,然后是可扩展性的,另外还有健壮性与友好性的结合,在网络爬虫这里还有一个问题就是友好性怎么体现出来,一般的爬虫在爬取网站的时候都会按照一定的协议完成爬取活动,不然假定某个网站白天比较的繁忙,爬虫就一定要选择晚上的某个时间去爬取该网站的信息,不能说是在访问量达到很大的时候去访问该网站,这样是很不友好的表现。Robots协议就是保证网络爬虫的爬取活动的规范性的,该网站的什么信息是可以被访问的,什么信息是不能被访问的。这些都是有很好的说明的。在桌面的搜索引擎方面就是写明了什么文件夹下的内容是可以被访问的,那些文件时禁止访问的。我们的或是我们设计的爬虫必须遵照这些规定来办事情。就和生活中我们做什么事情都是按照法律来办事情的。不能触犯法律。咱们的和谐社会就是要我们和谐嘛,对吧。
然后讲到的就是爬虫的爬取策略或是怎么样实现爬取的,简单的来说一下,主要是涉及到数据结构里面的深度优先或是宽度优先策略,一般用得比较多的是宽度优先策略,当然不同的搜索引擎使用的是不一样的策略,搜索引擎是分很多种类型的,有垂直搜索引擎、桌面搜索引擎、企业搜索引擎、元搜索引擎、全文搜索引擎、目录式搜索引擎等等,现实生活中还有好多的搜索引擎种类,对于不同应用的搜索引擎,我们的爬虫就要采取不一样的方法进行爬取。采集不一样的信息。当然好的搜索引擎应该是遵循用户的需求或是用户的要求,在和用户进行互动沟通的时候就可以了解到用户是怎么想的。最后要说的是网络爬虫的爬取一定要能够满足用户的需求,关键还有一点是抓取的网站的网页的重要性,不能抓取那些垃圾网页,没什么用的网页,或是不经常更新的网页,我们要按照用户的需求尽量抓取有用的或是很有价值的网页信息反馈给我们用户,在爬虫的性能这一块我们还是有许多可以提升的,在这个方面我觉得可以创新,当然说到创新是没那么容易的。
我看过一些的论文,很多在网络爬虫上面做文章,怎么样爬取更有效,或是更好,时间上,性能上,一般都是采取择中的方法,爬虫采取什么样的策略可以好好研究,然后就是爬虫本身利用什么样的技术或是方法进行工作也是可以研究的,不同的爬虫是采用不一样的策略,在什么算法的基础上进行爬取活动的。在爬取的时候怎么样避免一些非主要或是不重要网页的,用什么样的方法避免更好,也是有很多人进行研究的。我想在这一块也可以发表什么论文,只是目前我还没什么思路只是感觉里面的知识点好多,需要了解的东西也是很多的。一步步来完成,相信自己会实现的,日积月累,知识是越学越多的。接下来的是第三章,关于索引的章节,里面涉及到的知识就更加的多了,可以值得我们研究的也就非常多了。
索引是后续进行查询的基础,所以说索引在搜索引擎中是比较核心的技术,当然现在最著名的方法就是倒排索引,里面也涉及到一些基本概念,关于索引里面的东西,说到底倒排索引是一种重要的数据结构,我们计算机专业在大学里所学习到的很多专业基础课都是很有用的,一开始在大学里学习的时候可能感触不是很深,现在回想起来好像还真没有一门是学的浪费的,很感激大学时代的老师们,是你们教会了我很多的知识,也很幸运在大学时代很是用功的学习,便没有浪费时候。现在每天还是会很用功的去学习,越是涉及到这个领域越是发现现在所学习的知识很少,懂的知识也是比较的少,还有很多的知识需要我们不断的学习,来说说倒排文件中的单词词典,有三种类型,或者说是采用的是三种不同的结构,有哈希链的方式,树形结构,最后一个就是很出名的倒排表的使用。具体的细节就不说了,还的花上一定时间去好好的看书,一个人静下心来看书是很舒服的,现在我们很多的人都是比较的浮燥,本身这个社会就是比较的浮躁,没办法社会发展的很快,很多的计算机技术都是更新换代的很快,搜索引擎这个行业更是这样,技术上面更不上,什么都是假的。只能不断的学习才是王道。
当然我们研究生现在搞得是理论上的研究,很多人以为理论没什么意思,搞技术的才是很牛的,但是现实上是理论知识很重要,没有丰富的理论知识的储备,在技术上你是走不远的,研究生三年的理论基础打好后你可以做很多的事情,就像是在大学四年的基础之上,你可以进行相关的知识的自学,不需要老师来教你,很多的知识在网上都是有的,现在的互联网很是发达,什么问题网上问一下基本上都能够解决的,对于我们自学的人来说,网络资源更是非常需要的。大学就像是练武功,老师帮你把全身的筋脉都打通以后,自己能做的事情就很多了。什么自学,自己安排自己的计划或是自己约束自己的行为,什么时候该做什么事情,什么事情能做,自己现在按照主次关系该做什么,什么对自己是最有用的目前来说,那么就可以现在做,没人会说你什么,每周一个小目标,每月一个大目标,只有这样才能说是不浪费时间,也不会说是在实验室里面说是很迷茫,不会,只是会感觉到时间真的不太够用啊。平时做实验的时候那个时间过得真是他妈的快,一会就要吃中饭了,睡完午觉,刚刚做得很兴奋的时候,又要去吃晚饭了。
说实话很高兴能选择这样一个方向,我觉得比较的喜欢,虽然现在对于我来说只是起步,但是我相信自己能把这个方向搞好,在这个领域展现出自己的风采,相信自己也是很强的,便不能自己也看不起自己,当然人和人之间是没法比较的,有的人天生就是天才那没办法,对吧,我们这些普通人只能够通过自己的努力才能达到很多天才的起步,但是普通人有普通人的生活,我们也可以自己的目标。自己的梦想,认认真真的学习里面的更深层次的知识。多和一些牛人进行交谈,会有很多的体会与感悟的。这次参加的菁英学校的培训也许会有一定的收获的,感谢学校的培养,磊磊会更加的努力,不为自己,只为家族,没有爱好,只有目标。当然这本书还没有看到底,只是临时的总结一下,后续的知识点还要进一步的研究,期待磊磊的下次总结吧!!!很开心能安静的坐在实验室里,尽情的发挥自己的文化修养来抚慰一个个小小的目标,一点点,一滴滴,最后会是大海。
最新评论