接触Elasticsearch

这是Web搜索这门选修课的第二个作业,将之前爬虫爬下来的数据插入Elasticsearch建立索引。在这个过程中算是对Elasticsearch和Kibana有了初步的认识,与es交互使用的是Python 的api(因为助教给的样例就是用Python。。。)。现在回过头看感觉这个作业其实并没什么任务量,但还是简要记录一下,也算记录生活吧。

READ MORE

python 爬虫小记

前两三天赶了一下web搜索的小作业,算是入门了爬虫,简要记录一些知识以便日后迅速回忆。接下来也会慢慢补充。


·Chrome浏览器可直接通过about:version来看一些信息如user-agent,这是种特殊协议,叫about协议。不同浏览器具体支持的程度不太一样,比如火狐就没有about:version,那就用开发者工具看请求头。

READ MORE

集成学习(emsemble learning)-“好而不同”

介绍

集成学习通过构建并结合多个学习器来完成任务。一般先产生一组个体学习器(individual learner),再用一些策略把它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生。

集成中若全是同种类型的个体学习器(如全是神经网络),则称为同质的( homogeneous ),否则称为异质的( heterogenous )。

READ MORE

Linux的文件权限与目录配置

用户与用户组

Linux是个多用户、多任务的系统,可能常常会有多人同时使用这台主机来进行工作,为了隐私及安全等考虑,有了“文件所有者”和“权限”的概念。在linux里,任何一个文件都具有针对 User(即文件所有者),Group(即该Group里的所有用户)及Others 3种身份的权限。
区别于一般用户,“root”不受Group的限制,可以访问所有文件。

READ MORE

JavaScript 吐槽

这学期在学Java网络编程时学了一些JavaScript的基本语法,很打击我编程的兴趣……

因为平常编程时都有IDE提示错误,所以对写JavaScript时每次都得运行时才能发现错误很不习惯(通常是一些很弱智的错误)。即使朋友lty告诉我用console.log()输出的方法和查看网页的developer tools的console来排查问题,我还是有些心累。

READ MORE