互联网好文搜藏: 11/2007

Eclipse快捷键[转贴]

本文档从Eclipse软件上整理，是列出了标准的快捷键，未列出Emacs快捷键。

转贴请注明作者和出处。

编辑

作用域功能快捷键

全局查找并替换 Ctrl+F

文本编辑器查找上一个 Ctrl+Shift+K

文本编辑器查找下一个 Ctrl+K

全局撤销 Ctrl+Z

全局复制 Ctrl+C

全局恢复上一个选择 Alt+Shift+↓

全局剪切 Ctrl+X

全局快速修正 Ctrl1+1

全局内容辅助 Alt+/

全局全部选中 Ctrl+A

全局删除 Delete

全局上下文信息 Alt+？

Alt+Shift+?

Ctrl+Shift+Space

Java编辑器显示工具提示描述 F2

Java编辑器选择封装元素 Alt+Shift+↑

Java编辑器选择上一个元素 Alt+Shift+←

Java编辑器选择下一个元素 Alt+Shift+→

文本编辑器增量查找 Ctrl+J

文本编辑器增量逆向查找 Ctrl+Shift+J

全局粘贴 Ctrl+V

全局重做 Ctrl+Y

查看

作用域功能快捷键

全局放大 Ctrl+=

全局缩小 Ctrl+-

窗口

作用域功能快捷键

全局激活编辑器 F12

全局切换编辑器 Ctrl+Shift+W

全局上一个编辑器 Ctrl+Shift+F6

全局上一个视图 Ctrl+Shift+F7

全局上一个透视图 Ctrl+Shift+F8

全局下一个编辑器 Ctrl+F6

全局下一个视图 Ctrl+F7

全局下一个透视图 Ctrl+F8

文本编辑器显示标尺上下文菜单 Ctrl+W

全局显示视图菜单 Ctrl+F10

全局显示系统菜单 Alt+-

导航

作用域功能快捷键

Java编辑器打开结构 Ctrl+F3

全局打开类型 Ctrl+Shift+T

全局打开类型层次结构 F4

全局打开声明 F3

全局打开外部javadoc Shift+F2

全局打开资源 Ctrl+Shift+R

全局后退历史记录 Alt+←

全局前进历史记录 Alt+→

全局上一个 Ctrl+,

全局下一个 Ctrl+.

Java编辑器显示大纲 Ctrl+O

全局在层次结构中打开类型 Ctrl+Shift+H

全局转至匹配的括号 Ctrl+Shift+P

全局转至上一个编辑位置 Ctrl+Q

Java编辑器转至上一个成员 Ctrl+Shift+↑

Java编辑器转至下一个成员 Ctrl+Shift+↓

文本编辑器转至行 Ctrl+L

搜索

作用域功能快捷键

全局出现在文件中 Ctrl+Shift+U

全局打开搜索对话框 Ctrl+H

全局工作区中的声明 Ctrl+G

全局工作区中的引用 Ctrl+Shift+G

文本编辑

作用域功能快捷键

文本编辑器改写切换 Insert

文本编辑器上滚行 Ctrl+↑

文本编辑器下滚行 Ctrl+↓

文件

作用域功能快捷键

全局保存 Ctrl+X

Ctrl+S

全局打印 Ctrl+P

全局关闭 Ctrl+F4

全局全部保存 Ctrl+Shift+S

全局全部关闭 Ctrl+Shift+F4

全局属性 Alt+Enter

全局新建 Ctrl+N

项目

作用域功能快捷键

全局全部构建 Ctrl+B

源代码

作用域功能快捷键

Java编辑器格式化 Ctrl+Shift+F

Java编辑器取消注释 Ctrl+\

Java编辑器注释 Ctrl+/

Java编辑器添加导入 Ctrl+Shift+M

Java编辑器组织导入 Ctrl+Shift+O

Java编辑器使用try/catch块来包围未设置，太常用了，所以在这里列出,建议自己设置。

也可以使用Ctrl+1自动修正。

运行

作用域功能快捷键

全局单步返回 F7

全局单步跳过 F6

全局单步跳入 F5

全局单步跳入选择 Ctrl+F5

全局调试上次启动 F11

全局继续 F8

全局使用过滤器单步执行 Shift+F5

全局添加/去除断点 Ctrl+Shift+B

全局显示 Ctrl+Shift+D

全局运行上次启动 Ctrl+F11

全局运行至行 Ctrl+R

全局执行 Ctrl+U

重构

作用域功能快捷键

全局撤销重构 Alt+Shift+Z

全局抽取方法 Alt+Shift+M

全局抽取局部变量 Alt+Shift+L

全局内联 Alt+Shift+I

全局移动 Alt+Shift+V

全局重命名 Alt+Shift+R

全局重做 Alt+Shift+Y

1．网络搜索引擎的现状

搜索引擎在互联网的重要地位由来已久。Yahoo 作为门户网站奇迹般崛起所依靠的正是搜索引擎，Google 也以搜索引擎的技术创新、竞价排名和专业风格创造了新的奇迹。在国内，百度也在很短的时间里凭借搜索引擎取得很大成功。

搜索引擎技术及业务模式的持续创新，不仅为互联网注入了活力，而且其自身的价值正被重新审视和评估。互联网的发展使得信息短缺的问题被信息泛滥所取代，世界也已从信息时代走进信息经济时代，这两者的区别在于，前者强调信息本身的价值，只要解决信息资源短缺就会带来价值的提升；后者认为信息并不稀缺，只有通过对信息的甄别、加工提纯和挖掘才能带来价值的提升。

据中国国家互联网中心（CNNIC）2005年1月发布的第15次互联网发展统计报告^[[1]]，我国的网络用户有9400万人，比2004年6月发布的14次报告又增加了700万。在用户经营使用的网络服务中，搜索引擎仅次于电子邮箱排在第2位。有98.5%的用户上网最主要的是获取信息，通过搜索引擎获取信息的占70.7%，搜索引擎成为未知状态下发现有效信息的最有效方式。

2．网络搜索引擎的工作原理

搜索引擎的原理，可以看作三步：

a) 从互联网上抓取网页；

b) 建立索引数据库；

c) 在索引数据库中搜索排序。

1. 从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

2. 建立索引数据库

由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

3. 在索引数据库中搜索排序

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

3．网络搜索引擎的评价指标

评价搜索引擎的主要指标有查全率、查准率、响应时间、覆盖范围、用户使用方便性等等。

1．查全率（Recall）

查全率又叫召回率，是指检索出的相关文档占全部相关文档的比率。即用户通过搜索引擎所获取的有用信息与整个Internet中相关信息的比率。

2．查准率（Precision）

查准率是指获取的相关文档与获取文档的比率。即用户通过搜索引擎所获取的真正是用户需要的信息占获取信息的比率。搜索引擎的查准率是个复杂的概念，一方面表示搜索引擎对搜索结果的排序能力，另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。

3．响应时间（Response Time）

响应时间是指用户发出查询请求后到看到查询结果的这段时间。

4．覆盖范围（Coverage）

覆盖范围是指搜索引擎索引的Web页面占整个Internet中页面的比例。

5．用户方便性（Convenience）

用户方便性包括查询接口是否直观、易于使用、查询语法是否丰富，显示结果是否易于查看等。

4．网络搜索引擎的主要技术

网络搜索引擎做为信息检索系统的一个分支，理所当然的涉及到信息检索方面的技术，同时它做为一个独立、成熟的领域也有自己的技术空间：

1．目录检索和全文检索

传统的搜索引擎一般使用两种技术来实现信息检索：

一是使用网站分类技术实现目录检索，即把网站进行树状的归类，登陆的网站属于至少一个类别，对每个站点都有简略的描述。Yahoo采用了这种方法。为了分类科学准确，需要有一支各科人才组成的维护队伍。
二是使用全文检索技术。全文检索技术处理的对象是文本，它能够对大量文档建立由字（词）到文档的倒排索引，在此基础上，用户使用关键词来对文档进行查询时，系统将给用户返回该关键词的网页。

2．索引文件结构

全文检索的两个关键技术是索引和检索。检索又是基于所建立的索引结构进行的。索引文件主要分为正向索引和倒排索引。正向索引是基于文档的，每一个文档对应一个索引文件，其中记录着这个文档中出现的词。倒排索引是基于词汇表的，每一个特征词对应一个倒排索引，其中记录着所有出现过这个词的文档。目前，技术比较成熟、也是公认效率较高的索引存储结构是倒排文件。需要明确的是，中文的构词方式、句法、语法都与英文有很大区别，因此，不同于英文全文检索的索引方法，中文全文检索中主要的建立索引方法是字索引和词索引。字索引保证了高的召回率，不会出现漏查错误，但是会出现多查和误查。检索结果中会出现不少与检索意图无关的条目。另外，基于字索引的全文检索的检索效率也比较低。而词索引保证了较高的查准率和检索效率，但是由于中文分词能力的局限，导致基于词索引的全文检索必定会存在漏检情况。另外，对于未登陆词，词索引显得力不从心。现存比较实用的中文信息检索系统一般都结合使用了字词混合索引，或者扩展的词索引，来保证召回率和查准率。

网络搜索引擎由于各自的策略不同，在选择索引对象的内容时也有不同。有些搜索引擎对于信息库中的页面建立全文索引，有些只建立摘要部分，或者每个段落前面部分的索引，还有些搜索引擎（如Google）建立索引的时候，同时考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要；放在锚链中的信息往往是它所指向页面的信息的概括，所以用它来作为它所指向的页面的重要信息。Google，Infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构。利用这些结果信息可以提高页面相关度判别时候的准确度。

3．数据源文件的分布策略

搜索引擎的数据源文件主要包括索引文件和原文档。目前，数据源文件的分布策略主要有集中存放和分布式存放。文献[2]指出Google就是采用了集群的方式集中存放数据源文件，事实上，几乎所有的商业搜索引擎都采用集中存放的方式，这是因为分布式存放策略有一个硬伤，就是搜索请求从一个端点传送到另外一个端点消耗的时间让用户难以忍受。但是，随着互联网上信息的急剧膨胀，改进后的分布式策略是最终的解决方案。

4．索引大文件的存放策略

倒排文件是一个大文件，这是因为倒排文件中存放的记录（Hit）表示的是文档中出现本特征词的状况。目前的商业搜索引擎的文档集中的文档数量非常之大，因此倒排文件的记录数也会很大，最终导致倒排文件的尺寸非常大。

对于大文件首先考虑的是压缩，像是Google存放的索引文件就是经过压缩的。好的压缩算法同时要求压缩比尽可能高、查找压缩文件容易、解压缩时间短。即使压缩之后的文件仍然大到不能以独立的文件形式存放，目前有两种分离大文件为多个小文件的策略：

一是基于文档集的分离。主要是将文档集分成有限个子集，对于每一个子集建立各自的索引文件，检索过程就演变为对多个文档子集的检索，最后做的合并处理。

一是基于索引文件的分离。即是将索引大文件分为有限个子文件，并设计一张表记录这种分离情况，当要检索这个索引文件时就查找这张表，根据表的记录去查找每一个子文件。文献[3]指出Google将索引大文件分离为若干个小文件，每一个小文件都以独立的linux文件存放，通过linux系统管理这些小文件，这正是这个策略的一种表现。

5．排序算法

各种搜索引擎的技术改进和优化，都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法，来提升客户的满意度。目前，不同搜索引擎基于不同的搜索策略设计有多种不同的排序算法，以Google为例，它采用很多种排序算法支持搜索结果，其中最典型的代表有PageRank和HillTop，这两种都属于超链接分析技术。

5．语义搜索的兴起

目前实用化的信息检索系统主要基于人工分类目录或关键词匹配。前者对海量信息资源的揭示的效率不高、深度有限；后者在信息的语义和语用的揭示上有局限性。信息检索系统在智能处理能力上的缺乏，导致这些工具远远不能满足用户的需求。如何解决好诸如信息组织、知识表示、机器理解与人机交互等问题，对于提高信息利用的效率，是非常重要和迫切的。近年来，语义网的提出为解决这些问题提供了锲机，由于语义网中的资源被结构化，能被计算机所理解和识别，这样提供了改进传统搜索技术的机会。语义检索的目的是通过从语义网上获取的数据增强并改进传统的搜索结果(基于信息检索技术)。它实现了用户检索请求的本体化，整个搜索引擎像领域专家一样，不仅给出查询结果，还给出了与检索请求相关的资源，大大提高检索的精度和覆盖率；实现了本体层次的检索，突破了关键词检索局限于形式的固有缺陷。它的出现提高了用户的满意度，减少了不相关的返回结果，提高了检索的精度和覆盖率。

最初人们通过代表语义的HTML标签来改造网页，主要有GDA系统和
SHOE(SimpleHTMLOntologyExtensions)系统等。但这些系统的不足是仅能处理经过HTML标签改造的网页。

XML是非常有前途的语言，因为它将网页的内容、结构和描述分离，并且非常适合知识的描述。但是XML通过它的句法结构仅能描述一些语义属性。

语义网络的建立使得以语义为基础的搜索引擎同时可以建立起来。在语义搜索引擎中，每一个查询都在一些本体的上下文范围内执行，来自本体的一些指南可以提高检索的准确性。在语义检索中，使用的是概念匹配，即自动抽取文档的概念，加以标引，用户在系统的辅助下选用合适的词语表达自己的信息需求，然后在两者之间执行概念匹配，即匹配在语义上相同、相近、相包含的词语。

6．语义搜索当前的应用

当前基于ontology 的语义检索系统已经得到了广泛的关注和应用，出现了一系列优秀的应用系统，其中典型的有两个：SWOOGLE――语义网中的基于蜘蛛网的检索系统，系统从每个搜索到的文本中抽取本体，根据本体之间的相关度来比较文本之间的关系；TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning)，该系统根据查找的本体在网页上爬行，决定哪种网页最满足需求。特别的，TUCUXI 判断文档的相关性是同Map of Meanings 比较用户所查询的相关本体。Map of Meanings 语义丰富，用来对资源文本的表达。TUCUXI 采用了MOMIS 公用字典来表征用户查询的本体。在语义网中,基于Ontology 的语义检索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。

7．总结

语义搜索引擎是未来搜索引擎发展的方向，它的发展主要受限于语义web的发展以及自然语言处理技术。语义搜索引擎设计的最终目标是让计算机具有人的智能，以解决问题的形式返回给用户。语义搜索引擎设计的当前目标是让计算机返回的结果更有针对性、准确性。

【搜索引擎技术普及 - 5]信息检索的一些初步知识 --来源：sogoulab

最近吧上有不少朋友讨论搜索引擎的结果相关性排序问题，所以这次知识普及的重点想放在与之相关的信息检索知识上

以上是一个信息检索系统的基本架构和运行示意图，引自信息检索一本很好的入门教科书《modern information retrieval》（现代信息检索），现在貌似机械工业出版社有了中文版，大家有兴趣可以买来或者借来看看。

传统意义的文本信息检索系统是由文本处理、内容索引、查询处理、用户界面等模块组成的。

从数据处理对象的角度分析，信息检索系统面对的处理对象则包括文本语料库与检索用户两方面的内容。具体的运行流程上，系统将语料库中的文本经过取词根（英文）、分词（中文）、去除停用词等操作后输入进索引模块，索引模块以词项（term）为中心组织倒排索引（inverted index），从而完成系统准备工作。用户进行检索时，首先通过用户界面输入其查询需求（query），系统通过查询模块在倒排索引中定位相关文档集合，再依据相关文档与查询需求的相似度对相关文档进行排序（ranking），并通过用户界面反馈给用户检索结果。

检索系统中，使用何种模型进行查询需求与文档的相似度计算是关键性的研究问题，信息检索研究中的模型研究，大多是针对这类相似度计算模型而进行的。从20世纪60年代中期以来，人们提出了大量的相似度评价模型。从最初的为一些较小的和较为结构化的文档所设计的特殊模型（如文献记录，包括题目、作者和主题码等），发展到现在具有较强理论基础和能处理多种文档格式的模型。总的来说，当前应用比较广泛的检索模型有如下三种：

1．布尔模型(Boolean Model)。布尔模型又称精确匹配模型，是许多商业信息检索系统尤其是早期联机信息检索系统的理论基础。在布尔模型中，文档和查询都被表示为索引项的集合。其优势在于：实现简单，计算复杂度低，支持结构化查询等，因此在计算机硬件水平较低的早期信息检索系统应用中得到了青睐。目前，不少图书馆信息检索系统还是基于布尔模型进行搭建的。

2．统计模型(Statistical Model)，统计模型基于文本统计信息（如词项频度统计、文档频度统计等）和统计自然语言处理方法进行文本相似度计算。统计模型从布尔模型的"精确匹配"发展到"最优匹配"，可以说真正把信息检索与传统的数据搜索区别开来。而具体来说，其又包括向量空间模型(Vector Space Model)和概率模型(Probabilistic Model)两类。向量空间模型把文档和查询表示成一个高维空间中的向量，用距离作为相似度的度量。而概率模型则把检索看作是文档表示和查询之间匹配成功的概率估计问题，使用概率理论做指导。统计模型是当前应用最广泛的检索模型，在从小规模纯文本信息检索系统到搜索引擎在内的各种检索系统中广泛应用。

3. 语言与知识模型(Linguistic and Knowledge-based Model)。与统计模型不同，基于语言和知识的检索模型试图考察查询背后的用户真实需求，从而更加准确的理解用户意图，获得更好的检索效果。目前较常用的做法是通过考察用户查询和相关文档之间的语言模型的相似程度，来进行文档相关度的计算，即计算按照文档的语言模型有多大可能性生成用户查询。语言和知识模型在本世纪初以来得到了较为广泛的应用，目前信息检索研究领域应用的较为广泛的Lemur/Indri系统，就是基于此模型进行内容相似度计算的。

以上我们对信息检索系统的整体运行流程和其中的相似度计算模型进行了简单介绍，总体而言，信息检索系统的架构设计自上个世纪五十年代信息检索问世以来没有经历过大的改动，而直到今天，这个架构即使在处理海量规模网络文本数据的问题上也是能够满足应用需求的。当前信息检索研究的重点，一方面在于利用自然语言处理方面的研究成果对检索相似度模型框架进行修正；另一方面则在于对检索系统的应用对象加以拓展，针对专门检索系统如网络信息检索系统、多媒体检索系统等开展研究和分析。

关于这部分内容的详细数学描述，有兴趣的读者可以参考http://www.scils.rutgers.edu/~aspoerri/InfoCrystal/InfoCrystal.htm，MIT毕业的Spoerri博士的一个开放项目。

Bash 实例，第 3 部分

2000 年 5 月 01 日

Daniel Robbins 在其最后一篇 Bash实例文章中详细讲述了 Gentoo Linux ebuild 系统，这个展示 bash能力的极佳范例。循序渐进地，他为您展示如何实现 ebuild系统，并触及很多方便的 bash技术和设计策略。在本文末尾，您将很好地掌握制造完全基于 bash的应用所涉及的技术，并开始为自己的自动构建系统编码。

进入 ebuild 系统

我真是一直期待着这第三篇、也是最后一篇 Bash 实例文章，因为既然已经在第 1 篇和第 2 篇中讲述了 bash 编程基础，就可以集中讲述象 bash 应用开发和程序设计这样更高级的主题。在本文中，将通过我花了许多时间来编码和细化的项目，Gentoo Linux ebuild 系统，来给您大量实际的、现实世界的 bash 开发经验。

我是 Gentoo Linux（目前还是 beta 版的下一代 Linux OS）的首席设计师。我的主要责任之一就是确保所有二进制包（类似于 RPM）都正确创建并一起使用。正如您可能知道的，标准 Linux 系统不是由一棵统一的源树组成（象 BSD），而实际上是由超过 25 个协同工作的核心包组成。这其中包括：

包	描述
linux	实际内核
util-linux	与 Linux 相关的杂项程序集合
e2fsprogs	与 ext2 文件系统相关的实用程序集合
glibc	GNU C 库

每个包都位于各自的 tar 压缩包中，并由不同的独立开发人员或开发小组维护。要创建一个发行版，必须对每个包分别进行下载、编译和打包处理。每次要修复、升级或改进包时，都必须重复编译和打包步骤（并且，包确实更新得很快）。为了帮助消除创建和更新包所涉及的重复步骤，我创建了 ebuild 系统，该系统几乎全用 bash 编写。为了增加您的 bash 知识，我将循序渐进地为您演示如何实现该 ebuild 系统的解包和编译部分。在解释每一步时，还将讨论为什么要作出某些设计决定。在本文末尾，您不仅将极好地掌握大型 bash 编程项目，还实现了完整自动构建系统的很大一部分。

运算符	描述	示例
文件比较运算符
-e filename	如果 filename存在，则为真	[ -e /var/log/syslog ]
-d filename	如果 filename为目录，则为真	[ -d /tmp/mydir ]
-f filename	如果 filename为常规文件，则为真	[ -f /usr/bin/grep ]
-L filename	如果 filename为符号链接，则为真	[ -L /usr/bin/grep ]
-r filename	如果 filename可读，则为真	[ -r /var/log/syslog ]
-w filename	如果 filename可写，则为真	[ -w /var/mytmp.txt ]
-x filename	如果 filename可执行，则为真	[ -L /usr/bin/grep ]
filename1-nt filename2	如果 filename1比 filename2新，则为真	[ /tmp/install/etc/services -nt /etc/services ]
filename1-ot filename2	如果 filename1比 filename2旧，则为真	[ /boot/bzImage -ot arch/i386/boot/bzImage ]
字符串比较运算符（请注意引号的使用，这是防止空格扰乱代码的好方法）
-z string	如果 string长度为零，则为真	[ -z "$myvar" ]
-n string	如果 string长度非零，则为真	[ -n "$myvar" ]
string1= string2	如果 string1与 string2相同，则为真	[ "$myvar" = "one two three" ]
string1!= string2	如果 string1与 string2不同，则为真	[ "$myvar" != "one two three" ]
算术比较运算符
num1-eq num2	等于	[ 3 -eq $mynum ]
num1-ne num2	不等于	[ 3 -ne $mynum ]
num1-lt num2	小于	[ 3 -lt $mynum ]
num1-le num2	小于或等于	[ 3 -le $mynum ]
num1-gt num2	大于	[ 3 -gt $mynum ]
num1-ge num2	大于或等于	[ 3 -ge $mynum ]

Eclipse快捷键[转贴]

语义搜索引擎综述(zhuan)

1．网络搜索引擎的现状

2．网络搜索引擎的工作原理

3．网络搜索引擎的评价指标

4．网络搜索引擎的主要技术

5．语义搜索的兴起

6．语义搜索当前的应用

7．总结

【搜索引擎技术普及 - 5]信息检索的一些初步知识 --来源：sogoulab

Bash 实例，第 3 部分

Bash 实例，第 2 部分