转自: http://blog.sciencenet.cn/blog-453771-428323.html
Wikipedia(http://en.wikipedia.org/wiki/Main_Page)也就是维基百科是当前最有名的百科类网站,分门别类的以词条的方式详细介绍某个概念的历史、定义、发展和背景,大略来讲可以把它理解成为一本大词典。对于科研工作者而言,很多时候突然看到一个新的term,但是不明其意,或者理解它的含义,但不知道它属于哪个研究研究领域,和其他概念间有什么联系,这时wikipedia可以给你最好的介绍,并帮你在较短的时间内搭建起有关某个新领域学科的知识框架。当然有教材时,读书会学得更快,但很多新的研究方向早期都没有教材,更何况wikipedia包含的领域条目是如此之多之广。由于wikipedia多是由专家讨论编写,较普通搜索的介绍更具有权威性和可信性。最令人赞叹的是,wikipedia是免费的,向世界所有人无偿提供人类共同的知识宝库。
为什么要下载wikipedia?在线看不是挺好的么,而且下载的,没有图片(图片下载需要若干T),读起来乏味不少。可能下载有这些原因:对于知识的热爱、数据备份狂热症、对“局域网”无法访问wikipedia的担心(若干年前wikipedia就无法访问)、远离网络珍爱生命(上网总瞎转,浪费时间)但又舍不得网络的宝贵资源(如wikipedia)。好,言归正传,下面是使用方法:1. 依据http://en.wikipedia.org/wiki/Wikipedia:Database_download找到最新版wikipedia的下载地址,页面上说最新的完整版是2010年5月30日完成的一版,后面有更新的,据说未必完整(可似乎这个页面说明是很久以前的)。我们通过一个目录列表http://dumps.wikimedia.org/enwiki/看到所有英文的wiki数据库备份,以日期作为版本标识。本文选择http://dumps.wikimedia.org/enwiki/20101011/里面的,因为只需要下载一个文件且较新,比这个新的版本都需下多个文件。2. 我们仅需要下载包含Articles, templates, image descriptions, and primary meta-pages的一个链接pages-articles.xml.bz2(实际下载文件enwiki-20101011-pages-articles.xml.bz2,6.2
GB),其他和wikipedia的更新历史、讨论有关的,我们这里都不需要,下载页面上给出的MD5校验值为7a4805475bba1599933b3acd5150bd4d。3.同样的,中文的wikipedia的列表为http://dumps.wikimedia.org/zhwiki/,我们下载最新的http://dumps.wikimedia.org/zhwiki/20110322/页面里的链接pages-articles.xml.bz2(实际下载文件zhwiki-20110322-pages-articles.xml.bz2文件,497.8
MB),MD5值7c5f92b3465a3eb1ae9a769d0b39f5cb。英文wikipedia阅读器:BzReader4.下载阅读器bzReader(http://code.google.com/p/bzreader/页面左边BzReader.v1.0.13.msi),下载的wikipedia文件说白了就是一个巨型xml文件,bzReader读取该文件并建立其中的条目索引,以后每次查询term,就可以直接看到。需要注意的是,bzReader的运行需要.net
framework的支持(http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31,必须先安装.net framework 4(或低版本),然后再安装bzReader 1.0.13。5.启动bzReader,选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,然后bzReader就开始建立索引,这个过程非常漫长,可能长达几个小时,所以这件事最好晚上让计算机自己忙活。6.查询时,先启动bzReader,然后选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,这时就没有建立过程,可以直接使用了,在Search左边的框中输入词条,按回车键可以看到左边下边有个词条列表,单击选择个条目就可以阅览了。bzReader可以显示数学公式,但似乎表格无法正常显示,不知道谁有解决方法。另外,遗憾的是,对于中文等亚洲字体,bzReader似乎无法正常处理生成索引,因此中文wikipedia无法使用bzReader对付。中文wikipedia阅读器:WikiTaxi7.下载WikiTaxi(http://www.wikitaxi.org/delphi/doku.php/products/wikitaxi/index),绿色软件,解压之后即可使用。8.同bzReader的原理不一样,这个不是建立索引,而是重新编排生成一个新的.taxi文件,该文件可以脱离原始的.bz2文件使用。打开软件中的WikiTaxi_Importer.exe 引入刚下载好的中文维基zhwiki-20110322-pages-articles.xml.bz2,把它转化为.taxi文件,导出的文件名自己起。
转换很快,对于500多M的源文件,大概10分钟就搞顶了,然后出现了一个900多M的.taxi文件。9.启动WikiTaxi.exe,选择Options-->Open *.taxi database,选中刚生成的taxi文件就可以了。在上方Go左边输入需要查询的term,回车看看怎么样:)。两者的比较wikiTaxi的页面显示要比bzReader好很多,看起来更像源页面,但是其最大的致命点在于不支持数学公式显示,只能显示出一堆latex数学公式符号,而且由于不是生成索引文件,.taxi要比源文件还要大,对于英文的6.2G文件,俺就没有实验了,如果能解决数学公式问题,那以后就可以直接使用wikiTaxi了,毕竟显示好,并且绿色软件可以直接放到U盘里拿着到处走。附记:1. 在线wikipedia使用法之一:google: wiki term 或 wiki 词条2.博士生应该学会使用英文的wikipedia,前些时日好像募捐1M$,创始人反复征求,过了一阵就搞定了,可见很多人对wikipedia的信赖。3. 哪为大哥提供个好用的MD5检验工具,我下的没校检,但也成功建立索引了。愿更多的人越来越用好wikipedia!
http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD
http://www.ituring.com.cn/article/1188 这个说的也不错!
分享到:
相关推荐
中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用
维基百科中文离线包zim格式,wikipedia_zh_all_maxi_2020-05.zim,使用kiwi打开
wikipedia-client, 维基百科API的ruby 客户端 维基百科 允许你通过他们的API获取维基百科内容。 它 将alpha API,不是过时的query.php API类型Wikipedia API参考:http://en.wikipedia.org/w/api.php来自:h
网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
wikipedia-ios 是运行在 iOS 系统上的官方版维基百科客户端。 标签:wikipedia
iphone/itouch上的offline wikipedia (离线的维基百科), 这个是服务器版。 不用多说了。 安装和离线数据包制作参考: http://blog.csdn.net/davidullua
wikipedia-tools-for-google-spreadsheets, 用于Google电子表格—文档的维基百科工具 用于Google电子表格的维基百科工具Google电子表格 add-on makes working Wikipedia Wikipedia Wikipedia Wikipedia Wikipedia ...
wikipedia维基百科综述.ppt
wtf_wikipedia, wikipedia的维基百科标记解析器 然而,维基百科标记解析器 Kelly Kelly和许多贡献者把维基标记变成 JSON,这样获得的数据就变得更容易了。我不生气,对他们生气。解析wikiscript基本上是 np 。它的真...
http://zh.wikipedia.org/zh/Java
listen-to-wikipedia, 维基百科编辑中的实时生成音乐 听维基百科维基百科活动的实时可视化与巩固。由 LaPorte 和 Mahmoud Hashemi构建。听维基百科的灵感由 Maximillian 的laumeister BitListen 。我们用声音交换来...
infoboxer, 维基百科信息提取库 Infoboxer Infoboxer 是纯 ruby Wikipedia ( 和通用 MediaWiki ) 客户端和解析器,目标信息提取( 所以这个名字) 。它在以下任务中很有用:获取一篇文章( 第一标题前
理解维基百科词条链接网络的结构特征是深入而有效地应用维基百科的前提。基于2010年1月的数据, 从度分布、权分布、宏观结构特征等角度对维基百科词条链接网络的结构特征展开实证分析。相关结果与2006年之前的维基...
维基百科是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地。这个站点使用Wiki,这意味着任何人都可以编辑维基百科中的任何文章及条目。 维基百科中的所有文本以及大多数的图像和其他内容都是在...
已经做了 1、分词 2、去停用词 3、英文小写 4、词干提取 5、词形还原
教育精品资料
维基百科(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。分析了维基百科语料库的基本情况,...
黑暗主题保护眼睛,将维基百科主题改为黑色 对于那些不喜欢白色主题维基百科的人. 黑色Wikipedia主题通过将Wikipedia背景更改为深色背景来保护您的眼睛。 Wikipedia黑暗主题会自动为所有Wikipedia页面设置黑暗主题。...
Wikipedia on IPFS 将维基百科快照放在IPFS上并努力使其完全可读写,星际文件系统IPFS(InterPlanetary File System)是一个面向全球的、点对点的分布式版本文件系统,将所有具有相同文件系统的计算设备连接在一起。