北京时间7月29日消息,据国外媒体报道,维基百科创始人吉米·威尔斯(Jimmy Wales)本周五公布了其社区搜索引擎的最新进展。威尔斯此前宣布,将通过自己新创建的商业公司Wikia,打造一个全新的搜索引擎,向市场垄断者谷歌发起挑战。
威尔斯周五在一次软件开发者会议上表示,Wikia已经收购了一家名为“Grub”的公司,向推出搜索引擎的目标迈出了重要一步。Grub是一家“网络爬虫”(Web crawler)公司,未来的Wikia搜索引擎可以通过该公司的技术遍历整个互联网,为相关网站建立索引。威尔斯表示:“如果能为用户提供更好的搜索结果,我们就一定可以打破网络搜索市场的现有格局。我的看法也许不对,但正确的可能性更大。”
<script src="/ad/news/pic.js"></script> Wikia创建于2004年,目前共有30多名员工,主要通过广告获得营收和利润。与维基百科类似,Wikia也采用了“任何人都可编辑”的运作模式,其网页由2000个不同社区来维护。威尔斯今年3月表示,Wikia将推出一款“开放源代码”搜索引擎,力争在全球网络搜索市场占据5%的份额。威尔斯还是非盈利项目维基百科(Wikipedia)的创始人,但维基百科和Wikia并没有正式的联系。
威尔斯在接受国外媒体采访时表示,新搜索引擎的公开版本将于2007年底推出,它将把计算机算法和人力辅助编辑有机地结合在一起,从而为用户提供相关度更高的搜索结果。他说:“如果你使用谷歌搜索引擎,的确可以获得很多有用的搜索结果,但同时也会得到大量垃圾信息。由此可以看出,单纯依靠数学公式无法产生始终相关的搜索结果,人类的智慧将成为搜索的重要组成部分。”
威尔斯透露,新搜索引擎将通过另一个开放源代码项目“Lucerne”生成搜索结果。他表示将对Lucerne进行增强,但并未公布更多细节。Wikia从LookSmart手中收购了Grub,该公司计划开放Grub,允许他人继续开发,或者将其整合到其它网站中。到目前为止,有关Wikia和LookSmart之间的交易条款尚未披露。
迄今为止,Wikia已经获得了1400万美元的外部投资。在最新一轮融资中,Wikia获得了来自亚马逊的1000万美元投资。
分享到:
相关推荐
相关结果与2006年之前的维基百科词条链接网络展开对比, 发现当前的维基百科网络仍然具有无标度网络特性; 其宏观结构总体上满足bow-tie模型, 但模型中的各组成部分比例发生了显著变化。因此, 该研究对深入解析维基...
维基百科离线版 一个为了方便本地浏览维基百科查询资料而制作的 开源软件,程序的原理是利用维基百科 kiwix-tools 中的其中一个小工具:kiwix-serve 读取 .zim 格式的维基百科数据库文件,从而实现 http 方式多终端...
中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用
一个简单的 Python 维基百科爬虫。 运行: celery worker -A crawler.tasks --loglevel=info -Q fetch_queue -n 'fetcher' celery worker -A crawler.tasks --loglevel=info -Q parse_queue -n 'parser' 用于监控...
维基百科中文离线包zim格式,wikipedia_zh_all_maxi_2020-05.zim,使用kiwi打开
这是一个描述在线社交网络拓扑结构的数据集,在复杂网络分析和社会化网络分析里面很有用,以节点和边的形式给出了网络结构。
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存...
维基百科的下载及阅读方法简单说明(转载)借鉴.pdf
该文件包含了维基百科的百科问答中的数据,问题和对应的答案都有,保存为Json格式,适合用于机器学习算法的训练和测试等工作。
主要讲述的是正态分布的一些概念,还有他的历史,格式是PDF格式
Kiwix让您能够随身携带完整的维基百科!无论您搭乘船只,还是身处偏僻的地区,抑或身陷囹圄,Kiwix都使您能够接触到全人类的知识。您不需要连接因特网,因为所有的资料都储存在您的电脑,优盘或者DVD中! 主页:...
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
基于htmlparser的维基百科类目提取程序 可设置提取的类目树深度
已经做了 1、分词 2、去停用词 3、英文小写 4、词干提取 5、词形还原
基于httpclient和htmlparser的维基百科api调用实例
提出一种基于维基百科的领域实体发现方法,该方法将构成领域实体的典型字或词作为种子元素,利用少量种子元素作为实体发现的初始知识,有效地克服了传统方法在获取种子词条时过分依赖领域专家的局限,同时还利用维基...
维基百科关于16S RNA的中文解释,因维基百科被和谐,在此分享。
http://zh.wikipedia.org/zh/Java