博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
17搜索-服务器搭建
阅读量:5766 次
发布时间:2019-06-18

本文共 954 字,大约阅读时间需要 3 分钟。

1.服务器信息

1.1.一起搜索架构信息

爬虫系统(17spider):c++

索引系统(17search):c++

查询系统(17so):php

网页存储:MYSQL

Web服务器:apache

LAMP+CPP

1.2.一起搜索服务器配置

CentOS+1.5G内存+80G硬盘+2M带宽+Nginx

2.服务器搭建

2.1 创建数据库信息

表的细节不赘述,简单说下几个注意事项。

(1)数据库字符集utf-8

   选用utf-8,这是网页最常用的字符集,方便入库存储;网页内容字段,选用longtext,避免网页内容过长无法存储。

  注意:由于抓取网页内容多种多样,插入数据库过程中不可避免有插入失败,初步解决方案是插入失败时将网页内容写到本地,数据库中网页内容字段填入本地绝对路径。

(2)字符转码iconv

   系统开发过程中用了开源工具iconv,主要在中文分词部分,linux下默认字符集是utf-8,而我的中文分词字典是用的GBK编码二级hash,在初始化字典的过程中有将本地读取的字词用iconv函数转成GBK编码。iconv环境下载安装详见:

(3)关键词编号索引index

  词典中所有的字词根据构造词典的算法都对应一个唯一的编号,在检索命中网页过程中会频繁使用这个编号,创建索引是提高检索速度的一个简单可行的方法。

2.2 17spider

17spider是我的爬虫系统,谐音一起抓取,事先程序在我电脑上已调试运行正常,所以直接拷至服务器,make未遇到异常。

2.3 17search

17search是我的索引系统,谐音一起索引,事先程序在我电脑上已调试运行正常,但是在服务器上调试时遇到iconv错误,具体问题及解决方案详见:

2.4 17so

直接拷贝至web服务器相应站点,配置url即可。

3.其它

动态链接库和静态链接库:mysql、iconv

 

 

 

--------------------------- 

我是爱谷歌(agoogle),一个搜索爱好者,同时也只是一个初学者,欢迎大家提出宝贵意见,大家一起分享,一起成长。

 

转载于:https://www.cnblogs.com/siliconvalley/archive/2013/06/06/3120421.html

你可能感兴趣的文章
Pinpoint跨节点统计失败
查看>>
【Canal源码分析】Canal Server的启动和停止过程
查看>>
机房带宽暴涨问题分析及解决方法
查看>>
XP 安装ORACLE
查看>>
八、 vSphere 6.7 U1(八):分布式交换机配置(vMotion迁移网段)
查看>>
[转载] 中华典故故事(孙刚)——19 万岁
查看>>
Maven学习总结(十)——使用Maven编译项目gbk的不可映射问题
查看>>
php5编译安装常见错误和解决办法集锦
查看>>
Linux远程访问及控制
查看>>
MongoDB实战系列之五:mongodb的分片配置
查看>>
Unable to determine local host from URL REPOSITORY_URL=http://
查看>>
ORACLE配置,修改tnsnames.ora文件实例
查看>>
Workstation服务无法启动导致无法访问文件服务器
查看>>
ant中文教程
查看>>
Linux常用命令(一)
查看>>
【VMCloud云平台】SCAP(四)租户(一)
查看>>
基于 Android NDK 的学习之旅----- C调用Java
查看>>
Windows 10 技术预览
查看>>
Tomcat http跳转https
查看>>
一个自动布署.net网站的bat批处理实例
查看>>