搞这个,其实全是个人兴趣,至于盈利什么的,根本不在考虑范围内,算是满足自己的一个小目标吧
这里先简单写个大概,回头有时间再具体补充
这里已经写好全套教程,附带所有需要的东西,像尝试搭建,可以直接参考
1.域名的选择和解析
域名一般都会跟网站内容有些相关,解析的话,一般就是A类的三个解析,abc.com,wwwabc.com,m.abc.com,对应PC和手机站
2.服务器的选择
硬盘要大,至于性能,起码一般程度吧,那种256m内存带500G硬盘,想想都觉得头疼,
服务器的位置,其实欧洲更好,当然并不是说美西就差,因为大硬盘的原因,再加上非盈利性预算,网络肯定不会太好,虽然后期都建议上反代服务器优化访问。
3.小说CMS选择
YGBOOK最省心,但是太单一了,完全是为采集而采集这样。
杰奇算是使用较多的,目前来说1.7已经满足要求,至于更高版本,只是支持了在线支付这类,所以并不是刚需。
4.运行环境选择
LAMP,因为杰奇1.7只能PHP5.2,所以也只能Apache2.2了。
5.防火墙放行3306
即使是debian也要放行,不止是添加允许,还要删掉DROP3306那行。
6.Mysql远程权限
给root开启远程访问权限,便于远程采集。
7.采集问题
主流的小说采集,是关关采集,需要运行在win上,虽然linux下通过wine也可以运行,但是稳定性还有待商议。
8.远程采集引出的远程共享目录解决办法
由于使用远程采集,自然需要远程目录,使用Samba可以解决。
但是建议采集和数据库所在地区接近。
9.采集过程中千奇百怪的问题
同一个IP不要对一个IP采集太猛,容易被ban,让采集器卡住
数据库最好关掉DNS解析,可以节省一些资源
数据库要开远程用户权限,改过密码要重新加下权限
数据库3306端口要放行,而且主要不要有drop规则干掉3306
采集会丢章节,可能是网络不稳定原因?
不管是什么采集器,把检查重复章节去掉,不然好多书只会采集半本
5.6可以对采集一半的书采集,10.5只能采集新书
无法连接Samba可能是运营商封139和445端口,可以申请解封
权限权限很重要,无论是用户还是目录
vhost的配置文件,干掉这行,不然无法跨目录访问,导致wap版出错
#php_admin_value open_basedir "/home/wwwroot/xxxxx.cc:/tmp/:/var/tmp/:/proc/"
10.未解决的问题
会采集到不少空章节,日志报错代码121—————-咨询了相关人士,有人说是采集速度太快,但我觉得不太像
关关宕机,日志报错441,提示远程主机关闭了连接————-暂没有头绪,已确定错误发生时间不固定,且是概率发生,似乎更多是服务端数据库问题
老哥您好,我想请教下小说站点的伪静态规则怎么弄呢?
这东西我记得杰奇目录带的有,不需要额外设置
楼主最后采集怎么搞的?
亲测10.05不能采集新书,无法解决。
5.6只能手动生成OPF 否则会报一个未将对象引用设置到对象的实例的错误。
求楼主告知怎么解决的采集
关关吗?不能采集新书应该跟关关无关的,
你看下是不是杰奇哪里权限没给好
PHP2.2?还有人用这版本?
谢谢提醒,PHP是5.2,Apache是2.2的