【记录】折腾小说网站的那些坑

搞这个,其实全是个人兴趣,至于盈利什么的,根本不在考虑范围内,算是满足自己的一个小目标吧

这里先简单写个大概,回头有时间再具体补充

这里已经写好全套教程,附带所有需要的东西,像尝试搭建,可以直接参考

【教程】【含源码和主题】杰奇1.7+关关采集器+Linux作为小说网站+Win端Samba远程采集+可用采集规则

 

1.域名的选择和解析

域名一般都会跟网站内容有些相关,解析的话,一般就是A类的三个解析,abc.com,wwwabc.com,m.abc.com,对应PC和手机站

2.服务器的选择

硬盘要大,至于性能,起码一般程度吧,那种256m内存带500G硬盘,想想都觉得头疼,

服务器的位置,其实欧洲更好,当然并不是说美西就差,因为大硬盘的原因,再加上非盈利性预算,网络肯定不会太好,虽然后期都建议上反代服务器优化访问。

3.小说CMS选择

YGBOOK最省心,但是太单一了,完全是为采集而采集这样。

杰奇算是使用较多的,目前来说1.7已经满足要求,至于更高版本,只是支持了在线支付这类,所以并不是刚需。

4.运行环境选择

LAMP,因为杰奇1.7只能PHP5.2,所以也只能Apache2.2了。

5.防火墙放行3306

即使是debian也要放行,不止是添加允许,还要删掉DROP3306那行。

6.Mysql远程权限

给root开启远程访问权限,便于远程采集。

7.采集问题

主流的小说采集,是关关采集,需要运行在win上,虽然linux下通过wine也可以运行,但是稳定性还有待商议。

8.远程采集引出的远程共享目录解决办法

由于使用远程采集,自然需要远程目录,使用Samba可以解决。

但是建议采集和数据库所在地区接近。

9.采集过程中千奇百怪的问题

同一个IP不要对一个IP采集太猛,容易被ban,让采集器卡住

数据库最好关掉DNS解析,可以节省一些资源

数据库要开远程用户权限,改过密码要重新加下权限

数据库3306端口要放行,而且主要不要有drop规则干掉3306

采集会丢章节,可能是网络不稳定原因?

不管是什么采集器,把检查重复章节去掉,不然好多书只会采集半本

5.6可以对采集一半的书采集,10.5只能采集新书

无法连接Samba可能是运营商封139和445端口,可以申请解封

权限权限很重要,无论是用户还是目录

vhost的配置文件,干掉这行,不然无法跨目录访问,导致wap版出错

#php_admin_value open_basedir "/home/wwwroot/xxxxx.cc:/tmp/:/var/tmp/:/proc/"

10.未解决的问题

会采集到不少空章节,日志报错代码121—————-咨询了相关人士,有人说是采集速度太快,但我觉得不太像

关关宕机,日志报错441,提示远程主机关闭了连接————-暂没有头绪,已确定错误发生时间不固定,且是概率发生,似乎更多是服务端数据库问题

【记录】折腾小说网站的那些坑》有6个想法

  1. 书苑

    楼主最后采集怎么搞的?
    亲测10.05不能采集新书,无法解决。
    5.6只能手动生成OPF 否则会报一个未将对象引用设置到对象的实例的错误。
    求楼主告知怎么解决的采集

    回复
    1. Refrain 文章作者

      关关吗?不能采集新书应该跟关关无关的,

      你看下是不是杰奇哪里权限没给好

      回复

发表评论

邮箱地址不会被公开。 必填项已用*标注