本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考,具体如下:
我的个人环境是PHP7.1+MariaDB10.1.23
下载安装资源包
- sphinx地址
http://sphinxsearch.com/downloads/release/
- PHP的sphinx扩展下载
http://pecl.php.net/package/sphinx
- SCWS 下载地址
http://www.xunsearch.com/scws/download.php
- SCWS 词库下载地址
http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
安装过程
因为我的是PHP 7 版本,安装sphinx的时候遇到点问题
- 安装
sphinx
[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx [root@MevHost sphinxb]# cd /usr/local/src/sphinx [root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz [root@MevHost sphinxb]# cd sphinx-2.2.11-release // 这里是指定安装的目录,还有引用mysql,(我这里是mariadb的安装目录) [root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/ [root@MevHost sphinxb]# make && make install
- 安装
sphinx
客户端
这个要安装上,不然安装PHP安装sphinx扩展时会出现报错
[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient //sphinx-2.2.11-release目录下 [root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient [root@MevHost sphinxb]# make && make install
- 为PHP安装
sphinx
扩展
[root@MevHost sphinxb]# cd /usr/local/src/sphinx [root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz [root@MevHost sphinxb]# cd sphinx-1.3.1 [root@MevHost sphinxb]# phpize [root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config [root@MevHost sphinxb]# make && make install
成功后再 php.ini 添加:
extension=sphinx.so
PHP7版本sphinx扩展下载
下载地址
http://git.php.net/"htmlcode">
[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2 [root@MevHost sphinxb]# mkdir /usr/local/scws [root@MevHost sphinxb]# cd scws-1.2.3 [root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/ [root@MevHost sphinxb]# make && make install
- 为PHP安装scws扩展
[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext [root@MevHost sphinxb]# phpize [root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config [root@MevHost sphinxb]# make && make install
在php.ini 加入
extension = scws.so scws.default.charset=utf-8 scws.default.fpath = /usr/local/scws/etc
- 安装scws词库
[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/ #www为php-fpm运行用户 [root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb
创建MySQL数据源
mtest.sql
/* Navicat MySQL Data Transfer Source Database : mtest Target Server Type : MYSQL Target Server Version : 50505 File Encoding : 65001 Date: 2017-12-10 17:47:58 */ SET FOREIGN_KEY_CHECKS=0; -- ---------------------------- -- Table structure for userinfo -- ---------------------------- DROP TABLE IF EXISTS `userinfo`; CREATE TABLE `userinfo` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `userid` int(11) unsigned NOT NULL DEFAULT '0', `addtime` datetime NOT NULL, `post` varchar(20) NOT NULL DEFAULT '', `summary` text NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8; -- ---------------------------- -- Records of userinfo -- ---------------------------- INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail'); INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session'); INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc'); INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间'); -- ---------------------------- -- Table structure for users -- ---------------------------- DROP TABLE IF EXISTS `users`; CREATE TABLE `users` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `username` varchar(20) NOT NULL DEFAULT '', PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8; -- ---------------------------- -- Records of users -- ---------------------------- INSERT INTO `users` VALUES ('1', 'Lionee'); INSERT INTO `users` VALUES ('2', 'libber'); INSERT INTO `users` VALUES ('3', 'sysmob'); INSERT INTO `users` VALUES ('4', '学习');
配置sphinx
配置文件在/usr/local/sphinx2/etc
cp sphinx-min.conf.dist sphinx.conf
source users { type = mysql sql_host = 127.0.0.1 sql_user = root sql_pass = 123456 sql_db = mtest sql_port = 3306 # optional, default is 3306 sql_query_pre = SET NAMES utf8 sql_query_pre = SET SESSION query_cache_type=OFF sql_query = SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary FROM userinfo a left join users b on a.userid = b.id sql_attr_uint = userid sql_field_string = username sql_field_string = post sql_attr_timestamp = addtime sql_ranged_throttle = 0 #sql_attr_uint = group_id #sql_attr_timestamp = date_added #sql_ranged_throttle = 0 } source src1throttled : users { sql_ranged_throttle = 100 } index users { source = users path = /usr/local/sphinx2/var/data/users docinfo = extern mlock = 0 morphology = none min_word_len = 1 html_strip = 1 charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF ngram_len = 1 ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF } common { } indexer { mem_limit = 128M } searchd { #php listen = 9312 #mysql listen = 9306:mysql41 log = /usr/local/sphinx2/var/log/searchd.log query_log = /usr/local/sphinx2/var/log/query.log query_log_format = sphinxql read_timeout = 5 client_timeout = 300 max_children = 30 persistent_connections_limit = 30 pid_file = /usr/local/sphinx2/var/log/searchd.pid seamless_rotate = 1 preopen_indexes = 1 unlink_old = 1 mva_updates_pool = 1M max_packet_size = 8M max_filters = 256 max_filter_values = 4096 max_batch_queries = 32 workers = threads # for RT to work }
启动sphinx
[root@MevHost ~]# pkill searchd [root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all [root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf
如果出现下面的报错
"Oops! It seems that sphinx was built with wrong endianess (cross-compiling"
我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1,之后make的,
接下来的这段是我们的PHP代码了
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> </head> <body> <form method="post" action='test.php'> <p>输入:</p> <input type="text" name="q" autocomplete="false"> </form> </body> </html> <"Content-type: text/html; charset=utf-8"); if($_POST){ $b_time = microtime(true); $key = $_POST['q']; $index = "users"; //========================================分词 $so = scws_new(); $so->set_charset('utf-8'); //默认词库 $so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); //自定义词库 // $so->add_dict('./dd.txt',SCWS_XDICT_TXT); //默认规则 $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); //设定分词返回结果时是否去除一些特殊的标点符号 $so->set_ignore(true); //设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。 // 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字 //1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL $so->set_multi(false); //设定是否将闲散文字自动以二字分词法聚合 $so->set_duality(false); //设定搜索词 $so->send_text($key); $words_array = $so->get_result(); $words = ""; foreach($words_array as $v) { $words = $words.'|('.$v['word'].')'; } //加入全词 #$words = '('.$key.')'.$words; $words = trim($words,'|'); $so->close(); echo '<p>输入:'.$key.'</p>'."\r\n"; echo '<p>分词:'.$words.'</p>'."\r\n"; //========================================搜索 $sc = new SphinxClient(); $sc->SetServer('127.0.0.1',9312); #$sc->SetMatchMode(SPH_MATCH_ALL); $sc->SetMatchMode(SPH_MATCH_ANY); $sc->SetArrayResult(TRUE); $res = $sc->Query($words,$index); echo "<hr>"; echo "<pre>"; print_r($res); $e_time = microtime(true); $time = $e_time - $b_time; echo $time; } exit; "htmlcode">## 数据源src1 source src1 { ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python ## 有人会奇怪,python是一种语言怎么可以成为数据源呢? ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/) type = mysql ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。 sql_host = localhost sql_user = test sql_pass = sql_db = test sql_port = 3306 ## 如果是使用unix sock连接可以使用这个。 # sql_sock = /tmp/mysql.sock ## indexer和mysql之间的交互,需要考虑到效率和安全性。 ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl ## 那么这个参数就代表这个意思,0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。 # mysql_connect_flags = 32 ## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。 # mysql_ssl_cert = /etc/ssl/client-cert.pem # mysql_ssl_key = /etc/ssl/client-key.pem # mysql_ssl_ca = /etc/ssl/cacert.pem ## mssql特有,是否使用windows登陆 # mssql_winauth = 1 ## mssql特有,是使用unicode还是单字节数据。 # mssql_unicode = 1 # request Unicode data from server ## odbc的dsn串 # odbc_dsn = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)}; ## sql某一列的缓冲大小,一般是针对字符串来说的。 ## 为什么要有这么一种缓冲呢? ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。 ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。 ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。 # sql_column_buffers = content=12M, comments=1M ## indexer的sql执行前需要执行的操作。 # sql_query_pre = SET NAMES utf8 # sql_query_pre = SET SESSION query_cache_type=OFF ## indexer的sql执行语句 sql_query = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。 ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。 ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。 ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。 ## 并且这里的后一个查询需要按照id进行升序排列。 # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。 ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。 # sql_file_field = content_file_path ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。 ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。 ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。 # sql_query_range = SELECT MIN(id),MAX(id) FROM documents # sql_range_step = 1000 # sql_ranged_throttle = 0 ## 下面都是些不同属性的数据了 ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。 ## uint无符号整型属性 sql_attr_uint = group_id ## bool属性 # sql_attr_bool = is_deleted ## 长整型属性 # sql_attr_bigint = my_bigint_id ## 时间戳属性,经常被用于做排序 sql_attr_timestamp = date_added ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。 ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。 ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。 ## 这,就是这个字段的意义。 # sql_attr_str2ordinal = author_name ## 浮点数属性,经常在查询地理经纬度的时候会用到。 # sql_attr_float = lat_radians # sql_attr_float = long_radians ## 多值属性(MVA) ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。 ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。 ## 这个字段,sql_attr_multi就是用来做这个事情的。 # sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags # sql_attr_multi = uint tag from ranged-query; # SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; # SELECT MIN(docid), MAX(docid) FROM tags ## 字符串属性。 # sql_attr_string = stitle ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段 # sql_attr_str2wordcount = stitle ## 字符串字段,可全文搜索,可返回原始文本信息。 # sql_field_string = author ## 文档词汇数记录字段,可全文搜索,可返回原始信息 # sql_field_str2wordcount = title ## 取后查询,在sql_query执行后立即操作。 ## 它和sql_query_post_index的区别就是执行时间不同 ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。 ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。 # sql_query_post = ## 参考sql_query_post的说明。 # sql_query_post_index = REPLACE INTO counters ( id, val ) # VALUES ( 'max_indexed_id', $maxid ) ## 命令行获取信息查询。 ## 什么意思呢? ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。 ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。 ## 同时这个字段只在控制台有效,在api中是无效的。 sql_query_info = SELECT * FROM documents WHERE id=$id ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。 ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。 ## 这个时候就使用到了这个字段了。 ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。 # sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。 ## SQL数据源解压字段设置 # unpack_zlib = zlib_column ## MySQL数据源解压字段设置 # unpack_mysqlcompress = compressed_column # unpack_mysqlcompress = compressed_column_2 ## MySQL数据源解压缓冲区设置 # unpack_mysqlcompress_maxsize = 16M ## xmlpipe的数据源就是一个xml文档 # type = xmlpipe ## 读取数据源的命令 # xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml ## 字段 # xmlpipe_field = subject # xmlpipe_field = content ## 属性 # xmlpipe_attr_timestamp = published # xmlpipe_attr_uint = author_id ## UTF-8修复设置 ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题 ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。 # xmlpipe_fixup_utf8 = 1 } ## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性 source src1throttled : src1 { sql_ranged_throttle = 100 } ## 索引test1 index test1 { ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。 # type = plain ## 索引数据源 source = src1 ## 索引文件存放路径 path = /home/yejianfeng/instance/coreseek/var/data/test1 ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。 ## docinfo指的就是数据的所有属性(field)构成的一个集合。 ## 首先文档id是存储在一个文件中的(spa) ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。 ## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。 ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。 ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern docinfo = extern ## 缓冲内存锁定。 ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。 ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。 mlock = 0 ## 词形处理器 ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。 ## 所以英语的词形处理器会讲dogs当做dog来进行处理。 morphology = none ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。 # min_stemming_len = 1 ## 词形处理后是否还要检索原词? # index_exact_words = 1 ## 停止词,停止词是不被索引的词。 # stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt ## 自定义词形字典 # wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt ## 词汇特殊处理。 ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。 # exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt ## 最小索引词长度,小于这个长度的词不会被索引。 min_word_len = 1 ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 charset_type = sbcs ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。 # 'sbcs' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF # # 'utf-8' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。 # ignore_chars = U+00AD ## 是否启用通配符,默认为0,不启用 # enable_star = 1 ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。 ## 最小前缀索引长度 ## 为什么要有这个配置项呢? ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。 ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。 # min_prefix_len = 0 ## 最小索引中缀长度。理解同上。 # min_infix_len = 0 ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。 # prefix_fields = filename # infix_fields = url, domain ## 词汇展开 ## 是否尽可能展开关键字的精确格式或者型号形式 # expand_keywords = 1 ## N-Gram索引的分词技术 ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文) ## 对coreseek来说,这两个配置项可以忽略。 # ngram_len = 1 # ngram_chars = U+3000..U+2FA1F ## 词组边界符列表和步长 ## 哪些字符被看做分隔不同词组的边界。 # phrase_boundary = ., "_blank" href="//www.jb51.net/Special/856.htm">PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串(string)用法总结》希望本文所述对大家PHP程序设计有所帮助。
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
狼山资源网 Copyright www.pvsay.com
暂无“PHP+MySQL+sphinx+scws实现全文检索功能详解”评论...