PHP+MySQL+sphinx+scws实现全文检索功能详解

网络编程 2024/11/18 佚名

3 2 1

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考，具体如下：

我的个人环境是PHP7.1+MariaDB10.1.23

下载安装资源包

sphinx地址

http://sphinxsearch.com/downloads/release/

PHP的sphinx扩展下载

http://pecl.php.net/package/sphinx

SCWS 下载地址

http://www.xunsearch.com/scws/download.php

SCWS 词库下载地址

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

安装过程

因为我的是PHP 7 版本，安装sphinx的时候遇到点问题

安装sphinx

[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx
[root@MevHost sphinxb]# cd /usr/local/src/sphinx 
[root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz  
[root@MevHost sphinxb]# cd sphinx-2.2.11-release
// 这里是指定安装的目录，还有引用mysql,(我这里是mariadb的安装目录)
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/
[root@MevHost sphinxb]# make && make install

安装sphinx客户端

这个要安装上，不然安装PHP安装sphinx扩展时会出现报错

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient  //sphinx-2.2.11-release目录下  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient 
[root@MevHost sphinxb]# make && make install

为PHP安装sphinx扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx
[root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz  
[root@MevHost sphinxb]# cd sphinx-1.3.1  
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config 
[root@MevHost sphinxb]# make && make install

成功后再 php.ini 添加：

extension=sphinx.so

PHP7版本sphinx扩展下载

下载地址

http://git.php.net/"htmlcode">

[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2
[root@MevHost sphinxb]# mkdir /usr/local/scws  
[root@MevHost sphinxb]# cd scws-1.2.3  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/  
[root@MevHost sphinxb]# make && make install

为PHP安装scws扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext 
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config
[root@MevHost sphinxb]# make && make install

在php.ini 加入

extension = scws.so
scws.default.charset=utf-8
scws.default.fpath = /usr/local/scws/etc

安装scws词库

[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
#www为php-fpm运行用户
[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

mtest.sql

/*
Navicat MySQL Data Transfer
Source Database    : mtest
Target Server Type  : MYSQL
Target Server Version : 50505
File Encoding     : 65001
Date: 2017-12-10 17:47:58
*/
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for userinfo
-- ----------------------------
DROP TABLE IF EXISTS `userinfo`;
CREATE TABLE `userinfo` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `userid` int(11) unsigned NOT NULL DEFAULT '0',
 `addtime` datetime NOT NULL,
 `post` varchar(20) NOT NULL DEFAULT '',
 `summary` text NOT NULL,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of userinfo
-- ----------------------------
INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail');
INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session');
INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc');
INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间');
-- ----------------------------
-- Table structure for users
-- ----------------------------
DROP TABLE IF EXISTS `users`;
CREATE TABLE `users` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `username` varchar(20) NOT NULL DEFAULT '',
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of users
-- ----------------------------
INSERT INTO `users` VALUES ('1', 'Lionee');
INSERT INTO `users` VALUES ('2', 'libber');
INSERT INTO `users` VALUES ('3', 'sysmob');
INSERT INTO `users` VALUES ('4', '学习');

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf

source users
{
  type      = mysql
  sql_host    = 127.0.0.1
  sql_user    = root
  sql_pass    = 123456
  sql_db     = mtest
  sql_port    = 3306 # optional, default is 3306
  sql_query_pre = SET NAMES utf8 
    sql_query_pre = SET SESSION query_cache_type=OFF 
    sql_query =   SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary  FROM userinfo a left join users b on a.userid = b.id 
  sql_attr_uint = userid 
  sql_field_string = username 
  sql_field_string = post 
  sql_attr_timestamp = addtime
  sql_ranged_throttle = 0 
  #sql_attr_uint   = group_id
  #sql_attr_timestamp = date_added
  #sql_ranged_throttle  = 0
}
source src1throttled : users 
{
  sql_ranged_throttle = 100
}
index users 
{ 
  source = users 
  path = /usr/local/sphinx2/var/data/users 
  docinfo = extern 
  mlock = 0 
  morphology = none 
  min_word_len = 1 
  html_strip = 1 
  charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF 
  ngram_len = 1 
  ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF 
}
common
{
}
indexer
{
  mem_limit    = 128M
}
searchd
{
  #php
  listen     = 9312
  #mysql
  listen     = 9306:mysql41
  log     = /usr/local/sphinx2/var/log/searchd.log
  query_log    = /usr/local/sphinx2/var/log/query.log
  query_log_format = sphinxql
  read_timeout    = 5
  client_timeout   = 300
  max_children    = 30
  persistent_connections_limit  = 30
  pid_file    = /usr/local/sphinx2/var/log/searchd.pid
  seamless_rotate   = 1
  preopen_indexes   = 1
  unlink_old   = 1
  mva_updates_pool  = 1M
  max_packet_size   = 8M
  max_filters   = 256
  max_filter_values  = 4096
  max_batch_queries  = 32
  workers     = threads # for RT to work
}

启动sphinx

[root@MevHost ~]# pkill searchd
[root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all 
[root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf

如果出现下面的报错

"Oops! It seems that sphinx was built with wrong endianess (cross-compiling"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1，之后make的,

接下来的这段是我们的PHP代码了

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Document</title>
</head>
<body>
  <form method="post" action='test.php'>
    <p>输入：</p> <input type="text" name="q" autocomplete="false">
  </form>
</body>
</html>
<"Content-type: text/html; charset=utf-8");
if($_POST){
$b_time = microtime(true);
$key = $_POST['q'];
$index = "users";
//========================================分词
$so = scws_new();
$so->set_charset('utf-8');
//默认词库
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//自定义词库
// $so->add_dict('./dd.txt',SCWS_XDICT_TXT);
//默认规则
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
//设定分词返回结果时是否去除一些特殊的标点符号
$so->set_ignore(true);
//设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。
// 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字
//1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL
$so->set_multi(false);
//设定是否将闲散文字自动以二字分词法聚合
$so->set_duality(false);
//设定搜索词
$so->send_text($key);
$words_array = $so->get_result();
$words = "";
foreach($words_array as $v)
{
  $words = $words.'|('.$v['word'].')';
}
//加入全词
#$words = '('.$key.')'.$words;
$words = trim($words,'|');
$so->close();
echo '<p>输入：'.$key.'</p>'."\r\n";
echo '<p>分词：'.$words.'</p>'."\r\n";
//========================================搜索
$sc = new SphinxClient();
$sc->SetServer('127.0.0.1',9312);
#$sc->SetMatchMode(SPH_MATCH_ALL);
$sc->SetMatchMode(SPH_MATCH_ANY);
$sc->SetArrayResult(TRUE);
$res = $sc->Query($words,$index);
echo "<hr>";
echo "<pre>";
print_r($res);
$e_time = microtime(true);
$time = $e_time - $b_time;
echo $time;
}
exit;
"htmlcode">

## 数据源src1
source src1
{
  ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
  ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
  ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
  type      = mysql
  ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
  sql_host    = localhost
  sql_user    = test
  sql_pass    =
  sql_db     = test
  sql_port    = 3306
  ## 如果是使用unix sock连接可以使用这个。
  # sql_sock   = /tmp/mysql.sock
  ## indexer和mysql之间的交互，需要考虑到效率和安全性。
  ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
  ## 那么这个参数就代表这个意思，0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
  # mysql_connect_flags  = 32
  ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
  # mysql_ssl_cert    = /etc/ssl/client-cert.pem
  # mysql_ssl_key   = /etc/ssl/client-key.pem
  # mysql_ssl_ca   = /etc/ssl/cacert.pem
  ## mssql特有，是否使用windows登陆
  # mssql_winauth   = 1
  ## mssql特有，是使用unicode还是单字节数据。
  # mssql_unicode   = 1 # request Unicode data from server
  ## odbc的dsn串
  # odbc_dsn   = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
  ## sql某一列的缓冲大小，一般是针对字符串来说的。
  ## 为什么要有这么一种缓冲呢？
  ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
  ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
  ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
  # sql_column_buffers  = content=12M, comments=1M
  ## indexer的sql执行前需要执行的操作。
  # sql_query_pre   = SET NAMES utf8
  # sql_query_pre   = SET SESSION query_cache_type=OFF
  ## indexer的sql执行语句
  sql_query    =     SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content     FROM documents
  ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
  ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
  ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
  ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
  ## 并且这里的后一个查询需要按照id进行升序排列。
  # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
  # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
  ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
  # sql_file_field    = content_file_path
  ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
  ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
  ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
  ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
  # sql_query_range    = SELECT MIN(id),MAX(id) FROM documents
  # sql_range_step    = 1000
  # sql_ranged_throttle  = 0
  ## 下面都是些不同属性的数据了
  ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。
  ## uint无符号整型属性
  sql_attr_uint    = group_id
  ## bool属性
  # sql_attr_bool   = is_deleted
  ## 长整型属性
  # sql_attr_bigint    = my_bigint_id
  ## 时间戳属性，经常被用于做排序
  sql_attr_timestamp = date_added
  ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
  ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
  ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
  ## 这，就是这个字段的意义。
  # sql_attr_str2ordinal = author_name
  ## 浮点数属性，经常在查询地理经纬度的时候会用到。
  # sql_attr_float    = lat_radians
  # sql_attr_float    = long_radians
  ## 多值属性（MVA）
  ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
  ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
  ## 这个字段，sql_attr_multi就是用来做这个事情的。
  # sql_attr_multi    = uint tag from query; SELECT docid, tagid FROM tags
  # sql_attr_multi    = uint tag from ranged-query;   #  SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end;   #  SELECT MIN(docid), MAX(docid) FROM tags
  ## 字符串属性。
  # sql_attr_string    = stitle
  ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
  # sql_attr_str2wordcount  = stitle
  ## 字符串字段，可全文搜索，可返回原始文本信息。
  # sql_field_string = author
  ## 文档词汇数记录字段，可全文搜索，可返回原始信息
  # sql_field_str2wordcount  = title
  ## 取后查询，在sql_query执行后立即操作。
  ## 它和sql_query_post_index的区别就是执行时间不同
  ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
  ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
  # sql_query_post    =
  ## 参考sql_query_post的说明。
  # sql_query_post_index = REPLACE INTO counters ( id, val )   #  VALUES ( 'max_indexed_id', $maxid )
  ## 命令行获取信息查询。
  ## 什么意思呢？
  ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
  ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
  ## 同时这个字段只在控制台有效，在api中是无效的。
  sql_query_info   = SELECT * FROM documents WHERE id=$id
  ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
  ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
  ## 这个时候就使用到了这个字段了。
  ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
  # sql_query_killlist  = SELECT id FROM documents WHERE edited>=@last_reindex
  ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
  ## SQL数据源解压字段设置
  # unpack_zlib    = zlib_column
  ## MySQL数据源解压字段设置
  # unpack_mysqlcompress = compressed_column
  # unpack_mysqlcompress = compressed_column_2
  ## MySQL数据源解压缓冲区设置
  # unpack_mysqlcompress_maxsize = 16M
  ## xmlpipe的数据源就是一个xml文档
  # type     = xmlpipe
  ## 读取数据源的命令
  # xmlpipe_command    = cat /home/yejianfeng/instance/coreseek/var/test.xml
  ## 字段
  # xmlpipe_field   = subject
  # xmlpipe_field   = content
  ## 属性
  # xmlpipe_attr_timestamp  = published
  # xmlpipe_attr_uint = author_id
  ## UTF-8修复设置
  ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
  ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
  # xmlpipe_fixup_utf8  = 1
}
## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
  sql_ranged_throttle = 100
}
## 索引test1
index test1
{
  ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
  # type     = plain
  ## 索引数据源
  source     = src1
  ## 索引文件存放路径
  path      = /home/yejianfeng/instance/coreseek/var/data/test1
  ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
  ## docinfo指的就是数据的所有属性（field）构成的一个集合。
  ## 首先文档id是存储在一个文件中的（spa）
  ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
  ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
  ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
  ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
  docinfo     = extern
  ## 缓冲内存锁定。
  ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
  ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
  mlock      = 0
  ## 词形处理器
  ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
  ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
  morphology   = none
  ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
  # min_stemming_len = 1
  ## 词形处理后是否还要检索原词？
  # index_exact_words = 1
  ## 停止词，停止词是不被索引的词。
  # stopwords   = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  ## 自定义词形字典
  # wordforms   = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  ## 词汇特殊处理。
  ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
  # exceptions    = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  ## 最小索引词长度，小于这个长度的词不会被索引。
  min_word_len    = 1
  ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
  charset_type    = sbcs
  ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
  # 'sbcs' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
  #
  # 'utf-8' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
  # ignore_chars   = U+00AD
  ## 是否启用通配符，默认为0，不启用
  # enable_star    = 1
  ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
  ## 最小前缀索引长度
  ## 为什么要有这个配置项呢？
  ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
  ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
  # min_prefix_len    = 0
  ## 最小索引中缀长度。理解同上。
  # min_infix_len   = 0
  ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
  # prefix_fields   = filename
  # infix_fields   = url, domain
  ## 词汇展开
  ## 是否尽可能展开关键字的精确格式或者型号形式
  # expand_keywords    = 1
  ## N-Gram索引的分词技术
  ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
  ## 对coreseek来说，这两个配置项可以忽略。
  # ngram_len   = 1
  # ngram_chars    = U+3000..U+2FA1F
  ## 词组边界符列表和步长
  ## 哪些字符被看做分隔不同词组的边界。
  # phrase_boundary    = ., "_blank" href="//www.jb51.net/Special/856.htm">PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串(string)用法总结》
希望本文所述对大家PHP程序设计有所帮助。

PHP,MySQL,sphinx,scws,全文检索

标签：

PHP,MySQL,sphinx,scws,全文检索

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

狼山资源网 Copyright www.pvsay.com

评论“PHP+MySQL+sphinx+scws实现全文检索功能详解”

PHP+MySQL+sphinx+scws实现全文检索功能详解

暂无“PHP+MySQL+sphinx+scws实现全文检索功能详解”评论...

www.pvsay.com 狼山资源网

29,905影音资源

44,626技术资源

11,817软件资源

578,645站长资源

PHP+MySQL+sphinx+scws实现全文检索功能详解

PHP,MySQL,sphinx,scws,全文检索

PHP使用Session实现上传进度功能详解

PHP使用ajax的post方式下载excel文件简单示例

评论“PHP+MySQL+sphinx+scws实现全文检索功能详解”

友情链接