如何编写MySQL全文索引插件

2014-11-24 18:34:55 · 作者: · 浏览: 0

1.简介


全文索引插件用于对MYISAM的全文检索特性进行扩展。通过全文检索,我们可以对文档、图片或者视频等丰富的数据类型进行分词,建立索引,以便进行快速的检索。


目前MySQL仅在MYISAM存储引擎里支持全文检索,而对于innodb,则要在6.0以后的版本中才会实现。


但目前全文索引也有着如下的限制:


1. 只支持MyISAM


2. 不支持中文


3. 如果支持在一个单独表中使用多个字符集,则所有fulltext索引的列必须使用完全一样的字符集和库


4. MATCH()列列表必须同该表中一些FULLTEXT索引定义中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE


5. 对AGAINST() 的参数必须是一个常数字符串。



那么Full Text Plugin在这其中扮演什么样的角色呢。MYISAM本身自带的分词程序会将列里面的数据进行分词存储到全文索引里,同时也会使用分词来处理查询中出现的字符串;Full Text Plugin可以完全接管该功能。


例如,我们可以通过Plugin实现对多媒体数据的分词检索,可以使用自己的算法进行分词,甚至可以改变全文检索的语法。




2. 如何编写Full Text Plugin


插件的编写主要包括: init、deinit以及parse程序;每次执行sql之前会调用一次init(),执行完成后会调用deinit函数。Parse()函数在执行SQL的过程中进行语法分析



1)声明插件


结构体st_mysql_ftparser用于声明一个full text插件


struct st_mysql_ftparser


{


intinterface_version;


int(*parse)(MYSQL_FTPARSER_PARAM *param);


int(*init)(MYSQL_FTPARSER_PARAM *param);


int(*deinit)(MYSQL_FTPARSER_PARAM *param);


};



可以看到,这三个函数公用一种参数类型:MYSQL_FTPARSER_PARAM,这个结构体由MySQL来初始化,但我们同样可以修改其函数指针,以使用自定义的函数,结构体如下:





当mode被设置为MYSQL_FTPARSER_FULL_BOOLEAN_ INFO时。我们需要为函数mysql_add_word设置其最后一个参数,我们再看该函数的原型:


int (*mysql_add_word)(structst_mysql_ftparser_param *,


char *word, int word_len,


MYSQL_FTPARSER_BOOLEAN_INFO *);



最后一个参数结构体为MYSQL_FTPARSER_BOOLEAN_INFO,也就是结构体st_mysql_ftparser_boolean_info,如下所示: