字符串搜索算法
外观
字串搜寻演算法(String searching algorithms)又称字串比对演算法(string matching algorithms)是一种搜索算法,是字串演算法中的一类,用以试图在一长字符串或文章中,找出其是否包含某一个或多个字符串,以及其位置。
最直观的解法是比对,如下例中,在字符串haystack中找出字符串needle
char* haystack;
char* needle;
int hlen, nlen, found;
int i,j,k;
found = 0;
hlen = strlen(haystack);
nlen = strlen(needle);
for (i = 0; i < hlen; ++i) {
for (j = 0; j < nlen; ++j) {
if (haystack[i+j] != needle[j]) break;
if (j == nlen - 1) found = 1;
};
};
return found;
上例中,若字符串needle存在于字符串haystack中,则传回1,否则传回0。
但是此直观算法的复杂度为 O(mn),其中haystack的长度为n、needle的长度为m,所以另有更快速的算法。
部分算法比较
[编辑]令 m 为模式的长度, n 为要搜索的字符串长度, k为字母表长度。
算法 | 预处理时间 | 匹配时间 |
---|---|---|
朴素算法 | 0 (无需预处理) | Θ(nm) |
Rabin-Karp算法 | Θ(m) | 平均 Θ(n + m), 最差 Θ((n−m)m) |
基于有限状态机的搜索 | Θ(mk) | Θ(n) |
克努斯-莫里斯-普拉特算法 | Θ(m) | Θ(n) |
Boyer-Moore字符串搜索算法 | Θ(m + k) | 最好Ω(n/m), 最坏 O(n) |
Bitap算法 | Θ(m + k) | O(mn) |
外部链接
[编辑]- Huge (maintained) list of pattern matching links(页面存档备份,存于互联网档案馆)
- StringSearch — high-performance pattern matching algorithms in Java[失效链接] – Implementations of many String-Matching-Algorithms in Java (BNDM, Boyer-Moore-Horspool, Boyer-Moore-Horspool-Raita, Shift-Or)
- Exact String Matching Algorithms—Animation in Java(页面存档备份,存于互联网档案馆)
- String similarity metrics
- Project Dedupe http://dedupe.sourceforge.net[永久失效链接]
- Boyer-Moore-Raita-Thomas