JAVA 之数据结构：串

站长

2024年04月22日 20:43 · 阅读数 79

串的概念

"silly"、"stypid" 这样的两个字符串，第一个字母都是 "s"，因此不存在差异，第二个字母由于 "i" 比 "t" 靠前，所以 "i"<"t"，于是我们说 "silly" < "stypid"
串的比较是通过组成串的字符之间的编码来进行的，而字符编码是指字符在对应字符集中的序号
所以两个字符串是否相等，必须是它们串的长度以及每个字符豆相等时，才算是相等
对于不相等的两个串，例如 s = "a1a2...an"，t = "b1b2...bm"，当满足以下条件之一时，s < t n < m，且 ai = bi (i=1,2.....,n)
当 s = "happen",t = "happy" 因为两串前 4 哥字母均相同，而第五个字母 e 的 ASCII 码是 101，y 的 ASCII 码是 121，e < y，所以 s < t

JAVA 之数据结构：串

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符串序列，按照预定义的大小，为每个定义的串变量分配一个固定长度的存储区
一般可以将实际的串长度值保存在数组 0 下标位置，有的书中也会定义存储在数组的最后一个下标位置
但有的编程语言觉得存个数字占空间麻烦，它规定在串值后面加一个结束标记，例如 "\0" ，这个时候如果想知道串长度，就需要遍历计算，但这其实还是需要占一个空间，何必呢？
顺序存储方式存在些问题，比如两串的连接、新串的插入、以及字符串的替换都可能使得串序列长度超过数组长度

JAVA 之数据结构：串

子串的定位操作通常称作串的模式匹配，假设要从主串 S = "goodgoogle" 中找到 T = "google" 子串为止，通常需要下面步骤： 1.主串 S 第一位开始，S 与 T 前三个字母都匹配成功，但 S 第四个字母匹配失败

2.主串 S 第二、三、四位开始，匹配失败

3.主串 S 第五位位开始，6 个字母全匹配成功

JAVA 之数据结构：串

如果主串 S = "abcdefgab"、T = "abcdex" 那么如果用前面的朴素算法进行匹配，那么流程如下，在流程 ②③④⑤⑥ 中，首字符与子串 T 首字符均不等
这似乎也是理所当然，"abcdex" 首字符 "a" 与后面的串 "bcdex" 任意一个字符都不相等，既然 "a" 不与自己后面的子串中任一字符相等，那么对于 ① 来说前 5 位字符分别相等，意味着子串 T 的首字符 "a" 不可能与 S 串的第 2 位到第 5 位的字符相等，因此 ②③④⑤⑥ 是多余的
如果我们知道 T 串中首字符 "a" 与 T 中后面的字符均不相等（这是前提），而 T 串的第二位的 "b" 与 S 串中第二位的 "b" 相等，那么意味着 T 串中首字符 "a" 与 S 串中第二位 "b" 是不需要判断也知道它们不可能相等了，所以流程 ② 可以省略
同样道理，在知道 T 串中首字符 "a" 与后面的字符不相等的前提下，T 串的 "a" 与 S 串后面的 "c"、"d"、"e" 也可以在流程 ① 之后确定不相等，所以流程 ②③④⑤⑥ 没有必要，只保留 ①⑥ 即可
之所以保留 ⑥ 是因为在 ① 中 T [6] ≠ S[6]，尽管我们知道 T[1] ≠ T[6]，但不能断定 T[1] 一定不等于 S[6]

JAVA 之数据结构：串

如果 T 串后面也含有首字符 "a" 怎么办？
假设 S = "abcabcabc"、T = "abcabx"，前 5 个字符完全相等，第 6 个字符不等，此时根据刚才经验，T 的首字符 "a" 与 T 的第二、三位字符 "b"、"c" 均不等，所以不需要做判断，因此 ②③ 是多余的
因为 T 的首位 "a" 与第四位 "a" 相等，第二位 "b" 与第五位 "b" 相等，而在 ① 时，第四位 "a" 与第五位 "b" 已经与主串 S 中相应位置比较过了，是相等的，因此可以判断，T 的首字符 "a"、第二位的 "b" 与 S 的第四位和第五位字符也不需要比较了，所以 ④⑤ 也可以省略

转载自:https://juejin.cn/post/6910821607829307399