1668. 最大重复子字符串 : 运用「字符串哈希」优化「序列 DP」(总结两类 DP 区别)
题目描述
这是 LeetCode 上的 1668. 最大重复子字符串 ,难度为 简单。
Tag : 「动态规划」、「序列 DP」、「字符串哈希」
给你一个字符串 sequence
,如果字符串 word
连续重复 k
次形成的字符串是 sequence
的一个子字符串,那么单词 word
的 重复值为 k
。
单词 word
的 最大重复值 是单词 word
在 sequence
中最大的重复值。如果 word
不是 sequence
的子串,那么重复值 k
为 0
。
给你一个字符串 sequence
和 word
,请你返回 最大重复值 k
。
示例 1:
输入:sequence = "ababc", word = "ab"
输出:2
解释:"abab" 是 "ababc" 的子字符串。
示例 2:
输入:sequence = "ababc", word = "ba"
输出:1
解释:"ba" 是 "ababc" 的子字符串,但 "baba" 不是 "ababc" 的子字符串。
示例 3:
输入:sequence = "ababc", word = "ac"
输出:0
解释:"ac" 不是 "ababc" 的子字符串。
提示:
- 1<=sequence.length<=1001 <= sequence.length <= 1001<=sequence.length<=100
- 1<=word.length<=1001 <= word.length <= 1001<=word.length<=100
sequence
和word
都只包含小写英文字母。
序列 DP
为了方便,我们记 sequence
为 ss
,记 word
为 pp
,将两者长度分别记为 n
和 m
。
同时我们调整「字符串」以及「将要用到的动规数组」的下标从 111 开始。
这是一道入门级的「序列 DP」运用题,容易想到 定义 f[i]f[i]f[i] 为了考虑以 ss[i]
结尾时的最大重复值。
不失一般性考虑 f[i]f[i]f[i] 该如何转移:由于 pp
的长度已知,每次转移 f[i]f[i]f[i] 时我们可以从 ss
中截取 以 ss[i]ss[i]ss[i] 为结尾,长度为 mmm 的后缀字符串 sub
并与 pp
匹配,若两者相等,说明 sub
贡献了大小为 111 的重复度,同时该重复度可累加在 f[i−m]f[i - m]f[i−m] 上(好好回想我们的状态定义),即有状态转移方程:f[i]=f[i−m]+1f[i] = f[i - m] + 1f[i]=f[i−m]+1。
最终所有 f[i]f[i]f[i] 的最大值即为答案。
Java 代码:
class Solution {
public int maxRepeating(String ss, String pp) {
int n = ss.length(), m = pp.length(), ans = 0;
int[] f = new int[n + 10];
for (int i = 1; i <= n; i++) {
if (i - m < 0) continue;
if (ss.substring(i - m, i).equals(pp)) f[i] = f[i - m] + 1;
ans = Math.max(ans, f[i]);
}
return ans;
}
}
TypeScript 代码:
function maxRepeating(ss: string, pp: string): number {
let n = ss.length, m = pp.length, ans = 0
const f = new Array<number>(n + 10).fill(0)
for (let i = 1; i <= n; i++) {
if (i - m < 0) continue
if (ss.substr(i - m, i) == pp) f[i] = f[i - m] + 1
ans = Math.max(ans, f[i])
}
return ans
}
Python 代码:
class Solution:
def maxRepeating(self, ss: str, pp: str) -> int:
n, m, ans = len(ss), len(pp), 0
f = [0] * (n + 10)
for i in range(1, n + 1):
if i - m < 0:
continue
if ss[i - m:i] == pp:
f[i] = f[i - m] + 1
ans = max(ans, f[i])
return ans
- 时间复杂度:O(n×m)O(n \times m)O(n×m)
- 空间复杂度:O(n)O(n)O(n)
字符串哈希
解法一的转移瓶颈在于:每次需要花费 O(m)O(m)O(m) 的复杂度来生成子串,并进行字符串比较。
该过程可用「字符串哈希」进行优化:将 ss
和 pp
进行拼接得到完整字符串,并计算完整字符串的哈希数组和次方数组。随后从前往后检查 ss
,若「某个以 ss[i]ss[i]ss[i] 结尾长度为 m
的后缀字符串哈希值」与「 pp
字符串的哈希值」相等,说明找到了前驱状态值 f[i−m]f[i - m]f[i−m],可进行转移。
我们通过 O(n+m)O(n + m)O(n+m) 复杂度预处理了字符串哈希,将转移过程中「复杂度为 O(m)O(m)O(m) 的子串截取与字符串比较」替换成了「复杂度为 O(1)O(1)O(1) 的数值对比」,整体复杂度从 O(n×m)O(n \times m)O(n×m) 下降到 O(n+m)O(n + m)O(n+m)。
不了解「字符串哈希」的同学可见前置 🧀 : 字符串哈希入门。里面详解字符串哈希基本原理以及哈希冲突简单处理方式
Java 代码:
class Solution {
public int maxRepeating(String ss, String pp) {
int n = ss.length(), m = pp.length(), ans = 0;
int[] f = new int[n + 10];
String s = ss + pp;
int P = 1313131, N = s.length();
long[] h = new long[N + 10], p = new long[N + 10];
p[0] = 1;
for (int i = 1; i <= N; i++) {
h[i] = h[i - 1] * P + s.charAt(i - 1);
p[i] = p[i - 1] * P;
}
long phash = h[N] - h[N - m] * p[m];
for (int i = 1; i <= n; i++) {
if (i - m < 0) continue;
long cur = h[i] - h[i - m] * p[m];
if (cur == phash) f[i] = f[i - m] + 1;
ans = Math.max(ans, f[i]);
}
return ans;
}
}
Python 代码:
class Solution:
def maxRepeating(self, ss: str, pp: str) -> int:
n, m, ans = len(ss), len(pp), 0
f = [0] * (n + 10)
s = ss + pp
P, N, MOD = 131, len(s), 987654321
h, p = [0] * (N + 10), [0] * (N + 10)
p[0] = 1
for i in range(1, N + 1):
h[i] = (h[i - 1] * P + ord(s[i - 1])) % MOD
p[i] = (p[i - 1] * P) % MOD
phash = (h[N] - h[N - m] * p[m]) % MOD
for i in range(1, n + 1):
if i - m < 0:
continue
cur = (h[i] - h[i - m] * p[m]) % MOD
if cur == phash:
f[i] = f[i - m] + 1
ans = max(ans, f[i])
return ans
- 时间复杂度:O(n+m)O(n + m)O(n+m)
- 空间复杂度:O(n+m)O(n + m)O(n+m)
总结
这里简单说下「线性 DP」和「序列 DP」的区别。
线性 DP 通常强调「状态转移所依赖的前驱状态」是由给定数组所提供的,即拓扑序是由原数组直接给出。更大白话来说就是通常有 f[i][...]f[i][...]f[i][...] 依赖于 f[i−1][...]f[i - 1][...]f[i−1][...]。
这就限定了线性 DP 的复杂度是简单由「状态数量(或者说是维度数)」所决定。
序列 DP 通常需要结合题意来寻找前驱状态,即需要自身寻找拓扑序关系(例如本题,需要自己结合题意来找到可转移的前驱状态 f[i−m]f[i - m]f[i−m])。
这就限定了序列 DP 的复杂度是由「状态数 + 找前驱」的复杂度所共同决定。也直接导致了序列 DP 有很多玩法,往往能够结合其他知识点出题,来优化找前驱这一操作,通常是利用某些性质,或是利用数据结构进行优化。
最后
这是我们「刷穿 LeetCode」系列文章的第 No.1668
篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。
在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。
为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:github.com/SharingSour… 。
在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。
更多更全更热门的「笔试/面试」相关资料可访问排版精美的 合集新基地 🎉🎉
转载自:https://juejin.cn/post/7161672819846152228