bzoj 2251: [2010Beijing Wc]外星联络

时间:2020-03-26
本文章向大家介绍bzoj 2251: [2010Beijing Wc]外星联络,主要包括bzoj 2251: [2010Beijing Wc]外星联络使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

LINK:外星联络

给出一个字符串 求 输出所有出现超过一次的子串的次数。输出子串次数按照子串字典序输出。

考虑求出某个子串出现的次数 SAM或者SA都可以。考虑字典序输出 显然按照SAM的字典序便利一遍就行了。

但是,考虑用SA来做可以发现 求出现次数我们是用height来求的。

我们要输出也肯定是在SA数组上输出。

考虑对于一个串 我们要输出什么 上次和这次匹配长度为w 那么我们要输出 w+1~s(当前子串的长度。

这个时候height数组上二分即可。当然还有更暴力的做法 我们发现 输出的数量级是\(n^2\) 我们直接维护指针向右扫即可 不需要二分。

可以发现二分的复杂度为\(n^2log\)而暴力的复杂度为均摊\(n^2\).

(话说这个SA还是有点难度的 得搞一个单调栈 先正着扫再输出会好一点。。

const int MAXN=3010<<1;
int n,m=2,top;
int s[MAXN],w[MAXN];
int sa[MAXN],rk[MAXN],h[MAXN],x[MAXN],y[MAXN],c[MAXN];
char a[MAXN];
inline void SA()
{
	rep(1,n,i)++c[x[i]=(a[i]-'0')];
	rep(1,m,i)c[i]+=c[i-1];
	for(int i=n;i>=1;--i)sa[c[x[i]]--]=i;
	for(int k=1;k<=n;k=k<<1)
	{
		int num=0;
		rep(n-k+1,n,i)y[++num]=i;
		rep(1,n,i)if(sa[i]>k)y[++num]=sa[i]-k;
		rep(0,m,i)c[i]=0;
		rep(1,n,i)++c[x[i]];
		rep(1,m,i)c[i]+=c[i-1];
		for(int i=n;i>=1;--i)sa[c[x[y[i]]]--]=y[i];
		rep(1,n,i)y[i]=x[i],x[i]=0;
		x[sa[1]]=num=1;
		rep(2,n,i)x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k]?num:++num;
		if(num==n)break;
		m=num;
	}
}
inline void get_H()
{
	rep(1,n,i)rk[sa[i]]=i;
	int k=0;
	rep(1,n,i)
	{
		if(rk[i]==1)continue;
		if(k)--k;//h[i]>=h[i-1]-1
		int j=sa[rk[i]-1];
		while(a[i+k]==a[j+k])++k;
		h[rk[i]]=k;
	}
}
int main()
{
	freopen("1.in","r",stdin);
	gt(n);gc(a);
	SA();get_H();
	//rep(1,n,i)put(h[i]);
	rep(1,n,i)
	{
		s[top=1]=h[i+1];w[top=1]=i+1;
		rep(i+2,n,j)
		{
			if(h[j]<s[top])s[++top]=h[j],w[top]=j;
			else w[top]=j;
		}
		int last=h[i];
		for(int j=top;j>=1;--j)
		{
			if(s[j]>last)
			{
				rep(last+1,s[j],k)put(w[j]-i+1);
				last=s[j];
			}
		}
	}
	return 0;
}

考虑一下SAM 为什么是正确的?我有点忘了SAM的一些性质了 首先 SAM可以识别所有的子串。
所以我们按照字典序便利到达的每个节点都是子串 但是 一个点可能被到达多次

这是因为 由于我们点数的数量级为O(n) 所以必然一个点承载着多个子串 但是这并不影响我们的字典序输出。

为什么一个点到达多次 因为他们的right集合相同 所以可知尽管一点被遍历多次 可以发现是不同的子串。

值得一提的是 这道题 有trie树的做法 直接暴力遍历trie即可(简单粗暴的n^2.

原文地址:https://www.cnblogs.com/chdy/p/12575304.html