离散化思想详细讲解

1.什么是离散化

数据离散化是一个非常重要的思想。

为什么要离散化?当以权值为下标的时候，有时候值太大，存不下。所以把要离散化的每一个数组里面的数映射到另一个值小一点的数组里面去。

打个比方，某个题目告诉你有104个数，每个数大小不超过1010，要你对这些数进行操作，那么肯定不能直接开1010大小的数组，但是104的范围就完全没问题。

我们来看一下定义：离散化，把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。（by百度百科）

通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：

原数据：1,999,100000,15；处理后：1,3,4,2；

原数据：{100,200}，{20,50000}，{1,400}；

处理后：{3,4}，{2,6}，{1,5}；

但是离散化仅适用于只关注元素之间的大小关系而不关注元素本身的值!

假如你想写的更加专业就要采用以下步骤：

1、排序

2、去重

3、索引

首先我们要对所要进行离散化的数据进行排序：一般使用sort对数组或结构体排序。

然后是去重操作，为了写出高效的代码，我们需要复习两个STL函数：unique（）和lower_bound（），他们同时隶属于#include。

unique的作用是“去掉”容器中相邻元素的重复元素（不一定要求数组有序），它会把重复的元素添加到容器末尾（所以数组大小并没有改变），而返回值是去重之后的尾地址；

函数lower_bound()在first和last中的前闭后开区间进行二分查找，返回大于或等于val的第一个元素位置。如果所有元素都小于val，则返回last的位置。【ps.upper_bound是返回第一个大于b[x]的指针，upper_bound（）=lower_bound（）+1】

关键代码如下：

#include<algorithm> // 头文件 
//n 原数组大小 num 原数组中的元素 lsh 离散化的数组 cnt 离散化后的数组大小 
int lsh[MAXN] , cnt , num[MAXN] , n;
for(int i=1; i<=n; i++) {
	scanf("%d",&num[i]);
	lsh[i] = num[i];	
}
sort(lsh+1 , lsh+n+1);
cnt = unique(lsh+1 , lsh+n+1) - lsh - 1;
for(int i=1; i<=n; i++)
	num[i] = lower_bound(lsh+1 , lsh+cnt+1 , num[i]) - lsh;
;

我们来看一个例题；题目链接在这里哦！

假定有一个无限长的数轴，数轴上每个坐标上的数都是0。

现在，我们首先进行 n 次操作，每次操作将某一位置x上的数加c。

接下来，进行 m 次询问，每个询问包含两个整数l和r，你需要求出在区间[l, r]之间的所有数的和。

输入格式第一行包含两个整数n和m。

接下来 n 行，每行包含两个整数x和c。

再接下里 m 行，每行包含两个整数l和r。

输出格式共m行，每行输出一个询问中所求的区间内数字和。

数据范围 −109≤x≤109, 1≤n,m≤105, −109≤l≤r≤109, −10000≤c≤10000 输入样例： 3 3 1 2 3 6 7 5 1 3 4 6 7 8 输出样例： 8 0 5

思路：离散化加前缀和

#include<bits/stdc++.h>

using namespace std;
typedef pair<int,int> PII;

vector<PII> add , query;
vector<int> alls;   // 储存大区间内所有出现过的数
int a[300010] , s[300010];

int find(int x){
	int pos;
	pos = lower_bound(alls.begin(),alls.end(),x) - alls.begin() ;  //查询集中起来后的数的下标
	return pos+1;  //下标从 1 开始;
}

int main()
{
	int n,m,x,c;
	cin>>n>>m;
	while(n--){
		cin>>x>>c;
		add.push_back({x,c}); 
		alls.push_back(x);
	}
	while(m--){
		cin>>x>>c;
		query.push_back({x,c});
		alls.push_back(x);
		alls.push_back(c);
	}
	sort(alls.begin(),alls.end()); 	//由于是坐标，即可以排序去重
	alls.erase(unique(alls.begin(), alls.end()) , alls.end());   //在大区间内出现过的数集中排序去重
	// unique()把不重复的元素排序放在最前边, 返回这些有序序列最后一个元素的后一个迭代器; 
	
	for(auto item : add){      
		int pos = find(item.first);  //查询下标 ,然后累加;
		a[pos] += item.second;
	}
	
	for(int i=1;i<=alls.size();i++) s[i] = s[i-1] + a[i] ;   //前缀和;
	
	for(auto item : query){
		int l = find(item.first);
		int r = find(item.second);
		cout<<s[r]-s[l-1]<<endl;
	}
	return 0;
}