最近面试碰到的两道算法题|面试相关
TopK 最大的K个数
10亿数据内筛选最大的100个,要求速度要快。
最近阿里的一道面试题,其实基于多层博弈论,我想我刷过这题,我知道如何偷鸡的。我以为我在第二层,没想到我只在第一层。
第一层
于大顶堆的方式的方式筛选出数组内最大的k个数。
先看看顶堆的数据结构,其中可以看出0位置是要么就是堆内最大或者最小,然后我们可以利用堆的特性,去把当前的数组的值和这个最大最小进行比较。堆的另外一个特性就是会重排序,参考堆排序算法。
当然你让我现场手写写我肯定是忘了,但是一个开发是可以偷鸡的呀,我们可以直接用优先级队列PriorityQueue
的内部实现就是大顶堆。对于海量数据来说,优先级队列基本就是一个比较合适的答案了。
总数1万个取最大100,快排略快,最小堆偶尔快。
总数10万个取最大100,最小堆略快,快排偶尔快。
总数100万个取最大100,最小堆完胜,快排没戏,而且最小堆大概快了2倍。
总数1000万个取最大100,最小堆完虐,快排没戏,而且最小堆快了大概2倍。
结论:最小堆比快排优秀。
原因:
1.速度确实快。
2.最小堆不需要打乱原数据顺序,而快排会打乱。(并不是快的原因,而是最小堆的优点)
3.如果内存有限,无法加载所有数据,则最小堆快。
以上数据引用自 topK问题最小堆和快排哪个快。所以偷鸡就可以解决第一层的问题。
public int findKthLargest(int[] nums, int k) {
PriorityQueue queue=new PriorityQueue(k,new Comparator() {
@Override
public int compare(Integer o1, Integer o2) {
return o1.compareTo(o2);
}
});
for(int i=0;iif(queue.size()>k){
queue.poll();
}
}
return queue.peek();
}
复制代码
这是我leetcode乱写的第k大个数啊。
第二层
面试官对我的偷鸡取巧并不满意啊,他需要我提速,这个速度不行啊。
What??是有时间复杂度更低的吗?不不不,这是一道核心竟然是一道多线程的题目。
- 将10亿的数据分片,通过分治的思维对数据进行第一次处理。
- 开启多线程然后对其进行这些分片的数据进行优先级队列操作。
- 然后每个子线程筛选出其中最大的k个数
- 当所有线程执行完毕之后合并数据
我猜测的第三层
- 是不是考虑下多少个数据一分片,然后如何把效能提升到最高的问题?
- 构建多少个线程读取效率是最高的?
这个都是我没想到的,各位大佬有想法的可以聊一下啊。
一篇文章内的单词数量
这题乍一看卧槽貌似不难,foreach循环碰到一个空格或者标点的情况下sum++,是不是就可以解决这个问题。
然而事情并没有想想的这么简单。面试被问到这种问题最难的是什么,可能是对于这题目真实的边界问题的思考。
- 如果这篇文章内容很大怎么办,会不会把内存吃光?
- 如何给单词去除重复?
是不是可以考虑逐行读取呢?
将其转化成IO流,逐行读取流,之后对这个输入内容进行一次计数操作,是不是就可以解决这个问题呢。
单词重复的问题
卧槽,这个真简单HashSet啊!!!!那么如果海量数据我是不是又炸了?
卧槽,死亡螺旋吗。或许我们可以考虑下用hash的方式来解决,只保留单词的hashcode,是不是可能可以解决呢。
同样的这个也可以使用多线程分片去优化
方式的话基本也和上面是完全一样的,只要把数据分片,之后多线程调度,然后合并结果就可以了。
总结
我问了下后端大神,这些应该都是mapreduce里面出现的原题啊,都是和海量数据相关的,有兴趣的可以自己去查下。
别说了,这些都是下场之后想了想总结的,当场面试就是懵逼的,边界个锤子。
- 关于Android PullTorefreshScrollview回到顶部实例
- 《笨办法学Python》 第2课手记
- 《笨办法学Python》 第1课手记
- 《笨办法学Python》 第40课手记
- 很经典的GDB调试命令,包括查看变量,查看内存
- 《笨办法学Python》 第39课手记
- 《笨办法学Python》 第38课手记
- 01背包及其变种(物品无限背包、恰好装满背包)
- 《笨办法学Python》 第35课手记
- github pages + Hexo + 域名绑定搭建个人博客增强版
- 责任链模式
- 《笨办法学Python》 第33课手记
- 《笨办法学Python》 第32课手记
- 《笨办法学Python》 第31课手记
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Codeforces Round #530 (Div. 1) 1098A Sum in the tree
- 非易失性WAL buffer实现解析(三)
- android实现切换日期左右无限滑动效果
- 疯子的算法总结(七) 字符串算法之 manacher 算法 O(N)解决回文串
- PostgreSQL WAL解析:构建WAL记录准备
- CodeForces - 225C. Barcode(DP)
- android studio 3.0 service项目背景音乐实现
- 疯子的算法总结(六) 复杂排序算法 ① 归并排序 merge_sort()
- PostgreSQL扫描方法综述
- CodeForces - 224C. Bracket Sequence (栈模拟)简单做法
- XLOG段文件跳号现象分析
- codeforce 227E 矩阵快速幂求斐波那契+N个连续数求最大公约数+斐波那契数列的性质
- 疯子的算法总结(五) 矩阵乘法 (矩阵快速幂)
- codeforce 227D Naughty Stone Piles (贪心+递归+递推)
- POJ3614防晒霜 这个贪心有点东西(贪心+优先队列)