机器学习和生物信息学实验室联盟

标题: 苦逼求职路 [打印本页]

作者: huasixie 时间: 2015-10-1 08:58
标题: 苦逼求职路

百度实习转正面经

我当时在百度的自然语言处理部实习，实习快结束时，经理找了一大牛来对我进行转正面试。以下M是面试官，W是我（我的一些回答不是正确的，主要看看面试官问题就好）
M：XX，你知道我找你干嘛吧。
W：恩恩。
M：百度这里对于实习生转正都会要求进行一个加面，你也知道实习面试一般都是比较松的。不过你也不用紧张，我们就简单谈谈。
W：好。
M：你先简单的自我介绍下吧。
W：balabala...
M：我们先考一下C++的知识吧，一个int*a = new int(10); 一个int a[] = int [10]；这两个有什么区别。
W：恩...数组形式那个系统会自动回收，new的那个需要程序员自己delete掉。
M：为什么一个会自动回收，一个需要手动delete。
W：恩，好像一个是存放在栈上，一个，恩...这个有点忘。
M：还有吗？
W：恩，数组那个好像会初始化，而new的那个不会。
M：数组那个一定会初始化吗？
W：恩...是吧。
M：我们来做个题吧。有一堆数，我不知道一共有多少个，其中只有一个数是出现了一次，其他数都是出现了两次，怎么找出那个出现了一次的数。
W：恩...
M：你就告诉我，你第一个想到的思路是什么。
W：可以用hash来做。
M：怎么做。
W：可以用一个map...
M：不是说用hash来做吗？怎么用map了？
W：map不是hash吗？
M：map是map，hash是hash，你知道C++里面map是用什么实现的吗？
W：...这个不清楚哈。
M：c++里是用红黑树来实现的。
W：哦哦。
M：那你说下用hash怎么来做。
W：用一个map...
M：map不是hash。
W：哦哦，那就用map来做，遍历一遍，用一个map来保存，key的话是数字，值是数字出现的次数。
M：那如果这题有浮点数，可以用hash来做吗？
W：恩... ... 应该是不可以吧。
M：为什么？
W：恩... 浮点数的话，用hash，恩...
M：hash函数不能计算浮点数是吗。
W：恩，恩。
M：那你还有其他思路来做这题吗？
W：... ...可以用异或，因为两个相同的数异或完为0，把所有数异或一遍，剩下的就是出现一次的数了。
M：怎么用异或？
W：恩? 怎么用？先把数转成二进制的01，然后异或...
M：为什么还要转成二进制？
W：因为... ...恩，这个... ...
M：介绍一下你读研时的研究内容吧。
W：我研究的是不平衡数据的处理。传统的分类器在不平衡数据上性能会变得很差...
M：为什么？
W：恩... ...你比如说传统分类器用准确率这个指标来衡量分类效果，但是对于不平衡数据来说，如果我把所有的少数类都归为多数类，那么准确率可以很高，但是结果不是我们想要的。
M：这个只是衡量标准的问题，我也可以修改传统分类器的衡量标准，像用AUC这个来衡量，那不是可以解决了？
W：恩，这个... ...
M：有一个数据量大的不平衡数据和一个数据量小的不平衡数据，传统分类器在哪个数据集上效果更差。
W：... ...应该是数据量小的效果更差。
M：为什么？
W：恩，数据量大的话，包含更多信息吧。
M：那对不平衡数据有什么解决方法？
W：有三种解决方法。一个是对数据进行处理，比如对少数类进行过采样，对多数类进行降采样，使数据集分布大致均衡。一个是修改传统分类器，修改cost function，使其更关注少数类的分错情况。还有一个是集成方式。
M：集成方式？
W：恩，就是多个分类器集成。
M：为什么集成可以解决不平衡分类问题？
W：恩，因为每个分类器关注的重点不一样，然后集成起来以后就会取得较好的效果。你像GBDT就是一种集成分类器，它对不平衡数据的分类效果就不错。
M：介绍下GBDT吧。
W：bala bala
期间还追问了一些GBDT的问题，也比较血腥，先略过了。
M：现在有一个问题，需要用机器学习的方法来解决，你要从哪几方面入手？
W：恩... ...首先是看是什么具体问题，是分类，回归，还是聚类。然后比如是分类问题，看特征的数量，如果特征比较多的话用LR，比较少的话可以用GBDT。
M：LR是在特征比较多的时候用的？
W：恩... ...是吧。
M：还有什么要考虑的吗？
W：恩，然后看数据集的分布吧，看是不是不平衡数据问题。
M：还有吗？
W：恩，暂时想到这些。
M：我们来做到编程题吧。有两个有序链表，要合并成一个，其中重复出现的数字，只保留一个。
W：好... ...
M：我给你一些建议吧，这个跟你过没过没有关系哈，我一般面完都会给面试者提几点意见的。
W：恩恩，好，明白哈。
M：首先，你说话时总喜欢停顿，然后再从头说一遍，不知道你发现了没有。这个其实很不好，因为面试官是跟着你的思路走的，你突然断掉了，面试官会跟不上。第二点：你有很多小动作，像摸眉毛啊，转笔啊，饶头啊。这个是对面试官的不尊重。我知道这是习惯，不好改过来，不过还是希望你以后多多注意。第三点：基础不够好，希望回去好好补习。说实话，我出的那些题只是一面的程度，如果是校招面试，你连二面都到不了。第四点：就是要多问些为什么，不要知其然不知其所以然。像你现在跟着XX（我指导人）做项目，要多思考为什么要这样做，为什么不那样做。

以上就是我充满血泪史的百度转正面试，最后结果可想而知，顺利地没拿到转正offer。虽说实习了快半年，最后却没拿到offer，有点遗憾。但是还是很庆幸能在自然语言处理部呆过，能和一群NB的人共事过。最后面试我的面试官是个年轻有为的大牛，面试完还提了很多宝贵意见，还是很感谢他。

作者: zouquan 时间: 2015-10-1 09:17

太tmd血腥了。。。谁都得挂啊。。。感觉就是被qj啊。。

作者: shixiang 时间: 2015-10-1 09:45
今年有同学进了阿里研发部实习，然而他竟然体检不通过被刷了。

作者: huasixie 时间: 2015-10-1 09:59

网易互联网内推面经

百度转正面试过了大概两周后，经理hi上和我说：感谢你对XX(指导人)和团队的认可。比较遗憾，我综合我自己和各方意见，决定不发正式offer。吓得我赶紧上网买了本程序员面试宝典，开始苦逼求职之路。
我先是投了网易互联网的内推，后面也顺利进行到hr面了，但是后面就没消息，可能被备胎了。两轮技术面问的较一般吧，就记得两个问题。
M1：有500台机器，每台机器都保存海量的数据，怎么找出最大的top 10？
W：每台机子找出top 10，然后再在这5000里找出top 10。
M1：额，那每台机子怎么找出top 10？
W：哦，可以用一个10个节点的最小堆来做，先用前10个建一个最小堆，然后遍历剩下的数，如果数比堆顶的大，则更新最小堆，最后剩下的就是最大的top 10了。另外一种做法是，先随机的抽一部分数据，比如一共有一亿个数，先随机的抽10%的数据，也就是1千万个数，在这一千万里找top 10。然后用这top 10去过滤一遍数据，把所有小于这top 10里最小那个数的数都丢掉。如果数分布的足够随机的话，这样过滤下来，就只剩下100个数了，再在这100个数里快排，堆排一下，就能找出top 10了。
其实这题刚好在面试宝典里看过，所以忽悠的比较好。第二个面试官也问了一个比较有意思的题。
M2：我最开始有一份训练数据，有三个特征：f1,f2,f3。后面又来了一份新的训练数据，但是特征是f2,f3,f4。这两份数据的目标是一样的，也就是要预测的东西是一样的，就是特征不同。怎么用第二份数据来改善第一份数据的效果？
W：...恩，可以这样做，给第一份数据新增特征4，然后赋予特征4的平均值。给第二份数据新增特征1，然后赋特征1的平均值。这样两份数据的特征就一样了，就可以加在一起训练了。
M2：那平均值要怎么取？是取训练集的平均值，测试集的，还是所有的？
W：取训练集的。
后面我和大师妹，高冷师弟探讨这题，高冷弟说这不就是特征缺失问题吗？后面我想想确实是这样。

作者: maoyaozong 时间: 2015-10-1 14:01
话说baidu两道数据结构题目都是出烂的了……第一个异或，第二个两个指针遍历……话说500台机器那题目，没必要每台都top10吧，先求500台每个的max（线性时间复杂度）, 然后从这500个里面挑出top10（常数时间复杂度），然后对这10台机器再做top10 （10个堆的时间复杂度），获得的100个数据再找top10（常数） ,时间复杂度对更小（少了490nlogn-500n）………反正你都去了更牛逼的腾讯了

作者: guojiasheng 时间: 2015-10-3 10:33

作者: hxianxian 时间: 2015-10-3 15:00
面过百度的社招，当时问的问题是：
1. 一个文件包含n个自然数，最大的为10^7，内存最大1M可用，将这n个自然数按递增排序输出；
2. 给定4个数，判断是否存在某种方式，通过加减乘除或者括号，使它的值等于24.
3. 给你n个点，如何几阶的回归拟合方程更适合。

问题1 好像是编程珠玑书上的问题，看过没被虐，在内存里面存一个数组，一个元素占1 bit，然后逐个读入，如果读入的是5，则将数组下标为5的元素置1，最终将元素为1的按照下标序输出即可。
问题2 传说中得24点问题，没有关注过，残忍被虐，网上很多解决办法，什么SWC算法，回溯的方案，总之我没能让面试官开心。。。
问题3 。。。我默默的回答了一句一般我们选取1-3阶的就可以了，试一下，阶数太高容易过拟合。然后面试官就和我讨论过拟合的问题了，不知道他想要的是什么。。。

供后续学弟学妹参考。。

作者: zouquan 时间: 2015-10-3 15:17

hxianxian 发表于 2015-10-3 15:00
面过百度的社招，当时问的问题是：
1. 一个文件包含n个自然数，最大的为10^7，内存最大1M可用，将这n个自 ...

问题3我觉得阶数越小越好，误差越小越好，设定一个误差的阈值，然后从n往下试，直到超过了阈值就停止。这是我的想法。

作者: wangjingjing 时间: 2015-10-4 17:58
感觉每个问题都可以被虐惨了，复习着复习着，感觉没有实战的看书都是扯淡。。
心好累，找工作真不容易。。。

作者: hxianxian 时间: 2015-10-4 23:44
这个好，学习了！

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)