经典的大数据问题

关注

来源： 2268 2017-02-23

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

经典的大数据问题

文 | CTTCassie

随着信息的高速发展，越来越多的数据信息等待处理，如何快速的从这些海量数据中找到你所需要的数据呢?这就是大数据的处理问题，下面我对几个经典的大数据问题进行分析~~~~

一. 设计算法找到每日访问百度出现次数最多的IP地址?

分析：将所有的IP逐个写入到一个大文件中，因为当IP地址采用点分十进制的方式表示的时候是32位的，所以最多存在2^32个IP。可以采用映射的方式，比如模1000，将这个较大的文件映射为1000个小文件，再将每个小文件加载到内存中找到每个小文件中出现频率最大的IP(可以使用hash_map的思想进行频率统计);然后在这1000个最大的IP中找出那个出现频率最大的IP，就是出现次数最多的IP了。

算法思想如下：(分而治之+hash)

1).IP地址最多有2^32=4G个，所以不能直接将所有的IP地址加载到内存中

2).可以考虑采用”分而治之”的思想，就是将IP地址Hash(IP)%1024值，将海量IP分别存储到1024个小文件中，这样每个小文件最多包含(2^32)/(2^10)=4M个IP地址

3).对于每一个小文件，可以构建一个IP值为key,出现次数为vaue的hash_map，通过value的比较找到每个文件中出现次数最多的那个IP地址

4).经过上述步骤已经得到1024个出现次数最多的IP地址，再选择一定的排序算法找出这1024个IP中出现次数最多的那个IP地址

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

分析：我们知道对于整形数据来说，不管是有符号的还是无符号的，总共有2^32=4G个数据(100亿个数据中肯定存在重复的数据)，我们可以采用位图的方式来解决，假如我们用一个位来代表一个整形数据，那仫4G个数共占512M内存。我们的做法是将第一个文件里的数据映射到位图中，再拿第二个文件中的数据和第一个文件中的数据做对比，有相同的数据就是存在交集(重复的数据，交集中只会出现一次).

经典的大数据问题

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

分析：要解决这个问题同样需要用到位图的思想，在问题二中已经了解到采用位图的一个位可以判断数据是否存在，那仫找到出现次数不超过两次的数字使用一个位是无法解决的，在这里可以考虑采用两个位的位图来解决.

根据上述分析我们可以借助两个位，来表示数字的存在状态和存在次数，比如：00表示不存在，01表示存在一次，10表示存在两次，11表示存在超过两次;类似问题二的计算过程：如果一个数字占一位，需要512M内存即可，但是如果一个数字占两位，则需要(2^32)/(2^2)=2^30=1G内存;将所有数据映射到位图中查找不是11的所对应的数字就解决上述问题了。

题目扩展：其他条件不变，假如只给定512M内存该如何找到出现次数不超过两次的数字?

分析：将数据分批处理，假若给定的是有符号数，则先解决正数，再解决负数，此时512M正好解决上述问题.

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

分析：看到字符串首先应该反应过来的就是布隆过滤器，而问题四的近似算法就是采用布隆过滤器的方法，之所以说布隆过滤器是近似的算法，因为它存在一定的误判(不存在是肯定的，存在是不肯定的);而要想精确判断字符串文件的交集，我们可以采用分而治之的方法：将大文件切分为一个一个的小文件，将一个又一个的小文件拿到内存中做对比，找到对应的交集。

1.布隆过滤器的近似解决办法：

根据不同的字符串哈希算法，可以计算出不同的key值，然后进行映射，此时可以映射到不同的位置，只有当这几个位全部为1的时候这个字符串才有可能存在(因为当字符串过多的时候可能映射出相同的位)，只有一个位为0，那仫该串一定是不存在的，所以说布隆过滤器是一种近似的解决办法。将第一个文件映射到布隆过滤器中，然后拿第二个文件中的每个串进行对比(计算出特定串的key，通过不同的哈希算法映射出不同的位，如果全为1则认为该串是两个文件的交集;如果有一位为0那仫该串一定不是交集).

2.哈希切分的精确解决办法：

既然叫做切分，顾名思义就是将大文件切分为小文件，那仫如何切分?切分的依据是什仫呢?如果我们在切分的时候可以将相似或者相同的文件切分到同一个文件中那仫是不是就加快了查找交集的速度呢?答案是肯定的。

知道了哈希切分的依据我们应该如何处理呢?我们可以根据字符串的某个哈希算法得到该字符串的key，然后将key模要分割的文件数(假设为1000个文件，文件编号为0~999)，我们将结果相同的字符串放到同一个文件中(两个文件中的字符串通过相同的哈希算法就会被分到下标相同的文件中)，此时我们只需要将下标相同的文件进行比对就可以了。。。

哈希切分明显比布隆过滤器的方法效率要高，时间复杂度为O(N).

具有删除功能的BloomFilter：

经典的大数据问题

在上面实现的布隆过滤器中引用了不同的哈希算法，有想研究哈希算法的的童鞋可参考各种字符串Hash函数>>>

36大数据(www.36dsj.com)成立于2013年5月，是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度，为大数据产业生态图谱上的需求商、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 经典的大数据问题

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

125款安卓应用卷入庞大广告骗局帮助窃走数亿美元广告收益

导语：这样的骗局之所以针对安卓系统，部分原因在于其拥有庞大的用户群体，以及应用程序审查程序不如苹果那样严格。10月24日消息，据外媒报道，新闻聚合网站BuzzFeedNews调查发现了一个庞大而复杂的数字广告骗局，125款非常受欢迎的安卓应用被诈骗者....

网站文章如何能自动判定是抄袭?一种算法和实践架构剖析

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。作者：文辉1.文本指纹介绍互....

安卓又遭歧视连刷朋友圈质量都比iOS低

导语：比如，两个人去游玩，一个人那安卓手机发朋友圈，用iPhone发朋友圈，由于微信的算法不同，两者的照片在其他人看来观感就会完全不同。由于众所周知的原因，安卓上的微信软件并没有采用Android规范的UI，而是采用了与iOS系统相同的设计语言，这也....

数据运营丨如何运营，让自己的app产品拥有3000万用户

唯有可持续的垄断才能够赚钱！唯有拥有定价权的垄断才叫做真正的垄断！现在全国上线的app产品500多万，平常用户手机常用的也就寥寥四五款，可能你的产品跟他们都没有竞争关系，但是一个用户的大脑带宽也就这么多，用户的可利用时间也就这么长，不可能在分散精力到....

数据运营丨手机游戏须有版号才能上架中国区App Store

导语：一些苹果应用开发者收到苹果公司通知，称AppStore将遵照广电总局通知，新移动游戏必须办理版号，否则7月1日后不能上架。6月30日，一些苹果应用开发者收到苹果公司通知，称AppStore将遵照广电总局通知，新移动游戏必须办理版号，否则7月1日....

数据运营丨新风口？巨头为何齐齐发力内容分发平台

导语：“内容分发”，一个原本的小平台业务，缘何引来大小巨头“集体”出战？近日，BAT不约而同将目光投向内容分发平台，加入资讯市场的较量。“内容分发”，一个原本的小平台业务，缘何引来大小巨头“集体”出战？8300万。在日前公布的2017年百度第一季度财....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

经典的大数据问题

一. 设计算法找到每日访问百度出现次数最多的IP地址?

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

评论

相关文章推荐

125款安卓应用卷入庞大广告骗局帮助窃走数亿美元广告收益

网站文章如何能自动判定是抄袭?一种算法和实践架构剖析

安卓又遭歧视连刷朋友圈质量都比iOS低

数据运营丨如何运营，让自己的app产品拥有3000万用户

数据运营丨手机游戏须有版号才能上架中国区App Store

数据运营丨新风口？巨头为何齐齐发力内容分发平台

友情链接

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

一. 设计算法找到每日访问百度出现次数最多的IP地址?

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

评论

相关文章推荐

125款安卓应用卷入庞大广告骗局 帮助窃走数亿美元广告收益

网站文章如何能自动判定是抄袭?一种算法和实践架构剖析

安卓又遭歧视 连刷朋友圈质量都比iOS低

数据运营丨如何运营，让自己的app产品拥有3000万用户

数据运营丨手机游戏须有版号 才能上架中国区App Store

数据运营丨新风口？巨头为何齐齐发力内容分发平台

友情链接

125款安卓应用卷入庞大广告骗局帮助窃走数亿美元广告收益

安卓又遭歧视连刷朋友圈质量都比iOS低

数据运营丨手机游戏须有版号才能上架中国区App Store