半天成

资之深,则取之左右逢其源


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

蓄水池抽样问题

发表于 2017-06-19 | 分类于 算法 |

前几天听到同事面试的时候问了蓄水池抽样问题,以前也听过这个问题,但是也没有自习思考过这个问题,一时间也想得不是很清楚这个问题,就花了一点时间看了一些,这里做一个记录,也让自己以后想起的时候有一个回忆的地方。

什么是蓄水池抽样问题呢?

先来看一下维基百科的解释:

Reservoir sampling is a family of randomized algorithms for randomly choosing a sample of k items from a list S containing n items, where n is either a very large or unknown number. Typically n is large enough that the list doesn’t fit into main memory.

也就是从n个元素中随机地选择出k个元素,需要满足每个元素被选择出来的概率是一样的,同时这里的n预先是未知的,每一次接收输入的时候选择的时候都需要使每个数被选择出来的概率相等。

阅读全文 »

一种数据推送解决方案

发表于 2016-04-06 | 分类于 Coder |

这几天之前做的一个实验室项目终于到了验收阶段,但是甲方突然提出了将爬虫放到我们的机器上,只在他们的机器上部署一套程序,但是不进行采集,我们将采集到的数据每天推送到他们的机器上。没办法,只能够修改程序了。整个解决方案还是比较简单的,但是解决过程中还是遇到了一些坑,这里简单记录一下。

解决方案

问题

  1. 需要导入的内容存在数据库记录和图片文件,图片文件格式很多
  2. 甲方给我们提供的机器没有公网IP

思路

针对这些问题,主要考虑了一下几种思路,这几种思路的不同主要体现在数据传输的方式上面:

  1. 通过甲方单位的邮箱

    在数据采集端,定时将采集到的最新数据发到甲方单位的邮箱中,然后利用部署在甲方单位的客户端程序定时去接收邮件,然后将数据导入到特定的位置。对于这一种方案,没有做出更多的调研。不知道甲方是否能够帮助提供邮箱,也不知道邮箱的限制会有哪些(邮件附件大小等),所以放弃了。

  2. 通过网盘进行数据同步

    将在采集端压缩好的数据放到网盘对应的文件夹中,然后借助网盘提供的同步功能将数据同步到网盘提供商的服务器上。客户端登录同样的网盘帐号,从网盘中下载数据文件,然后解压,导入到特定的地方。这种方案感觉还是挺麻烦的,首先网盘服务感觉不是特别稳定,不知道哪天网盘就挂了;第二,网盘是否允许多个地方同时登录;第三,如果网盘不提供客户端,还要模拟登录什么的。总之,这个方案就是一个深坑。

  3. 通过FTP进行数据同步

    最终还是选择了这种方案,在采集服务器上开启FTP服务,然后数据压缩之后放到FTP对应的目录里面。客户端程序定时访问FTP,然后下载文件,导入到甲方的服务器中。这种方案相对于上面两种方案最大的优点就是服务我们能够控制,避免了其它服务的问题对系统运行的影响。

阅读全文 »

log4j使用

发表于 2015-05-26 | 分类于 Coder |

这几天在写一部分代码,然后感觉以前自己写代码的方式都是在有问题的地方直接把结果在控制台中打印出来,这种处理方式对于自己写一些代码倒是没有什么问题,但是对于一些线上系统的话就很难跟踪问题了,所以还是准备采用log4j来记录一下日志信息,下面记录了一些log4j的基本用法,好在以后忘记的时候查询。

虽然log4j使用起来比较简单,但是要完全弄清楚还是具有比较多的内容,所以这里就简单地先介绍一下我用的方式,等以后有另外的使用的时候再进行补充。

阅读全文 »

谁来做需求分析

发表于 2015-04-07 | 分类于 产品经理 |

这几天,实验室新接到了一个项目,目前正处于需求分析阶段。已经和项目的甲方连着开了几次会,也基本上明确了甲方的基本需求,今天又让我们总结文档,但是却写得焦头烂额,发现需求这个问题是比较麻烦的,所以有一些思考,在这里记录一下。

首先申明,由于这两天实在是有太多事情了,所以没有时间去查询那些前辈们的成果,本文中描述的都是一些自以为是的观点和想法。

需求分析应该由谁来做

上周第一次和老师去甲方单位做需求分析的时候,甲方拿出了一个文档,上面写着他们单位每个人的分工,然后就看见了他们那边的人有产品总监、产品经理等等各种角色,也对,既然别人是甲方,那么获得一个头衔也是应该的。然后对方产品经理就拿出了一个文档,突然就发现对方已经做了很多了啊,有一些产品经理的感觉啊。然后第一天的工作,除了熟悉他们现有的系统的业务功能外,我们就在看他们的那份文档,文档中就列出很多的功能,比如说希望新的系统相对原有的系统的某个页面要怎么修改之类的。还真别说,有一些还真的写得挺清楚的。可是,这个会开了一天,我确越来越糊涂。后来回来的时候,我给老师说,我感觉需求分析应该是由我们来做,他们能做的就是让我们熟悉业务上的内容以及提出一些他们的要求。老师说,他们的需求分析已经做得挺好的了,他做了这么多项目,这个算是挺好的了。那么需求分析到底是应该由谁来做呢?

阅读全文 »

博客新生

发表于 2015-02-05 | 分类于 blog |

关于博客

这篇博客的题目看起来有点厉害的样子,其实就是小改动了一下。 :)

很久之前的一天就突然十分想写博客了,可是当时因为域名过期了,也由于当时的确有点忙,所以就没有重新整理这个博客。一晃几个月过去了,这学期也进入了尾声,相对来说也没有什么事情了,也是前两天一直没有什么好的想法去做,所以就想起了这个可怜的博客。

博客实际上就是升级了hexo,之前的版本记不住了,现在升级到了3.0,然后就是换了Litten的主题。挺喜欢这个主题的。目前对于这个主题有一些改进的想法,可是奈何个人技术太差,不能几下就修改出来,所以还是先放着,慢慢改吧。

阅读全文 »
123
shoumu

shoumu

make a difference

13 日志
6 分类
25 标签
RSS
GitHub Weibo ZhiHu
Links
  • 天外天
  • HRZ在哪里
  • Next
© 2013 - 2017 shoumu
由 Hexo 强力驱动
主题 - NexT.Pisces