Spark Streaming从读源码到放弃
Aug 08, 2016
这篇文章来自于被 Spark Streaming 虐了2个月的我在拜读源码的过程中归纳出来的 Spark Streaming 中的知识, 尝试给大家解释一下 Spark Streaming 的在运行中实际发生了什么事情, 以助于 tunning 时不受制于框架的层层封装. 最佳的阅读方式是配合着 Spark Streaming 的源代码一起读, 因此我尽量加上了源代码的跳转:)
I dream of painting and then I paint my dream.
Aug 08, 2016
这篇文章来自于被 Spark Streaming 虐了2个月的我在拜读源码的过程中归纳出来的 Spark Streaming 中的知识, 尝试给大家解释一下 Spark Streaming 的在运行中实际发生了什么事情, 以助于 tunning 时不受制于框架的层层封装. 最佳的阅读方式是配合着 Spark Streaming 的源代码一起读, 因此我尽量加上了源代码的跳转:)
Jul 06, 2016
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,每个神经元都只影响邻层的一部分神经元,具有局部感受野,因此,网络具有极强的捕捉局部特征的能力;另一方面,通过权值共享和池化,显著地降低了网络的计算复杂度,使得CNN得到广泛应用。CNN是图像分类和语音识别领域的杰出算法,也是目前大部分计算机视觉系统的核心技术,从facebook的图像自动标签到自动驾驶汽车,乃至AlphaGo都在使用。与此同时,近两年CNN逐渐被应用于NLP任务,在sentence classification中,基于CNN的模型取得了非常显著的效果。
Jun 29, 2016
在广告行业中,实时竞价(Real Time Bidding, RTB)是近年来逐渐流行的一种广告采买方式。与传统的合约广告不同,RTB允许广告主对每一个展示机会进行竞价,从而以人群购买取代了广告位购买。需求方平台(Demand Side Platform, DSP)作为广告主的代理,需要在100ms以内对每个广告请求进行决策是否参与竞价,以及如果参与竞价出价多少。
Apr 25, 2016
在分布式系统中,各个机器都有程序运行的本地日志,有时为了分析需求,不得不这些分散的日志汇总需求,相信很多人会选择 Rsync,Scp 之类,但它们的实时性不强,而且也会带来名字冲突的问题。扩展性差强人意,一点也不优雅。
现实中,我们就碰到了这样的需求:实时汇总线上多台服务器的 Nginx 日志。Flume 立功了。
Apr 06, 2016
Ansible 在使用的过程中,如果机器数量比较固定,且变更不多的情况下,可在 /etc/ansible/hosts
文件里面配置固定的组合机器IP,并给他起组的别名,执行 ansible
脚本便可以通过别名找到相应的机器。
Mar 28, 2016
ELK是指elastic提供的一整套数据收集,存储,搜索,及展示方案。 由于部署及扩容方便,非常适合小团队快速搭建数据分析平台。ELK分别代指 Elasticsearch,Logstash,Kibana三个产品。
Mar 28, 2016
稍微“古老”一点的互联网时代,我们一直用短信,邮件来进行消息通知,特别是服务器报警这些信息。短信虽好,但是太贵,而且没办法分类分组分级别,后来我们发现了Pushover,很好地解决了我们的问题。
Jun 07, 2016
Upstart是一个用于替代传统 init 的系统初始化程序。相对于 init 的同步执行,Upstart 是事件驱动、异步工作的。由于是事件驱动, Upstart 提供了传统 init 没法提供的功能,如机器运行时添加或删除U盘;由于异步工作,Upstart 更能充分利用CPU资源,性能更好。