2016·年终·展望·总结

卧槽感觉才写完15年的总结马上就又要写16年的了,这一年怎么过得那么快……不知道在哪里看到,说随着时光推移人会感觉时间过得越来越快,因为小的时候对这个世界还很陌生好奇,每天都被新鲜事物所刺激。大了见识到这世界的真相以后就没有那种心境了,只觉得每天都浑浑噩噩得过且过的能混一天是一天(笑)。有点不太知道自己今年应该写些什么,所以先放一下好了。可能我明天有感觉了就会过来尽情吐槽?(说来博客也少更了好多……主要是没空+懒+不知道要说些什么,毕竟我16年原本是打算把这个博客往技术向方向发展的 😛  好了我来填坑了,依照惯例,总结前一年发生了什么+希望下一年会发生什么。

Continue reading 2016·年终·展望·总结

浅谈如何提取 WordPress eXtended RSS (WXR) 中的信息

啊,然后我又很久没写博客了。明天要上班鸟,毕竟是第一份正儿八经全职工作,还是有点紧张外加期待的。这篇文也是拖了好久没写了,主要是在我分析完我的推特数据以后突然发现,我使用 WordPress based 的博客也有七年了(记录可以一直追溯到09年——再之前我也有用过yo2之类的 WP托管型博客,但是貌似我没有导出记录)。就突然心血来潮想看一下词云。(我知道WP有能提供词云的插件 ><)但托管在 WordPress.com 的博客有那么一点不一样,导出的数据格式不是普通的XML,而是WXR (WordPress eXtended RSS)。跟推特很好心的在打包的 zip file 里给你提供好 .csv 文件不一样,WordPress.com 的导出记录用文本编辑器打开来看就是长得很丑的……XML。所以就简单说下怎么提取数据啦。

Continue reading 浅谈如何提取 WordPress eXtended RSS (WXR) 中的信息

科学玩推特(3):基于主题模型的推文分析

真真是没想到,再次更新【科学玩推特】这个系列居然也是两个多月以后了。回美帝之后一度忙着找工,就没继续推文分析这项大工程。之前试图套 Topic Model (主题模型,下同)到推文上,但因为 Rwordseg 的中文分词太差劲所以就没弄成。好吧我总算是不再拖延了,也大概是学会了如何用搜索引擎吧= = 所有的源代码都可以在这里找到哦~

Continue reading 科学玩推特(3):基于主题模型的推文分析

科学玩推特(2):用户分析

科学玩推特(1):自动清理 foers 脚本 一文中有提到,脚本帮我清了大概七千多用户。因为我的过失,最后只有4390个用户的信息被存了下来。有了这4390个用户的ID就好办啦(?)——用API去查了一下他们的信息(公开可查的 fields 见这里),其中让我感觉值得一查的领域也不多,最后就只留下了七项指标:用户ID,注册时间,蛋头(是/否),界面语言,fo数,foers数,和推数。用 Python 抓完后去掉了重复的记录,其中还有8个用户被禁号了(感想:我这是白忙活了吗),最后弄出来了一个干净的、可供进一步分析的 csv 文档。(果然最麻烦的都是 data collections and cleaning)导入R的时候有冲动想弄个模型来分析一下的,但后来发现这几个指标彼此之间没什么相关性(除非加上正常活跃推友的数据)于是只能作罢(可能未来还真的可以这样做诶)。

Continue reading 科学玩推特(2):用户分析