Category Archives: 玩氏物语。

浅谈如何提取 WordPress eXtended RSS (WXR) 中的信息

啊,然后我又很久没写博客了。明天要上班鸟,毕竟是第一份正儿八经全职工作,还是有点紧张外加期待的。这篇文也是拖了好久没写了,主要是在我分析完我的推特数据以后突然发现,我使用 WordPress based 的博客也有七年了(记录可以一直追溯到09年——再之前我也有用过yo2之类的 WP托管型博客,但是貌似我没有导出记录)。就突然心血来潮想看一下词云。(我知道WP有能提供词云的插件 ><)但托管在 WordPress.com 的博客有那么一点不一样,导出的数据格式不是普通的XML,而是WXR (WordPress eXtended RSS)。跟推特很好心的在打包的 zip file 里给你提供好 .csv 文件不一样,WordPress.com 的导出记录用文本编辑器打开来看就是长得很丑的……XML。所以就简单说下怎么提取数据啦。

Continue reading 浅谈如何提取 WordPress eXtended RSS (WXR) 中的信息

Advertisements

科学玩推特(3):基于主题模型的推文分析

真真是没想到,再次更新【科学玩推特】这个系列居然也是两个多月以后了。回美帝之后一度忙着找工,就没继续推文分析这项大工程。之前试图套 Topic Model (主题模型,下同)到推文上,但因为 Rwordseg 的中文分词太差劲所以就没弄成。好吧我总算是不再拖延了,也大概是学会了如何用搜索引擎吧= = 所有的源代码都可以在这里找到哦~

Continue reading 科学玩推特(3):基于主题模型的推文分析

科学玩推特(1):自动过滤 foers 脚本

因为宅在家里实在是太无聊,也没有能找到工作,所以就天天推上泡着。之前我一度以为自己是推上的大V,光凭 foers 数而言我随随便便就有 16,500+ 可以秒杀不少人了。脚本现在终于快运行完了(每个 foers 都查了一遍。。。),然后这个数字急剧缩减到这样:

Continue reading 科学玩推特(1):自动过滤 foers 脚本