博文

目前显示的是 七月, 2018的博文

AlphaRacks KVM 主机跑分评测

这篇文章从中原驿站镜像至此,推荐访问原地址以查看最新的内容以及最佳的排班效果: https://hzy.pw/p/2592 AlphaRacks 家的主机相当便宜,之前就买过他们家的 OpenVZ 主机,$10 一年的样子,但是速度真的很慢,搭梯子也就只有每秒几百 KB 的峰值,可见其超售确实严重(100% 不推荐购买)。向客服申请退款后,他们只是将金额退还到了我的余额里,最近他们给我发促销邮件表示,提供 $15 一年的 KVM 主机,想到反正那笔钱也取不出来,于是就买了台试试。 价格:15 刀 1 年 虚拟类型:KVM 机房位置:洛杉矶 其他信息:已开启 BBR,未购买其 1GbPS 的宽带加速包 查看更多主机跑分测评来进行横向对比,请点击: https://hzy.pw/p/tag/vps-test 测试结果仅能代表当时的服务器水平,受网络、机房的影响可能会与实际情况有差别。 综合测试 ---------------------------------------------------------------------- CPU Model : QEMU Virtual CPU version (cpu64-rhel6) CPU Cores : 1 Cores @ 2099.998 MHz x86_64 CPU Cache : 4096 KB OS : Debian GNU/Linux 9 (64 Bit) KVM Kernel : 4.9.0-7-amd64 Total Space : 19.0 GB (1.2 GB Used) Total RAM : 996 MB (38 MB Used 73 MB Buff) Total SWAP : 1023 MB (0 MB Used) Uptime : 0 days 0 hour 33 min Load average : 0.37, 0.18, 0.07 ASN & ISP : , QuadraN...

对我的腾讯微博的大数据统计

图片
这篇文章从中原驿站镜像至此,推荐访问原地址以查看最新的内容以及最佳的排班效果: https://hzy.pw/p/2569 为了防止腾讯微博某一天被腾讯关停,使我初中时发的上千条微博灰飞烟灭。遂使用 Python 爬虫外加 React 搭建了一个微博复刻小站,将我的回忆放心地永远留在了自己的服务器中。相关技术介绍:  https://hzy.pw/p/2554 在这上千条微博存入数据库之后,我便开始对其进行大数据分析了,包括我最喜欢转发谁的微博、我在星期几最喜欢发微博,以及微博当中包含最多的关键词等等。很是有趣。 我的微博复刻网站欢迎访问:  https://hzy.pw/i/qqweibo/ 相关技术介绍:  https://hzy.pw/p/2554 下面是对我的腾讯微博的大数据统计。   我一共发布了 1620 篇微博,其中转发和原创的比例如图。可以看出,初中时候的我可以说是很认真地在更新自己的微博(就像现在认真的写这个博客一样 :P),没有灌水。   将所有微博正文提取、分词处理后,使用 NLP 中关键词提取的相关算法,得到了我微博中最常见的 30 个关键字,按照面积比例做成了这幅统计图。 可以看到那时的我完完全全就痴迷于 iOS,从越狱到汉化 App 到开发小程序。不得不承认乔布斯时代的苹果真的是秒杀竞争对手的存在,有着极大的魅力,不过我现在更喜欢安卓就是啦~  这时我顺便还进行了所有微博正文的情感分析,后来发现意义不大,模型输出结果显示积极情感  >99.999%(如果是对单条微博进行情感分析,则输出正常,但我懒得去处理和统计了)   我从 PC 网页端发布的微博占接近 40%,实际上在 2011 年前后,使用手机发微博真的是一件值得炫耀的厉害事情,但如今正好相反,手机发微博才是理所当然的主流。互联网的发展令人感叹。   很有趣的微博附图统计。在当时很长一段时间,微博只允许上传一张图。至于 “无图”,在微博最开始时还真是大家的选择,以现在移动互联网的思维来思考是难以理解的。   发了两百多条微博那个月我也是够闲。。。PS:我离开腾讯微博,来到新浪微博的时间是 2012 年 12 月。  ...

复刻在腾讯微博中的回忆

图片
这篇文章从中原驿站镜像至此,推荐访问原地址以查看最新的内容以及最佳的排班效果: https://hzy.pw/p/2554 大概是微博这个东西刚刚流行起来之时,也就是我初中的时候,我便用心的经营着我的腾讯微博( http://t.qq.com/hzy1996 ),倒不是想要成为微博大咖,只是认为在同龄人坐在电脑前都只会打游戏时,我刷刷微博、发表一下自己的看法和见解,是更有意思的一件事。 然而腾讯微博迅速就被新浪微博超越,市场占有率几乎为 0 了。我自然也投靠了人多势众的新浪微博,但之前在腾讯微博中发的超过 1000 条微博是我的回忆 —— 中二青春。 我有一种预感,过不了多久腾讯微博就要被腾讯关停了,我可不能让之前写的那些碎碎念就这么消失,于是我用 Python 写了一个爬虫,将所有 [微博+图片+时间+转发微博+转发微博的所有信息] 都给爬到了本地数据库中,然后使用 React 做成了一个网站,名曰“复刻版腾讯微博”,将我发的微博放心地永远留在了自己的服务器中。 查看我的腾讯微博复刻网站,请点击: https://hzy.pw/i/qqweibo/ 基于服务器心情而工作的爬虫 截至目前,我的腾讯微博上共 1661 条微博,收听 65 人,听众 765 人。然而爬虫运行完毕之后获取到的微博数量为 1620,另外 41 条数据不翼而飞。我发布的微博和转发的微博中共包含了 1220 张图片,其中 6 张已被他们服务器丢失。微博中共包含 98 个视频,其中的 88 个均丢失(这是视频网站的锅,我们上传到优酷上的视频真的会被他们永远存放着吗,想想也是不可能的)。 微博中还包括了 785 条诸如 http://url.cn/482SZS 这样的短链接,其中 90% 均已失效,访问时直接提示 您访问的网址有误或该网址已过期 :( 此外,虽然 2011 年的微博也还给我留着,但所有微博的评论均没有了,数据被删掉了。。。 我想说的是,要是再不使用爬虫将这些宝贵的回忆取回,真说不定哪天就被腾讯给删掉了 ToT 讲真,各种复杂的情况都被我遇到了: 微博不提供 API,使用 Python 爬取 HTML 再解析,关键是 HTML 结构每次都会变,我花了很久很久的时间才适配了所有情况。另外服务器返回的数据并不可信,第一次得到的数据显示我在某一天发...