Visualize your shell history

making tag cloud using python

Visualize Shell History

注:代码写得很烂,不过感觉挺好玩所以写在这里。欢迎各路大牛指教。完整代码见github/reverland/scripts/tagcloud.py

曾经在linux用户中流行这么一个命令

~ ⮀ history | awk '{CMD[$2]++;count++;} END { for (a in CMD )print CMD[ a ]" " CMD[ a ]/count*100 "% " a }' | grep -v "./" | column -c3 -s " " -t |sort -nr | nl | head -n20 
    1  852  24.3012%    sudo
    2  376  10.7245%    pacman
    3  163  4.64917%    vim
    4  133  3.7935%     tsocks
    5  101  2.88078%    cd
    6  95   2.70964%    kill
    7  88   2.50998%    eix
    8  70   1.99658%    python2
    9  70   1.99658%    emerge
    10  69   1.96805%    ls
    11  63   1.79692%    git
    12  54   1.54022%    gcc
    13  51   1.45465%    pip2
    14  39   1.11238%    python
    15  37   1.05533%    pip
    16  37   1.05533%    nmap
    17  35   0.998289%   su
    18  32   0.912721%   xrandr
    19  31   0.884199%   rvm
    20  27   0.770108%   ssh

多cool的一个命令……我完全看不懂awk啥的……几天前看The practice of computing using python,上面讲到简单的文本处理和标签云,便想到把shell history用标签云的方式可视化出来。就是这样,我啥也不会。

先把shell历史定向到一个文件中吧,或者把zsh\history啥复制下

history > hist.txt

然后如何可视化呢?抱着有需求先搜寻有没有开源实现的想法找到了pytagcloud,稍加调整,生成的标签云相当漂亮:

</iframe>

oops!好大两个“异常词”,这么说一看我就是sudo党了,而且是经常滚的arch党……

为了看清更多细节,反映更多客观事实把这两个词去掉

</iframe>

看上去好多了………

pytagcloud还提供生成html数据的函数,你可以在线看看效果:

Demo

自己动手

其实自己实现类似的效果很简单,获得更明晰的理解和灵活性。

先给出以下要用的控制大小的参数,后面将直接用到它们。你可能需要多次调整来探索适合自己的数值,事实上,为了生成不同文本的标签云我试过了几十次。

boxsize = 600
basescale = 10
fontScale = 0.5
omitnumber = 5
omitlen = 0

文本处理

我们刚才保存的hits文件是这样的:

2480  pacman -Ss synap
2481  sudo pacman -S synaptiks
2482  synaptiks
2483  pypy
2484  vim pypy.py
2485  pypy pypy.py
2486  pip2 freeze
2487  pip2 freeze|grep flask
2488  pip2 install Flask
2489  pip2 install --upgrade Flask 

显然我们只要每行第二个词就行,这个任务很简单,我选择先将所有命令合并成一个大字符串,因为最开始我是直接用pytagcloud来生成标签云的,而它的示例代码用的是整个字符串:

def cmd2string(filename):
    '''accept the filename and return the string of cmd'''
    chist = []

    # Open the file and store the history in chist
    with open(filename, 'r') as f:
        chist = f.readlines()
        # print chist

    for i in range(len(chist)):
        chist[i] = chist[i].split()
        chist[i] = chist[i][1]
    ss = ''
    for w in chist:
        if w != 'sudo' and w != 'pacman':
            ss = ss + ' ' + w

    return ss

接着将字符串转换成字典,单词为键,出现次数为值:

def string2dict(string, dic):
    """split a string into a dict record its frequent"""
    wl = string.split()
    for w in wl:
        if w == '\n':  # 因为后来我看到中文分词结果中有\n...
            continue
        if w not in dic:
            dic[w] = 1
        else:
            dic[w] += 1
    return dic

接下来的两个函数来自之前我提到的那本书,稍微改动下让它在firefox18下正常显示,并且稍作美化,更改为随机的字体色彩和黑色背景。

这两个函数的含义是不言自明的,必要的html/css知识是需要的。1

def makeHTMLbox(body, width):
    """takes one long string of words and a width(px) then put them in an HTML box"""
    boxStr = """<div style=\"width: %spx;background-color: rgb(0, 0, 0);border: 1px grey solid;text-align: center; overflow: hidden;\">%s</div>
    """
    return boxStr % (str(width), body)


def makeHTMLword(body, fontsize):
    """take words and fontsize, and create an HTML word in that fontsize."""
    #num = str(random.randint(0,255))
    # return random color for every tags
    color = 'rgb(%s, %s, %s)' % (str(random.randint(0, 255)), str(random.randint(0, 255)), str(random.randint(0, 255)))
    # get the html data
    wordStr = '<span style=\"font-size:%spx;color:%s;float:left;\">%s</span>'
    return wordStr % (str(fontsize), color, body)

Now, it's time to get the proper html files of the tag cloud!

# get the html data first
wd = {}
s = cmd2string(filename)
wd = string2dict(s, wd)
vkl = [(k, v) for k, v in wd.items() if v >= omitnumber and len(k) > omitlen]  # kick off less used cmd
words = ""
for w, c in vkl:
    words += makeHTMLword(w, int(c * fontScale + basescale))   
html = makeHTMLbox(words, boxsize)
# dump it to a file
with open(filename.split('.')[0] + '.' + 'html', 'wb') as f:
    f.write(html)

将以上内容写到一个文件中,命名为比如说=tagcloud.py=:

python2 tagcloud.py hist.txt # `import sys` and let filename = sys.argv[1]
# or `run tagcloud.py hist.txt` in ipython

看看效果吧:

<div style="width: 600px;background-color: rgb(0, 0, 0);border: 1px grey solid;text-align: center; overflow: hidden;">

genkernelsystemctlnengo-cl./nengotsocksaxelnamcappidgingroupsemergefirefoxnmapvim/opt/nengo/nengocatmvhistorynengotargccdmesg|egrepmansupingmakepkglspythonrakermpkgfilenetstatechotopmkdirjohngvimpip2xrandrdfsshgemipython2ipythonmodprobeyou-getkdesuchmodcdcppslsmodeixmd5sumvimakepactreefc-list|grepgdbkillsourcelspcijekyllpython2exportwkhtmltopdfloginctlkatawa-shoujopkillgiteselectdebug-flvrvmpipequery

</div>

相当棒不是么?2

十八大报告标签云

为了深刻领会党的十八大大会精神3,我做了下我党的十八大报告标签云:

先从网上找到总书记的十八大报告全文,保存为=shibada.txt=:

中文分词有个相当不错的python库jieba

将单词保存到一个字典中

import jieba

with open('shibada.txt','r') as f:
    s = f.read()
wg = jieba.cut(s, cut_all=True)
wd = {}
for w in wg:
    if w not in wd:
        wd[w] = 1
    else:
        wd[w] += 1

生成html数据:

for w, c in vkl:
        words += makeHTMLword(w, int(c * fontScale + basescale))   
html = makeHTMLbox(words, boxsize)
htmlzh = unicode.encode(html,'UTF-8')  # Important!
# dump it to a file
with open(filename.split('.')[0] + '.' + 'html', 'wb') as f:
    f.write(htmlzh)

<div style="width: 600px;background-color: rgb(0, 0, 0);border: 1px grey solid;text-align: center; overflow: hidden;">

金融机构个人账户体制改革全党全国举世公认学前教育贸易组织管理网络精神食粮党外人士政企分开推进改革人民满意科学素养行动指南创建活动保护环境对外贸易党员干部充分发挥中小城市利用效率高度重视立于不败之地香港特别行政区资源整合社会制度科教兴国建立健全群众体育基本路线核心作用劳有所得腐败现象充满活力强权政治检察机关人大代表医药卫生居民消费各个环节坚持真理政治协商德智体美理想信念战略思想伸张正义组织协调思想道德两岸关系跨国公司腐败问题宏伟目标发展壮大不断扩大党风廉政共同富裕穷兵黩武根本宗旨管理科学急难险重医疗保障官僚主义严峻考验教师队伍保持稳定医疗卫生独立自主重大突破持久和平提高效益年龄结构合情合理妥善处置团结奋斗联系群众产业政策保险制度指导思想文化素质贫穷落后党员队伍依法行政睦邻友好各族人民巨大成就明显增强公共安全农民收入巩固国防恐怖主义主义精神主义教育执政为民机构编制妄自菲薄澳人治澳同舟共济群众反映基础产业经贸关系军事力量周边国家发展中国家综合国力求真务实批评和自社会效益民主监督马克思列安全事故事业单位建设工程改革开放土地增值解放思想产业结构违反纪律千辛万苦激励机制全面提高领导班子初级阶段出色完成自由贸易本质属性道德素质市场主体任人唯贤理论体系科学决策妇女儿童公立医院节能降耗人口老龄化贫困地区警钟长鸣坚定信心民主集中制创新能力日益增长时代特征经济体制国民经济气候变化教育引导成绩显著明显改善严惩不贷根本任务级计算机才尽其用党的建设法制建设党和人民基本国策基础设施严重困难预防为主基本原理养老保险面向世界国有经济政令畅通爱国卫生一律平等国际竞争社会保险自由贸易区腐败体系荣辱与共中型企业年轻干部互联互通五湖四海优秀人才伟大旗帜政策措施国家机关人人平等社会保障共同愿望始终不渝妥善处理深化改革综合治理祖国统一国际形势勇于创新现代农业勤俭节约民主党派统筹规划稳步前进价值体系群众意见中华文化长期实践集体主义山清水秀任务艰巨党的领导澳门特别行政区常住人口发展党员亿万人民团结互助人力资源矿产资源百花齐放引咎辞职中国共产党工作人员物质基础收入水平东北地区革命军人诉诸武力服务设施统一战线严格执法执法必严主要矛盾上层建筑分配制度优良传统结构调整全党同志退休干部政府职能百家争鸣波澜壮阔服务大局社会治安公平正义坚强有力不失时机坚持不懈公共卫生根本保证金融危机充分调动五项原则与时俱进非公有制食品药品党政领导面向未来高新技术民族团结民主制度素质教育繁荣富强恶化趋势小康社会义务教育以言代法争取和平社会福利技术创新常抓不懈经济总量和平时期服务水平扎扎实实前所未有下有对策优秀干部法定程序民主决策伟大胜利安居乐业各界人士公共财政共同奋斗空间结构纪检监察差额选举血脉相连城乡规划首创精神管理机制简政放权身心健康社会安定各尽所能家庭财产路线教育代表大会少数民族政权机关紧密结合人口素质热点问题一心一意违法犯罪大力发展贯彻落实人与自然十分艰巨教育资源感天动地水土流失谦虚谨慎信息技术形式主义公共服务海洋权益能源安全舆论监督集体经济意识形态考核办法决策程序正反两方时代精神内政外交廉政建设进一步提高严格执行武器装备历史使命经济命脉列宁主义总体布局子孙后代精神实质历史进程革命先烈社会变革和平解决创先争优积极支持再生能源从根本上自我教育教书育人坚定信念无党派人士人民代表品德教育优先发展劳动生产率规模经营以人为本领土完整基层组织立党为公自然灾害一如既往坚定不移改旗易帜国家主权领导职务加强监督公益事业医疗保险生产总值海外侨胞积极向上经营机制艰苦奋斗重中之重有用之才新闻出版民主评议不良风气社区卫生军事训练台湾同胞可持续性多种形式丰富多彩必然选择自然生态防御能力经济基础重大成就和睦相处人口比例民族特色努力实现科学研究全面实施正当权益组织生活十国集团承包经营国防建设合法收入文化产业明显提高武装警察知识分子相信群众扶贫开发社会阶层妥善解决自我批评金融体系不断丰富取长补短劳动所得全国代表大会一府两院脱离群众分配比例提高质量工作力度惩治腐败美好世界始终保持工人阶级城乡居民高度一致社会公德技术产业金融监管政治文明国际争端党纪国法遵守纪律宏观调控产权保护组成部分深入开展生态效益广大青年老有所养戒骄戒躁弱肉强食团结合作超级计算机消化吸收和衷共济行政长官有利条件兢兢业业精神力量攻坚克难在思想上长治久安人人有责文化交流职业道德同心同德对外开放国民收入关键在于加以解决教育方针国有资本不断加强宏观经济不可逆转审判机关生命财产万众一心千方百计生产关系广泛开展干部队伍矢志不渝国有企业内忧外患公民道德高度自治权面向基层友好往来合法权益功能定位没有特权战略方针网络空间能进能出人民调解社会主义伟大工程议事规则外交政策三个代表人才培养居民收入伟大事业集中统一中央政府军事战略科技进步新民主主义埋头苦干德才兼备特殊教育产品质量居安思危马克思列宁主义民主协商精神文明福利制度正确方向步调一致爱国人士信息系统徇私枉法绝不允许长效机制低收入者充满希望港人治港特殊人群正确处理慈善事业北京奥运工资制度发达国家参政议政党的基本民主选举妄自尊大积极主动政治立场全面落实方针政策市场规律严峻形势毫不动摇经济效益节约资源科学知识尊重人才突出位置群众利益和平共处人民团体认真总结环境污染力量对比路线方针中共中央统筹兼顾法制宣传马克思主义霸权主义新民主主义革命有令不行有禁不止地方党委基本纲领后备力量安全监管正确认识集中精力新民主主党和政府选拔干部公正司法文学艺术管理体系自我表现全心全意邓小平理论一国两制环境友好当今世界第十七届合理配置收益分配奋发有为管理体制集中体现领导核心大是大非管理制度民间团体退役军人社会科学化解矛盾生活空间国际事务调整机制当家作主贴近生活服务体系积贫积弱军民团结人民军队信息网络五位一体病有所医战略规划中央委员会生产能力和谐社会根本利益衣食住行商业模式清醒认识实事求是男女平等能源消耗科学合理按劳分配依靠人民切身利益紧紧抓住共同努力违法必究整体实力中央委员水利建设生态系统优化结构相互交织实际行动总揽全局税收制度提高素质人事制度市场竞争明确提出积极开展决不允许依法治国干涉主义共同理想敌对势力非法收入中华儿女局部战争干部人事奢侈浪费突发事件经济社会组织体制保障体系切实有效行政区划奋勇前进伙伴关系流动人口国防科技开发利用公共事务外部环境职工代表中华民族坚实基础清正廉洁保障制度前进方向反腐倡廉充分证明人均收入经验教训根本途径不败之地依靠群众现实意义积极参与共同利益杰出贡献上有政策民主集中互相监督群众路线职业技能共产主义和平统一新形势下九十多年十分复杂党和国家是非曲直关键环节统一大业产品价格仁人志士精神家园领导集体突如其来新兴产业重大进展自我完善犯罪活动一以贯之风云变幻勇于进取全面实现资源节约型忧患意识高速铁路信息安全内部矛盾青年工人户籍制度深入人心逐步完善广大党员问政于民二氧化碳政治体制社会风尚五千多年传统产业三十多年廉政文化模范作用民主主义有法必依自我管理损害赔偿幸福美好坚决贯彻时代特色国际金融严格控制自觉遵守文明执法建言献策财政收入基本保障拒腐防变永无止境宣传教育健康成长民主权利卫生事件聚精会神党政干部计划生育重大胜利长期共存生活富裕循序渐进求同存异主义理论分配机制增强党性成效显著粮食安全民主法制立于不败软弱涣散大案要案优势互补教育领域保护主义民族之林基本国情奋发进取世界贸易组织肝胆相照多党合作毛泽东思想行使权力前沿技术不懈努力海洋资源投机钻营者知识产权友好合作人才资源顽强拼搏人类文明利益冲突物质文明科学规范良好环境社区服务尊重知识第十八次市场调节民族区域思想观念市场经济公共资源大有作为赔偿制度从严治党爱国主义作出贡献科技体制合理安排基本方针规模宏大放在首位扫黄打非人民政协积极响应高级干部艰苦卓绝传统美德资源管理精神支柱金融体制劳动报酬精神状态标本兼治利用外资边疆地区语言文字终身教育爱国统一战线服务网络党的纪律资源配置各得其所充分体现阔步前进人民代表大会生产方式开展批评安置工作扩大内需必由之路国际局势此时此刻共产党人合理布局生态环境环境保护发展前景网络安全亡党亡国政法队伍人才队伍健身运动

</div>

嗯……深刻领会了十八大精神4

What's more

可以将标签云移植到博客上。

Footnotes:

1

抱歉……我忘记python怎么将长行划分了=\= or \\?

2

emerge 乱入……

3

中文分词的结果,非人为干扰处理。

4

其实就中文分词结果来说,中国特色社会、社会主义先进文化、社会主义民主政治这类名词都会分开,结果就是社会主义出现次数相当频繁,也充分体现了我们国家的特性和党的属性。