“词云”这个观点由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年提出。“词云”便是通过形成“关键词云层”或“关键词渲染”,对网络文本中涌现频率较高的“关键词”的视觉上的突出。词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
大略来说,所谓词云, 便是利用措辞剖析技能, 对大数据文本进行词频剖析, 并天生可视化图像的技能。词云将词语按照一定顺序和规律进行排列, 如按照频度递减或者字母顺序排列, 并以笔墨的大小代表词语主要性。
词云不仅用于展示标签, 也多用于呈现文本的关键词语, 以帮助人们简明扼要地理解文本的大体内容。除了用于标签或关键词的可视化呈现,词云还可以展示更为繁芜的文本信息, 例如文本凑集间的关系、文本内容随韶光的变革等。
从词云的形式上来看,最初的词云大多将笔墨一行一行地水平排列。自2002年起, 照片分享网站Flickr便采取了这一形式对用户标注的用以阐述照片内容的标签进行展示, 并通过笔墨大小表示一个标签的盛行程度。随后, 网络书签运用del.icio.us也采取了词云展示用户标注的大量社会化标签。
随着越来越多的网站开始利用词云,它已逐步成为Web 2.0时期的一个显著标识。随后涌现的词云遵照了更加繁芜和都雅的布局,Wordle便是范例代表。在通过Wordle天生的词云中, 词语的布局遵照了更为严格的算法, 词语可以被水平或者竖直排列, 词语和词语之间的空隙被充分利用, 终极达成内部紧凑、轮廓明显的视觉效果。
词云图作为一种数据可视化办法,其数据来源紧张是由文本产生。同其他量表类数据可视化办法一样,词云图同样具有都雅易懂的特点,它能够通过关键词的排列凑集以及凸显来帮助读者在节制轮廓的同时把握中央。
同时,词云图的形状也逐步从最一开始的大略几何图形转变到现在更加具有个性的形状,舆图、人物肖像、动物、交通工具等等。紧扣文本主题的词云形状不但能够达到主题的整体统一,也能够提升读者的阅读兴趣,达到信息的有效传播。
在一个越来越开放透明、"大众年夜众和媒体拥有同步获取大数据能力的时期, 在图阅读、浅阅读盛行的时期,媒体的代价在于将那些看起来凌乱无序的数据进行筛选、剖析、解读, 让读者“见所未见”, 和读者一起创造数据背后的原形。大数据采之为财富, 存之则如粪土。未经剖析、挖掘的大数据, 百无一用。
不能表示主题的词云图是没有灵魂的,因此词云图文本的选择就尤为关键,好的词云图能够做到让读者看图明义,一眼抓到主题。2013年 新华社新媒体专线首次采取“词云”技能宣布全国两会, 由清华大学打算机系自然措辞剖析实验室开拓的中文“词云”就像一把打开数据之门的钥匙——十万字的文本, “读懂”只需几秒钟, 还能飞快天生“趋势化、可视化”的图表。新华社采编职员和清华大学年轻的工程师们共同努力写出的稿件中, 词云技能分别被用来剖析文本本身, 得出带有趋势性的结论, 并配以精准解读。
随着近年来词云这一观点越来越火,词云制作工具也有了更多的选择。国外有诸如Wordle、WordItOut、Tagxedo、Tagul、ToCloud等制作工具,海内也有图悦、BDP个人版等在线或终端制作工具可供选择,这些词云制作工具各有优缺陷,但是都能知足基本制作须要。
笔者本日选择的词云在线制作工具是wordart网站,之以是选择这个网站的缘故原由紧张是由于该网站对付词云制作分步骤完成且每步的操作勾引及可选择项比较丰富,即对新手友好又能知足一定的个性化需求。稍显美中不敷的是该网站没有中文界面,好在界面并不繁芜,步骤也大略易懂,稍作熟习就可以上手制作属于自己的词云图了。本文旨在通过对付wordart网站制作词云图的步骤进行大略单纯讲解,帮助读者理解词云图制作的思路过程及逻辑顺序,从而达到举一反三的效果,能够自主选择最适宜自己哀求的词云制作工具。
提示:真正的词云制作基本步骤该当是1.选择文本,多为一篇或多篇干系文章,网络爬取的文本凑集等;2.对文本利用软件进行分词处理,分词规则须要考虑行业习气以及专业性子或者想制作词云图的主题哀求;3.对已拆分的关键词进行删除无意义词以及合并同类词处理(此步需谨慎考虑,从严谨性来说删除合并操为难刁难于数据整体完全性势必有一定影响);4.对付保留的关键词进行词频统计;5.根据统计出的词频制作词云图。本文教程仅涉及末了一步,词云图制作详细操作步骤。
操作步骤
1. 上岸注册wordart网站。https://wordart.com/
初次进入点击SIGNUP进行注册,若已有账号则可以点击LOGIN登录进入网站。
注册须要填写用户名、邮箱、密码等基本资料,两个勾选项第一个是赞许干系协议,第二个是赞许吸收网站发送,一样平常建议都勾上。其余要把稳的是,我用QQ邮箱无法正常注册,换网易163邮箱可以正常注册。全部填写好之后不要急着点击sign up注册,可能会弹出人机验证如下图,这时候点击勾选进行人机验证,通过后就可以正常注册了。
2.用户管理
注册成功后,网站自动登录并跳转用户管理界面。此界面可以管理你创建的词云文件并支持文件夹管理,包含了常规的删除复制等文件管理操作。点击Create可以直接进入词云制作界面。
3.词云制作主界面
进入词云制作主界面后,紧张分为三大部分如上图所示。红框部分为任务栏,包含了菜单、保存、购买做事、分享、下载等基本操作。这里须要把稳的有两点:一是SAVE和DOWNLOAD并不是一个观点,SAVE保存是保存你当前制作的所有数据在该网站你的用户名下,支持前文提到的文件夹管理等操作;DOWNLOAD更像是传统意义的导出功能,目前Wordart网站对付免用度户供应了标准分辨率下的png及jpg两种格式的词图下载。二是MENU的二级菜单里面有一个emoji选项,点击之后在新窗口弹出各种矢量小图标,选择后天生代码可用于粘贴在词云图的关键词当中,算是一个小彩蛋功能。
黄框部分为传统的编辑区域,基本按照词云图制作步骤分为了文本、形状、字体、排列办法、显示调节五个部分,个中文本、形状、字体三个部分除了供应网站自带的素材以外,还支持导入数据。
末了绿框部分为预览区域,点击visualize后可以在此区域对词云图进行预览,对付不满意的部分可以点击选择后进行编辑修正。
4.导入字体
由于wordart对付中笔墨体支持不友好,因此我们须要提前下载准备好字体后导入。在FONTS界面点击Add font按钮选择保存在本地的字体路径就可以导入中笔墨体了,此处我导入的是免费利用的方正黑体,导入后字体名称为“FZHei-B01S”。当然如果对付字体哀求不高,网站自带的Noto Sans S Chinese字体也支持中文。
5.编辑关键词文本
点击WORDS进入关键词编辑界面如上图,编辑界面一共五栏从左到右依次为关键词、大小(词频)、颜色、角度、字体。个中Size代表了该关键词在云词图中的主要性,Size值越大关键词显示效果越大越突出,Size值相同的情形下排名靠前的关键词更凸显,因此也可以选择关键词后利用利用Up和Down按钮进行排序。点击Color后会弹出调色板,拖动选择该关键词的颜色。Angle栏的取值意味关键词逆时针旋转角度,若输入90则相称于关键词向左旋转90°。Font栏字体选项若关键词是中文,务必选择此前已导入的中笔墨体或者Noto Sans S Chinese字体,否则词云图会涌现乱码。点击+Add按钮可以添加新的关键词录入栏。
本文关键词来源于腾讯新闻《曾经的“玄色黄金”如今的烫手山芋 油价跌到负数不即是加油不要钱》(https://xw.qq.com/cmsid/20200421A0PF7200?f=newdc),利用词频统计工具对新闻正文关键词剖析得出,为便于制图统计已删除词频在4以下的关键词。左上角点击Import后将词频列表复制文本后粘贴到对话框,然后点击Import words一键导入(记得勾选CSV format选项)。
6.形状选择
点击SHAPES进入形状选择界面,侧边栏对付网站自带的可用词云图形状进行了分类,单击选中形状后,该形状图标右下角会涌现绿色此轮按钮代表已选中该形状。当然,为了更好的契合主题,我们还可以点击左上角Add image来导入自定义图片,比如人物肖像以及舆图等,在导入自定义图片时该当只管即便选择矢量图,便于笔墨排版显示。
7.排列办法
点击LAYOUT进入关键词排列编辑界面,根据给出的预览效果来选择关键词在词云图中的排列办法。Words amount选项为词云图显示的总词数,如果显示数量大于关键词数量,则一定有部分关键词重复显示,一样平常建议选择Auto由系统自动匹配,如果词云图不能完备显示所有关键词,可以点击Keep as is选项,意为显示数量为关键词总数,每个关键词显示一次。在实际操作过程当中,如果关键词总数较少,为了美化效果,我们常日可以点击Define后拖动按钮调度显示数量,使词云图更加饱满都雅。Density按钮调度的是关键词添补的疏密程度,数值越大越密,可以结合预览图自行调节。
8.词云图色彩设置
点击STYLE可以进入词云图风格设置编辑界面,虽然选项名称是STYLE,实在紧张还是和色彩干系,从上到下共有6个调节选项。Word colors顾名思义是字体颜色,选择Shape则字体跟随形状颜色的纯色模式,整体较为统一但是关键词不凸显。选择Custom可以大略理解为字体撞色模式,点击Custom后的色彩栏可以自行添加或者删除字体颜色,由系统随机授予已选择色彩范围内的颜色。下图为纯色模式和撞色模式的比拟。
Color emphasis为字体颜色比拟度,数值越大,低频关键词比拟度越低,越凸显高频关键词。Backgroundcolor为整体背景颜色,点击色彩栏可以自行调节,点击Make transparent按钮可以选择透明背景,多用于须要将制作词云图作为图层设计时利用。Background image选项调节形状颜色透明度(即关键词添补区域背景色),数值越大背景色越明显。Animation speed选项调节鼠标悬停某一关键词时的动画效果显示韶光,对应的勾选项分别为放大效果以及旋转效果,由于Wordart只能通过链接分享动画效果,不能天生GIF等动图因此该选项意义不大。Rollovertext color以及box color两个选项调节鼠标悬停关键词之后关键词的颜色以及背景色。
9.预览及调度
在网站屏幕右面的预览区域左上角点击Visualize按钮天生预览图,点击Edit按钮之后可以对关键词进行拖动移位及重新赋色等操作,点击Print可以进行打印。
10.保存及分享
点击菜单栏SAVE按钮可以将词云图保存至你的用户档案,点击SHARE可以分享带有动画效果的链接地址。(然而此功能属于付费内容,留下了贫穷的泪水。)点击DOWNLOAD可以将制作好的词云图进行导出,带有HQ标志的都是付费内容,免用度户只能导出标准分辨率的PNG和JPG图片,以及导出CSV格式的关键词表格,可以一键导入关键词编辑界面,然而此功能对付中文支持不足友好,导出的CSV文件关键词一栏是乱码,可以略过了。当然,如果不想注册或者没有注册成功的,可以直接在网站主页点击Create按钮进行制作,末了天生词云图之后用截图软件截图,虽然分辨率差点也可以姑息用。
参考资料
[1]李俊. 大数据时期须要更多“词云”钥匙[J]. 中国, 2013, (04): .
[2]唐家渝;孙茂松. 新媒体中的词云:内容简明表达的一种可视化形式[J]. 中国传媒科技, 2013, (11): .
[3]紫竹.“词云”——网络内容发布新招式[EB/OL].http://media.people.com.cn/GB/22100/61748/61749/4281906.html,2006-4-7.
[4]小草莓.图表控必须收藏的几款词云可视化工具!
[EB/OL].https://www.sohu.com/a/111425881_400678,2016-08-21.