词云分析等

  • 文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf,本文档使用‘体验DEMO数据’,其来源于2023年12月住建委的“建设要闻”栏目下面41条新闻全文内容,共129kb。接下来说明将基于该数据进行展示和说明。

  • 词云分析

    进入文本分析时,首先可以看到词云结果,本案例时结果如下:

    词云图直观展示住建很2023年12月共41条新闻内容的关键词信息,住户、城市、发展、建设等均是关键信息。默认是展示前100个高频关键词,可自主设置该数字。也可修改词云风格和下载该词云图。

    另外,图中还出现一个数字12,可点击该数字查看其具体定位情况,点击后如下图:

    可以通过词定位看到,切词时将12看作是一个关键词,具体出现在那些行中,可通过行号进行查看,并且也可点击‘文本内容’查阅具体文本信息。此时可将12设置为停用词,共通过左侧表格进行点击操作,也或在‘我的词库’中进行单独设置均可。当然,也可自己将数据下载,然后使用‘自定义词云’功能进行手动绘图,更加灵活地展示需要展示的信息。

    在词云展示信息左侧表格时,展示信息包括关键词,词频,该关键词出现的行数等,可对关键词进行相关排序,并且下载关键词结果等。如下图所示:

    上图中,词频是指该关键词在整个数据中出现的次数,出现行数指该关键词在多少行中有出现过,如果关键词在一行中出现多次则也只记录为1行。

    • 提示:
    • 文本分析时,可能会得到上万(甚至10万)个关键词,但真实有用的关键词很少,SPSSAU默认提取出前1000名的关键词进行输出并且展示等。

  • 自定义词云

    自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括关键词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。类似如下图所示:

  • 词定位

    在文本分析,词定位是个重要的功能,其可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘发展’这个关键词,研究者希望了解该关键词的具体出处信息等,则可首先搜索该词,然后点击式查看具体信息,如下图所示:

    上图显示,‘发展’这个关键词共在22行中有出现过,右侧展示具体的行号,以及具体的文本内容信息,与此同时,右侧文本中会高亮展示‘发展’这个关键词,便于研究者查看信息。

  • tf-idf

    文本分析中,tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。

    tf-idf计算时包括2个指标,分别是tf(term frequency,词频),其表示某个关键词的出现次数(并且进行归一化处理),tf越高意味着出现频率越高,那么其重要性也会越高,但是当一个词出现的频率特别高时,其可能是一个常用词,比如‘你好’,事实上这种常用词的重要性并不高,因而接着还有一个指标即idf。idf(inverse document frequency,逆文档频率),其为‘到处出现’的体现,当关键词到处出现时,说明该关键词可能是常用词不那么重要,因而idf应该低,如果关键词不是到处出现,那么说明该关键词可能重要性高,因而idf应该高。

    最终tf-idf = tf * idf计算得到。具体公式如下:

    tf = n / N,其中n为某关键词的词频,N为整份数据关键词词频总和,N是个固定值,当n即词频越高时tf越高,说明该关键词越重要;

    idf = log(D/(1+d)),log是取对数,D为数据的行数,d为数据中某个词在多少行中出现过。D为固定值,d值越大即到处出现时idf反而越小,d值越小即并非到处出现时idf反而越高,idf越高代表某关键词重要性越高。

    在SPSSAU中默认按从大到小输出tf-idf值,如下图所示:

    可以通过搜索词找到某个关键词,并且表格中展示关键词对应的tf-idf值,以及该词在多少行中出现过。与此同时,右侧展示关键词的词云信息如下图:

    研究者可点击词云中的关键词进行词定位查看,并且可修改词云风格,下载词云图等。与此同时,如果默认展示100个词过多,此时可设置词云展示关键词个数值,也或者使用自定义词云功能绘制词云图。