文本情感分析

  • 文本分析模块中,SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析。按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示;按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。

  • 按词情感分析

    按词情感分析的,操作上如下图:

    需要注意的是,情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。情感词典包括BosonNLP、台湾大学、清华大学、知网等共计13W词的情感词典组合而成。如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。进行情感分析之后,展示出各关键词情感分析结果类似如下图:

    表格中包括各关键词的词频信息(也可下拉选择tf-idf)和其出现行数,默认按词频降序排序,当然也可进行自主排序。点击关键词可以出现其词定位信息。另外右侧展示词云。

    表格上方可以点击‘正向’或者‘负向’切换展示具有情感方向的关键词,并且右侧词云会跟随变化,情感方向上,除正向或负向,还有中性词,暂未提供中性词按钮。以及如果有自主设置过情感词,那么可点击‘重新分析’,然后出现新的结果。

    情感分析后右侧展示词云如下图:

    情感分析的得分为程度值,当前SPSSAU计算情感得分时会将其压缩到-1~1之间,并且结合情感分值进行判断情感方向。具体各关键词的情感分值,可点击‘下载’按钮,其存储于EXCEL文件中(提示:当没有出现情感分时,意味着情感词典不包括该词),另外关于情感方向的判断标准具体规则如下表:

    情感分值区间 情感方向
    [-1, -1/3) 负向
    [-1/3, 0) 偏负向
    [0, 1/3) 偏正向
    [1/3, 1] 正向
    没有分值时 情感词典中无该词
    • 如果情感词典中无某词,此会提示‘情感词典中无该词’,其余情况下均会有情感分值,在SPSSAU中情感分值被压缩在[-1,1]之间,SPSSAU默认将情感分值进行情感方向进行划分标准如上表格。关键词的情感方向带有‘柔性’判断即主观判断性,其一般规则为负数为负向,正数为正向,但其越接近于0时情感方向性越弱即越中立。研究者可自行下载切词的情感分值,当然也可结合情感词的分值和相关文献材料的情感方向划分标准,自行判断情感方向。

  • 按行情感分析

    不同于按词情感分析,按行情感分析是指以‘行’为单位,针对每行数据进行情感得分和情感方向计算。

    • 特别提示:
    • 按行进行情感分析耗时较多,需要耐心等待系统完成分析,在系统进行分析时可点击其它各处功能使用即可。系统会提示预期完成的分析时间等,如下图所示。

    按行情感分析时,其输出结果类似如下:

    表格中可查看到各‘行’数据的情感得分和情感方向,也可将数据进行下载到本地。与此同时,可点击‘正向’或‘负向’切换展示具有情感方向的文本信息。按行情感分析时,SPSSAU会默认将情感得分压缩在-1到1之间,并且结合情感得分计算情感方向,关于情感方向的判断规则如下:

    情感分值区间 情感方向
    [-1, -1/3) 负向
    [-1/3, 0) 偏负向
    [0, 1/3) 偏正向
    [1/3, 1] 正向
    没有分值时 情感词典中无该词
    • 如果情感词典中无某词,此会提示‘情感词典中无该词’,其余情况下均会有情感分值,在SPSSAU中情感分值被压缩在[-1,1]之间,SPSSAU默认将情感分值进行情感方向进行划分标准如上表格。关键词的情感方向带有‘柔性’判断即主观判断性,其一般规则为负数为负向,正数为正向,但其越接近于0时情感方向性越弱即越中立。研究者可自行下载切词的情感分值,当然也可结合情感词的分值和相关文献材料的情感方向划分标准,自行判断情感方向。

疑难解惑

  • 为什么添加情感词结果还是不变化?
  • 添加情感词之后,如果是按词情感分析则会以自定义的为准。如果是按行情感分析,其完全不受影响,按行情感分析的原理是以每行即每个句子为单位,并非每个词进行分析,但出于展示需要,SPSSAU单独标注了情感啔(利用情感词典进行遍历后标),事实上按行情感分析的情感得分并不受自定义情感词的任何影响。

  • 添加情感词的格式要求?
  • 添加情感词时,格式为‘情感词,情感分值’,注意需要使用英文逗号。每个情感词有个自定义分值,大于0为正向,小于0为负向,等于0为中立,具体分值是研究者自己定义的,每行放一个情感词,类似如下图所示:

  • SPSSAU进行文本分析时情感分析的精准度情况?
  • SPSSAU提供按行和按词共两类情感分析,如果是按词情感分析,其原理是遍历情感词典得到,情感词典的质量决定其精确性。SPSSAU当前使用的情感词典包括BosonNLP、台湾大学、清华大学、知网等共计13W词的情感词典组合而成。