文本分析之我的项目

  • SPSSAU提供文本分析模块,其单独针对文本数据进行研究和分析使用,其包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等功能。使用SPSSAU进行文本分析时,涉及下述内容。分别是进入文本分析模块路径,文本数据上传管理等,以及如何进行分析和研究使用。接下来逐一进行说明。

  • 第1、进入文本分析模块路径

    1、SPSSAU搜索框进入

    在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。

    2、SPSSAU界面仪表盘进入

    通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

    3、输入网址

    与此同时,可输入文本分析模块的网址链接:https://spssau.com/textanalysis.html 进入,当然如果此时没有登录SPSSAU,系统会提示首先登录账号。

  • 第2、文本数据上传管理等

    • 进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:
    • 支持直接粘贴文本进行上传数据

    • 支持上传txt或excel格式数据

    • 上传文件最高限制为5M

    用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现真实粘贴文本进行上传或者上传txt/excel文件等。如下图所示:

    如果是第1次使用,可直接点击‘体验DEMO数据’体验文本分析模块功能。

    需要注意的是:如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本信息,类似如下图所示:

    将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。

    每份数据是1个项目,最高支持10个项目(即10个数据),如果是粘贴数据上传,那么系统会自动对其命名,格式为时间+粘贴上传,名称类似为“20240112 15:06:31 粘贴上传”,当然用户可对该名称进行修改。上传完成后展示信息类似如下:

    其展示项目的名称,上传时间,文件大小,总行数,分析时间和总共切词次数等。当前文件上传后还未进行分析,因而没有分析时间和总词数这两个信息。在项目分析之后则会展示该两项信息。

    • 提示:
    • 当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。

  • 第3、进行分析

    上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如下图所示:

    • 提示:
    • 文本分析计量量大,其较为耗资源和耗时间,当文本文件较大(比如大于2M)时,可能需要等待较长时间才能完成(通常会在5分钟内完成),请耐心等待其完成。

    • 此时点击‘开始分析’也会有‘项目正在分析,请等待’的提示。并且此时左侧仪表盘均为灰色无法点击。

    • 如果对我的词库有过变动,比如加入或移出新词,加入或移出停用词,加入或移出情感词等,在这些操作全部完成后,可重新进行分析,点击重新分析按钮即可。强烈建议一次性处理完成新词、停用词或者情感词后,再点击重新分析,否则可能出现较长时间等待。

    如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的分析,比如词云分析情况等。类似如下图所示:

    最后,针对上传的文件数据,可对其进行相关管理,包括查看数据,下载数据,下载分析和重命名,也或者删除该项目等,如下图所示。需要提示的是:删除文件后无法恢复(如果不删除会存储在云端),以及下载分析可能会因为进行其它分析而改变,比如默认没有情感分析的分析结果,但在完成按行文本聚类分析之后在点击下载分析,此时下载出的分析结果中包括聚类分析的结果。

    我的项目界面展示信息类似如下:

疑难解惑

  • 文本分析时一直没有出结果或一直显示分析中?
  • 文本分析时,如果行数过多(比如超过2万条时),在个别情况下有可能出现一直也无法返回结果(比如等待1小时甚至更长也没有结果,正常的分析均会在10分钟内完成),原因在于切词量过大导致存储时出现异常无法返回结果。此种情况下建议删除一部分将行数减少30%左右后再次分析即可。

  • SPSSAU进行文本分析时出现‘一键处理’是什么意思?
  • 在进行文本分析时,如果切词过多(通常>50万个切词时),其会导致系统内部出现存储问题。出现此情况时,SPSSAU会建议进行‘一键处理’,即删除掉部分行(通常在30%左右),即删除一部分数据后再次自动分析,一键处理即系统会自动计算大约删除多少数据并且重新进行分析。‘一键处理’后的数据行数会明显少于原始数据,建议研究者可自己下载SPSSAU系统分析的真实分析数据。