LDA主题分析

  • LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等,接下来将具体进行说明。

    进行LDA主题分析时,首先需要确定主题个数(理论上有确定主题个数的方式,但实际研究分析时,通常是研究者结合实际意义情况来确定主题个数,通常主题个数介于2~8个之间即可)。

    • 特别提示:
    • LDA主题分析相对较为耗时,尤其是关键词个数较多时,但通常不会超过3分钟。

    SPSSAU中呈现LDA主题分析包括如下内容或功能:

    说明
    主题与关键词权重表格 表格化展示各主题与关键词的权重值
    主题与关键词权重对应关系图 可视化展示各主题与关键词的权重值,点击主题气泡时可仅展示该主题时关键词的权重(且从大到小排序)
    主题分布表格 展示各行隶属的主题编号
    主题与关键词权重对应气泡图 可视化展示各主题与关键词的权重值,气泡越大说明权重越大
    修改主题名称 确认好主题的实际名称后,可修改主题名称,重新展示表格和图信息等

    LDA主题分析时,关键的信息在于主题与关键词的权重大小,权重越大,意味着该关键词与该主题之间的关系紧密度越高,结合权重大小及实际意义,最终可对各主题进行命名(而不是机器化的主题1,主题2等)。本demo数据进行LDA主题分析时设置主题个数为3,结果如图所示:

    表格中,可点击排序按钮查看权重大小,比如上图中按主题1时各关键词的权重排序后,显示主题1与‘城市更新’、‘体验’、‘试点’、‘工作’、‘小区’等关键词有着较为紧密的关系,那么依据此种情况,可对主题1命名为‘城市试点’。当然,查看各主题与关键词之间的权重大小,还可通过两种图形进行展示,如下所述:

    点击左侧的气泡图时,右侧便展示出各关键词的权重大小,并且按降序进行展示,便于查看,国也方便地看到,主题1与‘城市更新’、‘体验’、‘试点’、‘工作’、‘小区’等关键词有着较为紧密的联系。另上图中气泡的大小代表该主题的权重大小,该信息可通过‘主题分布’表格进行查看。除此之外,还可直接通过一张图直观查看全部主题与全部关键词之间的关系情况,如下图所示:

    上图可以看到3个主题分别与关键词之间的关系情况,图中气泡的大小表示权重的大小。可以看到:3个主题与关键词之间的关系区分较为明显,但是‘住户’这个关键词与主题2和主题3均有较为紧密的关系。结合3个主题分别与关键词的权重信息,可考虑对3个主题分别命名为:‘城市试点’、‘住房工程’和‘城乡建设’,即意味着demo数据提取出3个主题信息,即本份demo数据(取自于住建委2023年12月 “建设要闻”栏目下面41条新闻全文内容),其主要在讲述3个关键点,分别是:‘城市试点’、‘住房工程’和‘城乡建设’。当对3个主题名后,此时可在页面修改3个主题的名称,这样图和表格便会呈现出对应的名称,操作如下图所增:

    与此同时,3个主题也有自己分别的权重大小,可通过主题分布表格进行查看,如下图所示:

    上图显示,主题1的重要性最高为36.697%,即‘城乡试点’相对更加重要,其次为主题3即‘城乡建设’(35.711%),主题2的重要性为27.593%即‘住房工程’。总结上看,可以看到:‘住建委2023年12月 “建设要闻”栏目下面41条新闻全文内容’主要在讲3个事情,按照3个事情的重要性大小依次为:城市试点、住房工程和城乡建设,3个事情的重要性分别为36.697%、35.711%和27.593%。

    与此同时,上表格还展示中数据文档中每个主题的分布行数,比如有17行数据均为城乡建设,15个主题均住房工程,9行为城市试点。简言之即41条新闻中,其中有17条主要是讲城乡建设相关,15条讲住房工作相关,城市试点相关的有9条。每行对应的主题标识信息,可通过下载按钮进行‘下载主题标识’进行下载后使用。

    • 特别提示:
    • 主题分析是一种信息的浓缩和提取,其并不具有‘绝对性’,比如某条新闻时,它可能即在讲主题1又在讲主题2的内容,因而主题分布出现行数,与主题的重要性之间并没有必然联系。

疑难解惑

  • 一致性系数和困惑度?
  • 一致性系数(具体为umass一致性系数)可以用来衡量主题信息一致性,一致性系数值越高则说明信息一致性越高,从分析角度来看,可设置多个主题个数,得到不同的模型,并且记录一致性系数,并且对其绘制折线图,使用‘肘部’原则 进行判断最优主题个数。随着主题个数增加时,通常情况下一致性系数会增大,但当主题个数再继续增加一致性系数并没有明显的增大时,此时主题个数则为最优主题个数。除此之外,结合相关资料显示还有困惑度可进行最优主题数量判断,但该指标具有较大争议,SPSSAU暂不提供该指标。