citespace 数据去重可以分析IEEE的数据吗

点击联系发帖人 时间：2016-12-29 02:17

citespace 数据去重

学习citespace的过程中觉得这个软件有优点也有缺点，在阅读文献的时候发现软件的滥用情况较为严重，每种功能的使用情况都有很大的差异，本文结合了自己在使用citespace过程中的体验，梳理总结了citespace的用法。本文内容力求简明实用，因此会采用一些非学术性描述。

Citespace 是美国雷德赛尔大学信息科学与技术学院的陈超美博士与大连理工大学的WISE实验室联合开发的科学文献分析工具。主要是对特定领域文献进行计量，以探寻出学科领域演化的关键路径及知识转折点。

软件可以在官网进行下载

软件运行需要java环境

验证java版本地址为：
安装适配电脑的java地址为：

本部分的内容主要是阐述CiteSpace被开发出来的基本设计理念。仅追求应用的使用者可以跳过本部分，若想了解软件背后的设计理念可继续往下读。

CiteSpace的设计理念分为哲学角度和概念模型两个方面。

波普尔的三个世界理论。

整个世界被划分为物理世界（世界1）、精神世界（世界2）、客观知识世界（世界3）。世界1是外在接触到的具体世界；世界2是人类脑中的精神世界，存在隐形知识；世界3是人类创造的知识体系。

传统看世界的方式是人类通过世界2来感知世界1，形成世界3。CiteSpace是通过将世界3中的知识内容进行知识图谱可视化来认识世界1，即借助世界2通过世界3来认识世界1。

托马斯·库恩的科学革命的结构

库恩认为，科学的推进是建立在科学革命上的一个往复无穷的过程。这个过程中会出现一个又一个的科学革命，人们的认识通过科学革命而接纳新的观点。而新观点的重要性在于对我们所观察的对象能否作出更另人信服的解释。库恩的科学革命是新旧科学范式的交替和兴衰。科学认识中会出现危机，而危机所带来的新旧范式的转换都将在学术文献里留下印记。库恩的理论给我们提供了一个具有指导意义的框架，如果科学进程真像库恩所洞察的那样，那我们就应该能从科学文献中找出范式兴衰的足迹。
“论文会因为引证关系而形成网络，人们可以借助于图论和矩阵的方法来加以研究。……论文一定会聚集成一团，而形成几乎绘制成地图的‘陆地’和‘国家’”。基于普赖斯的论断，才形成了CiteSpace的概念模型。
社交网络中不是每个人和所有其他人都有直接联系，如果如此，便有了结构洞，即结构上的不完备。这种情况下，信息在网络中的流动受到其结构上的约束。每个人在网络中所能接触到的信息内容不再相同，传递和接受的时间也会出现差别。Burt发现，位于结构洞周围的人往往具有更大的优势。CiteSpace基于此理论来识别关键节点和关键位置。
解释模拟人们在网络环境中的信息搜寻行为，对获取信息的效率进行运算，以最小搜索成本获取最大利益。该理论用于CiteSpace网络结构探测，开发出探求知识演变路径的方法和技术。

“如果把某一领域的研究前沿定义为一个研究领域的发展状况，那么研究前沿的引文就形成了相应的知识基础。”在CiteSpace中研究前沿和知识基础被定义如下：

某个科学领域中的施引文献群组。从两个方面体现研究前沿的特征：1.施引文献群组本身的内容；2.施引文献群组引用的参考文献。具体可以体现为：1.施引文献群组使用的关键词；2.施引文献群组引用的参考文献。
某个学科领域中相对于研究前沿文献集的所有前期文献集合。具体表现为文献共被引聚类。

在此基础上，理论和技术的发展为CiteSpace提供了基础：

本文章使用的为5.1.R8 SE版本，截至到2018年3月26日的最新版本为5.2.R2，版本选择主要依据电脑版本和所需功能确定，本文只涉及citespace的最基本功能，因此选择了在本机电脑上运行最稳定的版本。

整个界面本文认为可以分为4个主要的部分，具体如下。

该区域主要用于新建工程，点击new即可以进入新工程的设置界面，具体如下：

展示citespace在运行过程中的数据操作，实例演示具体如下：

Node type选择节点类型！！这部分的选择直接决定了生成什么样的图谱，此处将在下文做详细说明。
Links连接强度计算

Strength分析对象数据之间的连接强度
Pruning 剪枝方式选择（优化结果）

Citespace目前支持多种数据库导出的文献题录及参考文献数据，具体归纳如下：

当前研究中研究英文文献主要采用web of science数据库，中文数据主要采用CNKI和CSSCI数据库。研究者可以根据自身的需求选择数据来源，并注意其所要求的格式和文件名。由于本文主要研究citespace的使用，因此对于数据库的数据获取不做详细说明，有需要的读者可以自行查找或关注本人更新。

如果需要对被引文献进行分析，必须选择具有参考文献的数据库，否则共被引部分的功能将无法实现。

数据处理窗口即展示了上节提到的Citespace支持的数据库类型。在数据处理窗口，软件可以完成以下功能：

数据格式转换（最为常用）
数据处理（较为常用）：针对WoS数据，可以进行文件合并、文献去重、分隔符格式转换等。具体内容如下图所示：

整理数据（较少使用）：使用本功能要求会使用基本的SQL语句，具体界面如下。

使用citespace的基本操作流程如框图所示，涉及到了数据采集、数据处理、导入软件、功能选择、可视化生成图谱和标签提取、图谱解读几个重要步骤。

下面以文献共被引图谱分析来展示使用CiteSpace的方法：

在主面板上点击“GO”开始进程。Citespace读取terrorism中的数据文件，在左侧的窗口中报告进度。

点击Visualize，查看生成的图谱，一开始是黑色背景上的移动，移动结束后，背景变为白色。

3. 默认图谱的信息含义

节点代表分析的对象，出现频次（或被引频次）越多，节点就越大。节点内圈中的颜色及薄厚度表示不同时间段出现频次。节点之间的连线者表示共现（或共引）关系，其粗细者表示共现（或共引）强度。颜色则对应节点第一次共现（或共引）的时间。颜色从蓝色的冷色调到红色暖色调的变化表示时间从早期到近期的变化。滑动右上角工具条，可以放大和缩小图谱

依据谱聚类（基于图论的一种算法）对共引网络这种基于连接关系而不是节点属性的聚类具有天然的优势。可以对任意形状的样本空间进行聚类，且收敛于全局最优解。

网络签名位于显示的左上角。模块化Q和平均轮廓分数是关于网路整体结构的两个重要的计量指标。

为了表征识别聚类的性质。从特定聚类的标题、关键词、摘要中抽取名词短语。

任意，从文献的标题、关键词、摘要中抽取名词短语，作为聚类标签。

至此最基本的文献共被引图谱生成。

通过观察功能选择模块的Node Type选项面板，可以根据节点的类型将其提供的功能总结如下：

不同的图谱所针对的研究对象：

不同图谱研究的问题不同，内涵也不相同：

文献共被引图谱、作者共被引图谱是针对被引文献（参考文献）进行分析。
作者共现图谱、机构共现图谱、国家共现图谱、特征词共现、关键词共现、学科类别共现是针对施引文献进行分析。

根据施引文献中作者合作的情况绘制，两个作者出现在同一篇文章中即视为一次合作，主要依据作者共现频次矩阵。
根据施引文献中机构合作的情况绘制，两个作者机构出现在同一篇文章中即视为一次合作，主要依据机构共现频次矩阵。
根据施引文献中国家合作的情况绘制，两个作者国家出现在同一篇文章中即视为一次合作，主要依据国家共现频次矩阵。
从标题、摘要、作者关键词、附加关键词等来源提取特征词，根据施引文献中特征词共现的情况绘制，两个特征词出现在同一篇文献中即视为一次合作，主要依据特征词共现频次矩阵。
根据施引文献中关键词共现的情况绘制，两个关键词出现在同一篇文献中即视为一次合作，主要依据关键词共现频次矩阵。
计算参考文献重叠来源的相似度（新功能，较少研究论文）
根据WoS数据中提供的文献所属学科，一篇文章同时属于两个WoS学科时则视为一次学科共现，主要依据学科共现频次矩阵。

根据被引文献同时被施引文献引用的情况绘制，两篇文献同时被一篇文献引用即视为一次共被引，主要依据文献共被引频次矩阵。
根据被引文献作者同时被施引文献引用的情况绘制，两位作者的两篇文献同时被一篇文献引用即视为一次共被引，主要依据作者共被引频次矩阵。
根据被引文献出版期刊同时被施引文献引用的情况绘制，两本期刊的两篇文献同时被一篇文献引用即视为一次共被引，主要依据期刊共被引频次矩阵。

使用哪种图能展现哪种结果？

此部分仅介绍研究中常使用的几种图谱，对于WOS学科共现、相似度图谱等不做介绍。

citespace的主面板的pruning选项，是针对生成图谱进行剪枝算法。那么剪枝算法是哪些？我的图到底要不要剪枝呢？

citespace提供了两种剪枝算法：

两种算法的详细区别请参考：

citespace提供了两种剪枝策略：

剪枝实际上是对形成的网络进行修剪，去除不重要的节点和连线，使得网络中重要的节点和连线更加清晰。便于对图谱进行解读。一般情况下，我们首先点击go生成一次图谱，如果生成的图谱符合需求则不需要进行剪枝。而当生成的图谱节点和连线过多，图谱的可读性极差时，此时才选择进行图谱剪枝。

在剪枝算法上，一般没有推荐算法。MST的优点是运算简捷，能很快得到结果，但并非生成唯一解。 Pathfinder的优点是唯一解，但有时会在剪枝过程中丢失相对重要的节点。但两种算法只能选其一，观察已有研究的情况可以发现网络数据大的研究会选择Pathfinder算法，而数量级万以内的一般选择MST算法。

在剪枝策略上，Pruning slice network是对每一时间段的网络进行剪枝，Pruning the merged networks是对整体网络进行剪枝。两种策略可以同时选择，实现在每一个时间段上剪枝之后再对整体网络进行剪枝。剪枝策略的选择上也依据网络的实际情况，若网络复杂程度不高，可仅选择Pruning the merged networks对整体网络进行剪枝，若在此基础上图谱仍很负责，再选择Pruning slice network对每一时间段网络进行剪枝。

聚类标签的提取用哪个来源和算法

citespace在聚类标签的提取上提供了三种标签来源：标题、关键词、摘要；提供了三种标签提取算法LSI/LLR/MI

下面用web of science导出的数据进行文献共被引图谱的生成，并使用标题作为来源，分别使用三种算法进行聚类标签的生成。

综合来看，笔者建议使用LLR算法进行聚类主题提取，所得出的聚类标签会更加符合实际情况且重复情况较少。但需要注意的是，不论使用哪种算法进行聚类主题提取，均需要再次确认生成的标签和实际文献的情况，有时需要合并聚类。

下面用web of science导出的数据进行文献共被引图谱的生成，并使用LLR作为算法，分别使用三种来源进行聚类标签的生成。

由实例可以看出，三种聚类主题来源均有各自的特点但差距并不是很大，研究中可以根据实际的需要来确定来源。仅以本例来看，用摘要提取的聚类标签在进行合并之后更符合研究需要——体现网络对竞争情报的影响。

让你的图更美——调整图谱

软件自动生成的图总是很丑，相信用过citespace的人都有所体会。虽然这样的图依然有价值，但缺乏了美感，在图谱解读时也会有部分障碍。因此本节主要是对图谱调整的一些方法进行说明。

在图谱生成界面中的display选项中基本包含了进行图谱调整的所有内容。

下面依次解释常用选项的用法：

背景颜色可以根据自己的需要调整。软件还给出了两个快捷调整的方式，直接调整为白色背景和黑色背景。
节点调整仅能在默认图谱中进行，例如引文年环的节点，节点的形状和颜色都具有解释性含义，则无法对节点进行调整

- label color 选择文章标签颜色/术语标签颜色/聚类标签颜色
label position 选择使节点标签不被遮挡/使聚类标签不被遮挡

一些CiteSpace使用过程中的小问题（持续更新）

在关键词可视化视图生成过程中，左边会出现相应的按词频排列的关键词排序，一些关键词会出现两次，这该怎么解释呐？而有些关键词只是单复数的区别，如library和libraries。
图谱生成界面，节点的中心度均显示为0.

本文由于笔者水平的限制，可能会出现一些错漏，欢迎指出并交流学习。

陈悦.引文空间分析原理与应用[M].科学出版社,2014.

李杰,陈超美. citespace:科技文本挖掘及可视化[M].首都经济贸易大学出版社,2016.

陈超美教授又一力作，你要的 CiteSpace 应用的完美范文来了（）

}

绿色游网