欢迎大家来到IT世界,在知识的湖畔探索吧!
摘要:在互联网背景下,文献数据爆炸式增长的态势向人们有效获取信息和知识的路径发出挑战。本文以“科技统计”文献数据为研究对象,探讨该类数据预处理、统计描述、关键词挖掘的流程和方法,并进一步应用LDA主题模型,从理论和应用角度为“科技统计”文献数据挖掘提供研究思路和方法支持。
关键词:科技统计,文献数据,主题模型
1. 引言
随着科技全球化的发展、数据处理技术(Data Technology,DT)时代的到来以及大数据平台技术的支持,“互联网+”亦或“+互联网”已不断渗透到各学科领域,成为充分利用社会资源、满足科技创新需求的重要辅助之一。作为一门收集、分析、表述和解释数据的科学,统计学的定义告诉我们,它是一门关于数据的科学,其中,数据收集、数据整理、数据分析和数据解释是统计学的全部内容[1]。作为统计学的一个重要分支领域,科技统计是指以科技数据为研究对象,围绕科技数据开展的收集、分析、表述和解释的全部工作。科技数据不同于其他领域的数据,其数据内容包括科技成果数据、科技活动数据以及互联网自媒体科技资讯数据,如图1[2]。科技统计可理解为以科技成果数据、科技活动数据以及互联网自媒体科技资讯数据为研究对象的统计学分支,其中,文献数据是一类重要的科技成果数据。
综上所述,在互联网背景下,本文以“科技统计”文献数据为研究对象,探讨该类数据预处理、统计描述、关键词挖掘的流程和方法,并进一步应用LDA主题模型,为科技文献数据知识发现和规律挖掘提供研究思路和方法支持,也为政府部门及相关研究领域提供一定参考和借鉴。
2. 方法综述
2.1 文献数据挖掘方法概述
随着信息化社会的深入变革、科技实践的多元发展和人工智能的普及推广,结构化数据和非结构化数据爆炸式增长的态势向人们有效获取信息和知识的路径提出挑战。结构化数据是指保存在记录或文件内固定字段中的数据。非结构化数据是指没有预定义数据模型或未按预定义方式组织的数据,包括所有格式的办公文档、文本、图像、XML、HTML、报告、图像和音频/视频信息。
作为一种非常重要的非结构化数据形式,文献数据需要专业的方法和技术提供支持,即文本挖掘。在数据挖掘领域,文本挖掘是以文本数据或信息为对象的主要方法,用于从大量文本的集合或语料库中抽取潜在未知且有价值的模式和知识。整体上,文本挖掘的一般处理过程主要包括文本采集、文本预处理、文本建模、模式发现和解释评价共5个环节(如图2所示)。在这过程中,文本从原始状态逐渐形成知识,因此,文本挖掘也可以理解为数据库知识发现(Knowledge Discovery in Database,KDD)在文本数据集上的应用,并结合相关文本处理技术进行知识发现的过程[3]。对文本信息的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系,用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非结构化文本数据中发现知识。由此可见,文本挖掘涉及语言学、统计学和计算机学等多个学科。
文本挖掘相关研究在国外开展的较早。卢恩(19世纪50年代)进行了开创性的研究,并提出用于自动分类的词频统计概念。Maron等人(1960)发表了自动分类方面的第一篇论文[4]。以K. Spark,G. Salton,K. S. Jones等人为代表的专家学者也先后完成了诸多相关的研究工作。目前,国外的文本挖掘研究已经从实验性阶段进入到实用化阶段,著名的文本挖掘工具包括IBM的文本智能挖掘机、Autonomy公司的Concept Agents、TelTech公司的TelTech,等等。随着文本挖掘理论内容的不断丰富和计算机技术的飞速发展,越来越多的方法和模型得到创新、实现和应用。文本挖掘被应用到文档聚类[5-6]、文档分类[7]、预测模型[8]等诸多经典领域。其中,分类问题作为统计机器学习领域中的一个有趣话题,目前已有多种分类技术,比如包括逻辑回归、决策树、支持向量机等多种分类技术[9-11]。在所有分类技术中,最大余量分类器(如支持向量机)已经被广泛认可[12]。
近年来,不断涌现出诸多高水平的文本挖掘相关成果。Lu等人在经典的顺序最小优化(Sequential Minimal Optimization,SMO)(Platt,1998)的基础上,提出一种新算法[13-14]。
2.2 主题模型相关文献概述
在计算机技术支持下,文献数据中关键词汇及相关主题的挖掘方法也在不断发展和应用。词频分析法可以揭示文本数据的关键词,并分析这些关键词频数高低,突出显示以高频词汇列表为依据的关注热点。词频分析法的核心部分是构造“文档-术语”矩阵(Document-Term Matrix,DTM),即通过DTM实现文献数据的结构化。构建DTM的基本思想来自词袋模型(Bag of Words,BOW)。假设文档中的词语相互独立且没有顺序,词袋模型可以将文档展示为离散词语的组合。其中,词语的独立性假定简化了词袋模型在文本数据结构处理过程中的计算,无序假定降低了词袋模型对文本数据的代表性。
在此基础上,仅仅关注于关键词语的提炼还不够,有时需要进一步构建主题模型,以实现对文献中隐含结构的推测。关于主题模型的研究最早来自Papadimitriou等人[15]提出的潜在语义索引(Latent Semantic Indexing,LSI)。潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[16]实现了从海量文档集中挖掘主题,并根据这些主题组织这些文档。近年来,仍然有关于LDA模型优化及应用的研究成果不断涌现[17-18]本文选择LDA作为主题模型,对“科技统计”中文文献进行应用研究。
假定文献数据满足如下3个假定条件:(1)所有主题与一个文档集合相关,且每个文档以不同比例展示这些主题。(2)在狄利克雷分布下,比例中各个分量几乎相互独立,导致强烈假设一个主题的存在与另一个主题的存在不相关。(3)每个文档中的词语是可互换的,即这些词语的顺序不影响它们的概率。
作为一种由“文档-主题-词语”构成的三层贝叶斯模型(Three-level Hierarchical Bayesian Model),LDA的生成过程包括:(1)生成主题-词语的概率分布β~Dirichlet(η)。其中,Dirichlet(*)表示狄利克雷分布,η表示主题-词语概率分布β的超参数。(2)设定每个文档中的词数N~Possion(ξ),生成文档-主题的概率分布θ~Dirichlet(α)。其中,α表示文档-主题概率分布θ的超参数。(3)对于文档中的每个词语Wd,n(d=1,…,D;n=1,…,N),重复下面步骤:选择一个服从多项式分布的主题Zd,n,并且从多项式条件概率分布Mult(βk)中选择一个词语Wd,n。其中,N表示文档中的词数,K表示主题数,D表示文档数。
主题模型LDA的参数估计问题属于一个复杂的最优化问题,目前常用的估计方法包括变分最大期望法(Variational Expectation Maximization,VEM)和Gibbs抽样法(Gibbs Sampling,GS)。本文借助R软件实现这两种参数估计算法。对于主题模型LDA,无论采用哪种估计算法,均需提前设定主题数量。廖列法等人[19]和刘江华等人[20]通过Blei等人[16]提出的困惑度(Perplexity)指标取最小值选择主题个数。但已有研究表明,困惑度指标反映模型本身的泛化能力,仅能说明模型对新样本的适用性,缺乏逻辑严谨性。综合考虑,本文选择10折交叉验证法探索主题数量从5到30时主题模型的表现。经研究发现,主题数量对于主题模型的影响不大,参考已有文献成果,本文最终选择主题数为5。
3. 文献数据预处理
本文通过中国知网(CNKI),获取关于“科技统计”的中文文献,时间截止至2019年7月25日。初步分析发现,以“科技统计”为核心话题进行检索,删选并最终下载包括期刊论文、学位论文和会议论文共3种类型的211篇文献,具体研究对象包括作者、标题、发表期刊、发表单位、发表年份、关键词和摘要。为了方便后续应用分析,本文在分析前需要对数据对象进行预处理。
Step 1筛选数据对象。对爬取的文献内容进行筛选,删除含“科技统计”但并非讨论“科技统计”的文献,比如,《XX杂志》被收录为中国科技论文统计源期刊(中国科技核心期刊)、“中国知网”《XX期刊》发行与传播统计报告,等等。
Step 2生成新变量。根据中国知网(CNKI)给出的期刊收录情况,生成新变量(Level)表示期刊的级别。比如,北京大学《中文核心期刊要目总览》来源期刊,等等。对于多个收录来源的期刊,收录信息全部保留。比如,《统计研究》,Level取值为“CSSCI、JST日本科学技术振兴机构数据库(日)(2018)、北京大学《中文核心期刊要目总览》来源期刊”。统筹考虑所有文献所发表期刊的全部收录来源,并生成子变量,每个自变量表示一种来源。比如,自变量L1表示CSSCI,自变量L2表示JST日本科学技术振兴机构数据库(日)(2018),自变量L3表示北京大学《中文核心期刊要目总览》来源期刊。根据文献的发表机构,生成新变量表示该文献的地域信息(省或直辖市)。
Step 3形成可用文件。通过整理,形成如下文件:(1)含第一作者、标题、发表期刊、第一个发表单位、发表年份、关键词和摘要的全文件(csv格式)。对于存在曾用名的期刊,名称统一为现用名。比如,《浙江统计》是《统计科学与实践》的曾用名,等等。进一步确定期刊名称,比如,季小超等人发表文章的《徐州工程学院学报》确切为《徐州工程学院学报(社会科学版)》,等等。(2)仅含标题信息的文件(txt格式)。(3)仅含摘要信息的文件(txt格式)。(4)仅含关键词信息的文件(txt格式)。
Step 4 形成分词文件。通过分词技术,对Step 3中的(2)、(3)、(4)文件进行分词,并形成相关文件(txt格式)。为进一步提高分词准确率,可通过相关网址(比如,https://pinyin.sogou.com/dict/)下载相关词典。
Step 5确定停止词库。除通用的停止词外,本文通过对文献进行探索性分析,识别在分析结果中出现但对于结论没有重要意义的词语,比如,“第一手”“突破点”“正常值”“编辑部”等,并将其归纳形成停止词库。
本文在进行数据预处理的操作流程可归纳为图4。
4. 文献数据初步分析
4.1 统计描述
211篇文献中包括199篇期刊论文、4篇学位论文和8篇会议论文。根据中国知网(CNKI)给出的期刊收录信息,期刊论文中,北京大学《中文核心期刊要目总览》来源期刊72篇,CSSCI中文社会科学引文索引来源期刊(含扩展版)37篇,JST日本科学技术振兴机构数据库53篇,CA化学文摘(美)13篇,Pж(AJ)文摘杂志(俄)7篇,CSCD中国科学引文数据库来源期刊(含扩展版)6篇。此外,没有收录信息的期刊99篇。为了方便表述,本文将这部分期刊称为一般期刊。图5展示文献数据基本情况。其中,发表文章大于两篇期刊名称见图5(c)。图5(e)中除11篇文献无法确认发表机构所属省份或直辖市外,其余200篇文献中的地域分布情况按篇数由高到低排序。
由图5可知,本文研究的“科技统计”文献中,期刊论文占绝大多数。没有收录信息的一般期刊和北京大学《中文核心期刊要目总览》来源期刊较多。作为一般期刊的《天津科技》在科技统计成果方面表现较为突出。从2000年开始,每年关于“科技统计”的科研成果发表数量保持较为稳定的水准,比2000年以前有较为明显的提高。从发表机构所属省份或直辖市来看,江苏和北京地区的相关单位在科技统计领域发表成果较多,沈阳、青海、内蒙古和贵州地区有待提高。
为进一步研究“科技统计”为核心话题文献在不同时段的分布情况和变化,本文采用三段式分割法,将1987年-2019年划分为三个时段:1987-1997、1998-2008和2009-2019。并对各个时段内,文献总篇数、文献类型、文献级别、期刊和地域信息进行统计简述(表1)。
由表1可知,随着时间的推移,以“科技统计”为核心话题的文献总篇数和期刊论文篇数在持续增加,文献所涉及的期刊种类在不断增加,地域覆盖面也在不断拓宽。从论文发表的级别来看,中间时段(1998-2008)在北大核心和CSSCI两类级别期刊上发表文章的绝对数量多于前后两个时段,表现出一定的优势。而2009-2019年在北大核心和CSSCI两类级别期刊上发表文章的绝对数量多于1987-1997年。但从“某时段内北大核心和CSSCI两类级别期刊发表文章篇数/该时段发表文章总篇数”来看,1987-1997年已表现出较高的比例,在一定程度上也说明在该时段,以“科技统计”为核心话题的文献资料同样具有相对较高的水准。
4.2 关键词发现
通过词频分析法,本文依次从所有以“科技统计”核心话题的文献的标题、摘要、关键词三个维度对高频词汇进行统计分析,排名前15位的高频词汇及出现频数如表2所示。
由表2可知,从标题、摘要、关键词三个维度统计出的高频词汇不完全相同。但从整体来看,标题、摘要、关键词中出现频数最大的前15个词汇均包括:“科技”“统计”“管理”“高校”“科研”“分析”“发展”“创新”“问题”共9个词汇。由此表明,除“科技”“统计”外,文献中的热点聚焦在三个方面:一是关于科技统计领域的管理方面。表明当前仍需要进一步加强规范相关管理制度和工作流程,提高执行效率和完成度。二是关于科研单位及具有科研分析性质的工作,说明中国科技统计的蓬勃发展仍然倚重于具有较强创新能力的高校以及科研分析工作。三是以发展、创新为热点,以问题为导向。表明在中国科技统计的发展过程中,创新源于问题,问题推动发展,需要不断加快创新发展的步伐,坚持问题导向,着力解决好认识、实践、制度层面存在的问题,不断提升我国创新发展和创新型国家建设水平。
为了进一步挖掘三个维度高频词汇的分布规律及其背后隐含的重要意义,本文统计了表2中出现过的所有高频词汇,并对基于标题、基于摘要、基于关键词的三类频数进行了合计。除前面已分析过的9个高频词汇外,还有“工作”“指标”“数据”“研究”“重要”和“提出”。尤其是“指标”“数据”和“研究”研究结果进一步揭示了指标和数据等研究工作是中国科技统计领域的重要选题和方向。指标研究对于描述、测度和评价研究对象非常重要,同时数据资源是统计分析和量化研究的基础。因此,在中国未来的科技统计领域,需要进一步加强指标研究,充分利用数据资源,以促进中国科技统计相关事业的蓬勃发展。
为进一步研究关键词在不同时段的动态变化情况,表3展示出1987-2019年三个时段的高频关键词列表。考虑到分时段后各时段篇数有限,经统计,表3仅列出频数排名前6位的关键词。
经过对表3中除“科技”和“统计”外的高频词汇的统计,不难发现,综合各时段内标题、摘要和关键词中高频词汇的种类和频数,随着时段的推移,高频词汇的范围越来越集中。具体来说,1987-1997年出现“高校”“思考”“投入”“管理”“发展”“我国”、“作用”“指标”“企业”和“科研”共10个高频词汇,而1998-2008年出现6个,2009-2019年出现5个。从新增的高频词汇角度来看,1998-2008年新增了工作和分析两个高频词汇,2009-2019年仅新增了创新这一个高频词汇。与1987-1997年相比,后两个时段再没出现过的高频词汇包括思考、投入、发展、我国、作用和企业。
5. 主题模型应用分析
5.1 基于所有文献的主题挖掘
通过利用VEM算法,本文对所有以“科技统计”为核心话题文献进行主题挖掘与研究,选择前5个主题模型,并且以参数β为标准,每个主题模型仅选择排名前5(参数β前5位)的主题词。需要说明的是,当同一主题模型中不同主题词并列入选前5(即其参数β相同)时,全部纳入主题模型并予以展示,结果如图7。
图7包括5个主题模型(Topic1-Topic5),经过对5个主题模型的分析,可得出如下结论:(1)Topic1突出了信息化这一主题词在模型中的重要位置。此外,在模型中还存在经济合作与发展组织(OECD)、竞争力、科学化、科学技术、准确性和生产力几个较为重要的主题词。Topic1刻画的是文献数据中,信息化是科技统计领域首先关注的要素,经济合作与发展组织(OECD)是加强国际合作的重要组织机构。除信息化外,科学化也非常重要,聚焦科学技术,在提高自身生产力与竞争力的同时,关注相关工作的准确性,具有重要的意义。(2)Topic2表达了信息化和科学技术两个主题词在模型中扮演的重要角色。此外,基础性、统计局、合理化、科学化和竞争力几个主题词也在Topic2中起到重要的作用。该主题模型传达出基础性工作在科技统计文献中的分量。作为该模型中唯一的组织单位,统计局在科技统计领域所起到的作用不容小视。此外,在提高国家竞争力的同时,科学化和合理化是隐含在文献数据中的方向、标准和要求。(3)Topic3中,产业化、统计局和高等学校是最为重要的几个关键要素。此外,该模型还表现出高新技术和计算机的重要性。作为该主题模型中唯一存在的国家,美国在该模型中也起到一定作用,同时该模型还包括可比性这一主题词。需要强调的是,Topic3的最主要特色是以产业化为贡献最多的要素,同时引入高新技术和计算机这两个主题词、高等学校和统计局两个组织单位以及美国这一个国家。由该模型推测,科技统计领域的一个方向是实现产业化,关注计算机等高新技术,依托高等学校和统计局,在借鉴和参考国际领先水平国家时需要注意兼顾可比性原则,是该模型存在的重要意义。(4)Topic4中,最为重要的三个要素是信息化、高等学校和国家级,其次竞争力、产业化、服务业和德国也在该模型中起到较为重要的作用。尽管该主题模型继续突出了信息化的重要性,但不同的是,该模型引入服务业、国家级以及德国等几个要素。因此,该模型从另一个角度拓宽了科技统计文献数据中隐含知识的涉及范围。(5)Topic5继续突显了信息化的重要贡献,同时强调了集团型、服务业和竞争力三个关键词在该模型中的重要性。此外,该主题模型还包括高等学校、Echart和国内外三个要素。与其他模型相比,该主题模型的主要特色在于集团型以及Echart两个主题词的出现,说明科技统计文献中集团型和Echart成为待发现的重要主题知识。
5.2 不同时间段主题模型比较分析
为比较不同时间段主题模型分析结果的动态变化规律,本文同样利用VEM算法对各个时段的相关文献分别进行主题挖掘与研究,选择前5个主题模型且每个模型选择参数β最大的前5个主题词,结果如表4。
表4中所有时段内各主题模型中的主题词已按照参数β从大到小完成排序。首先,从主题模型中排名第一的主题词(即参数在该主题模型中最大者)来看,1987-1997年五个主题模型聚焦在研讨会和科学技术两个主题词,1998-2008年五个主题模型则关注于高等学校、科学技术、竞争力、统计局和信息化共五个主题词,2009-2019年五个主题模型中最重要的主题词分别是产业化、信息化、服务业和科学技术。不难发现,科学技术贯穿各个时段,信息化出现在中后时段。此外,主题模型中最重要主题词从一开始的研讨会,逐渐过渡到高校、统计局及竞争力,最后聚焦到产业化和服务业,不难发现,主题模型的内涵从一开始简单的会议形式,到依托相关具体单位,再到后来推广到产业或某个行业,最重要主题词经历了从简单到丰富,从微观到宏观的动态变化过程。其次,从各时段所有主题模型构成要素(主题词)来看,高等学校和科学技术贯穿所有时段,计算机和统计局同时出现在前中时段,规范化、基础性、科学化、信息化则同时出现在中后时段,而其余主题词仅出现在某一个时段。由此看出,无论主题知识如何随时间发生变化,高校和科技始终是重要的主题词汇,而随着时间的推移,主题词从计算机和统计局两个具象的客体逐步演变为规范化、基础性、科学化、信息化的较为抽象、宏大的理念。此外,从仅出现在某一个时段的主题词可以发现,随着时间的推移,主题词逐步迈入产业化、高层次且以数据(包\库)为对象的更加广袤、更加高水平、更加强调数据重要性的阶段。
6. 总结与讨论
本文以“科技统计”为核心话题爬取相关文献数据,并对这些文本数据开展数据预处理、统计描述、词频分析、构建主题模型等研究工作。研究结果如下:
(1)当前,“科技统计”文献具有较为明显的组成分布和时空特征。“科技统计”文献中普通期刊和北京大学《中文核心期刊要目总览》来源期刊占多数。从2000年开始,每年关于“科技统计”的科研成果发表数量保持较为稳定的水准,比2000年以前有较为明显的提高。从发表机构所属省份或直辖市来看,江苏和北京地区的相关单位发表的科技统计相关成果较多,沈阳、青海、内蒙古和贵州地区有待加强。
(2)关注热点聚焦在具有科研性质的单位以及相关管理和研究工作。具体来说,文献中的关注热点聚焦在四个方面:1)科技统计相关事业的管理方面;2)科研单位及具有科研分析性质的工作;3)以发展、创新为热点,以问题为导向。4)指标和数据等研究工作是中国科技统计领域的重要选题和方向。
(3)内容的主题体现在科学技术、信息化和产业化等诸多方面。在科技统计领域,科技、信息化和产业化已成为科技统计研究领域的重要分支方向,经济合作与发展组织(OECD)、联合国教科文组织(UNESCO)、高等学校、统计局等组织机构单位扮演着关键角色、发挥着重要作用。美国和德国在科技统计成果中出现频数较高,在提高国家生产力与竞争力方面可能会提供一定的参考和借鉴。针对具体研究问题,主题挖掘还涌现出Echart工具、数据包络分析方法(DEA)和政府R&D预算拨款或决算(GBAORD)等方法,并指出在研究过程中的真实性、准确性、标准化、规范化仍然是值得注意的重要问题。
(4)从高频词汇和主题模型两个角度,不难总结出隐含在“科技统计”文献数据中的知识动态变化规律。随着时段的推移,高频词汇所涉及的范围越来越集中,而新增内容则从工作、分析发展为创新。从主题模型的内容来看,主题词经历了从简单到丰富,从微观到宏观的动态变化过程。高等学校和科学技术贯穿所有时段,换言之,无论主题知识如何随时间发生变化,高校和科技始终是重要的主题词汇,而随着时间的推移,主题词从计算机和统计局两个具象的客体逐步演变为规范化、基础性、科学化、信息化的较为抽象、宏大的理念,并在最后迈入产业化、高层次且以数据(包\库)为对象的更加广袤、更加高水平、更加强调数据重要性的阶段。
面对科技创新和信息技术的迅猛发展态势,非结构化文本数据已成为大数据挖掘的重要研究对象,其中所蕴含的巨大潜在价值,也已引起了政府部门、科技界、产业界等各领域的高度重视。人工智能的发展普及为处理文本数据需要可靠的方法技术支持。尽管本文只对有限数量的“科技统计”文献进行文本挖掘及可视化研究,但是所提出数据预处理思路和分析过程同样可用于其他主题或领域的体量巨大的文本挖掘问题。
习近平总书记在2014年5月上海考察时曾提出:“科技创新及其成果决不能仅仅落在经费上、填在表格里、发表在杂志上,而要面向经济社会发展主战场,转化为经济社会发展第一推动力,转化为人民福祉。”随着大数据时代的发展变革和人工智能的普及推广,相信会有更多的科技创新成果会为中国经济社会发展和人民生成生活提供指导和帮助。如何将文本挖掘技术和实际问题有机结合,拓展文本挖掘和可视化研究方法的应用范畴,不断开发出新思路和新方法,以形成更智能、更便捷、更可读的操作流程和表现形式,将成为颇具价值的研究议题。
参考文献:
[1] 贾俊平,何晓群,金勇进. 统计学[M]. 中国人民大学出版社,2014.
[2] 钱力,谢靖,常志军,等. 基于科技大数据的智能知识服务体系研究设计[J]. 数据分析与知识发现,2019(1): 4-14.
[3] 周雪忠. 文本挖掘在中医药中的若干应用研究[D]. 杭州:浙江大学,2004.
[4] Maron, M.E. and Kuhns, J.L. On Relevance, Probabilistic Indexing and Information Retrieval[J]. Journal of the ACM (JACM), 1960 (7), 216-244.
[5] Zhao Y, Karypis G. Hierarchical clustering algorithms for document datasets[J]. Data Mining and Knowledge Discovery, 2005, 10(2):141-168.
[6] Boley D, Gini M, Gross R, Han E H, Karypis g, Kumar V, Mobasher B, Moore J, Hastings K. Partitioning-based clustering for web document categorization[J]. Decision Support Systems, 1999, 27(3):329-341.
[7] Sebastiani F. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002, 34(1):1-47.
[8] Weiss S, Indurkhya N, Zhang T, Damerau f. Text Mining: Predictive Methods for Analyzing Unstructured Information [M]. Springer-Verlag, 2004.
[9] Cox D. The regression analysis of binary sequences (with discussion) [J]. Journal of the Royal Statistical Society Series B (Statistical Methodology). 1958, 20:215-242.
[10] Breiman L, Friedman J, Stone C, et al.Classification and Regression Trees[M]. Chapman and Hall/CRC, 1984.
[11] Cortes C, Vapnik V.Support-vector networks[J]. Machine Learning,1995, 20:273-297.
[12] Ladicky L, Torr P H. 2011. Locally linear support vector machines. In: Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA.
[13] Platt J C. Sequential minimal optimization: A fast algorithm for training support vector machines. Technical Report, Microsoft Research, 1998.
[14] Lu X, Dong F, Liu X, et al. Varying Coefficient Support Vector Machines[J]. Statistics & Probability Letters, 2018, 132:107-115.
[15] Papadimitriou C H, Raghavan P, Tamaki H, et al. Latent semantic indexing: A probabilistic analysis[J]. Journal of Computer and System Sciences, 1998, 61(2): 217-235.
[16] Blei D M, NG A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[17] 王婷婷,韩满,王宇. LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 数据分析与知识发现,2018(1):29-40.
[18] 王婷婷,韩满,王宇. 基于“21世纪海上丝绸之路”文献的文本挖掘研究[J]. 统计与信息论坛,2017,32(11):84-91.
[19] 廖列法,勒孚刚,朱亚兰. LDA模型在专利文本分类中的应用[J]. 现代情报,2017,37(3): 35-39.
[20] 刘江华. 一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J]. 情报科学,2017, 35(2):16-21.
作者:程豪,中国科协创新战略研究院
本文转载自微信公众号科学家,原载于《今日科苑》2021年第2期
感谢您的支持与关注,欢迎赐稿交流
投稿邮箱:
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/99954.html