基于可拓学理论的高维大数据相似性研究

doi:10.12005/orms.2015.0175

运筹与管理 ›› 2015, Vol. 24 ›› Issue (5): 184-188.DOI: 10.12005/orms.2015.0175

基于可拓学理论的高维大数据相似性研究

袁瑞萍,师鸣若

北京物资学院信息学院,北京101149

收稿日期:2015-06-04 出版日期:2015-10-12
作者简介:袁瑞萍(1982-),女,博士,讲师,山东荷泽人,研究方向:物流信息化,数据挖掘;师鸣若(1976-),女,河南郑州人,研究方向:商务智能。
基金资助:
北京市教委科技计划面上项目(KM201510037001);智能物流系统北京市重点实验室(NO:BZ0211);北京市属高等学校创新团队建设提升计划项目(项目号:IDHT20130517)

Research on the Similarity of High Dimensional Big Data Based on Extenics

YUAN Rui-ping, SHI Ming-ruo

School of Information, Beijing wuzi university, Beijing101149,China

Received:2015-06-04 Online:2015-10-12

摘要/Abstract

摘要： 高维大数据的相似性计算是数据挖掘领域的研究重点,论文通过分析高维大数据相似性计算的难点,提出采用可拓学的方法解决其中矛盾问题的研究思路。在基元表示高维大数据的基础上,借助数据转换、数据筛选、权重的确定、数据预处理等技术实现了数据之间的相似性计算,并基于水污染常规分析数据进行了算法验证。论文借助可拓的思想研究大数据相似性的问题,不仅对数据挖掘的研究有一定的理论促进,同时也为可拓学的研究提供了新的应用空间。

关键词: 大数据, 高维数据, 可拓学, 相似性

Abstract: The similarity calculation of high dimensional big data is a research focus in the field of data mining. In this paper, after analyzing the difficulty of similarity calculation of high dimensional data, a method based on extenics is put forward to solve the contradictory problems. Firstly, the element is used to represent high dimensional data. Then the similarity between data is calculated by means of data conversion, data selection, weight determination and data pre-processing technology. Finally the conventional analysis data of water pollution is used to verify the method. The idea of using extenics to solve similarity problem of big data can not only promote theoretical research of data mining, but also provide a new application for extenics.

Key words: big data, high dimensional data, extenics, similarity determination

中图分类号:

TP311.1

袁瑞萍,师鸣若. 基于可拓学理论的高维大数据相似性研究[J]. 运筹与管理, 2015, 24(5): 184-188.

YUAN Rui-ping, SHI Ming-ruo. Research on the Similarity of High Dimensional Big Data Based on Extenics[J]. Operations Research and Management Science, 2015, 24(5): 184-188.

参考文献

[1]冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013,16(1):1-9.
[2]徐子沛.大数据[M].广西:广西师范出版社,2012.
[3]杨风召.高维数据挖掘中若干关键问题的研究[D].上海:复旦大学,2003.
[4]Apostolico A, Denas O. Fast algorithms for computing sequence distances by exhaustive substring composition[J]. Algorithms for Molecular Biology, 2008, 3(1): 13-16.
[5]Vinga S, Gouveia-Oliveira R, Almeida J S. Comparative evaluation of word composition distances for the recognition of SCOP relationships[J]. Bioinformatics. 2004, 20(2): 206-215.
[6]Ververidis D, Kotropoulos C. Information loss of the mahalanobis distance in high dimensions: application to feature selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009, 31(12): 2275-2281.
[7]Yu J, Amores J, Sebe N. Distance learning for similarity estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2008, 30(12): 451-462.
[8]王晓阳,张洪渊,沈良忠,池万乐.基于相似性度量的高维数据聚类算法研究[J].计算机技术与发展,2013,(5):30-33.
[9]邵昌昇,楼巍,严利民.高维数据中的相似性度量算法的改进[J].计算机技术与发展,2011,(2):1-4.
[10]谢明霞,郭建忠,张海波,陈科.高维数据相似性度量方法研究[J].计算机工程与科学,2010,(5):92-96.
[11]黄斯达,陈启买.一种基于相似性度量的高维数据聚类算法的研究[J].计算机应用与软件,2009,(9):102-105.
[12]蔡文.可拓集合和不相容问题[J].科学探索学报,1983,(1):83-97.
[13]Cai Wen. Extension theory and its application[J]. Chinese science bulletin, 1999, 44(17): 1538-1548.
[14] Cai Wen, Yang Chunyan, Wang Guanghua. A new gross discipline-extenics[J]. Science foundation in china. 2005, 13(1): 55-61.
[15]杨春燕.可拓学的重要科学问题及其关键点[J].哈尔滨工业大学学报,2006,38(7):1087-1090.
[16]杨春燕.多评价特征基元可拓集研究[J].数学的实践与认识,2005,35(9):203-208.
[17]杨春燕.我国管理可拓工程研究进展[J].中国科学基金,2010,24(1):13-16.
[18]李兴森,张浩澜,陈艳.大数据及其应用的矛盾问题与可拓学[J].科技促进发展,2014,(1):45-51.
[19]崔春生.推荐系统中显式评分输入的用户聚类方法研究[J].计算机应用研究,2011,28(8):2856-2868.
[20]董吉文,曲朝霞,周劲.一种基于物元分析关联度的聚类分析方法[J].济南大学学报(自然科学版),2005,(2):175-177.
[21]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,(S1):142-146.
[22]崔春生,李群,孙大伟.大数据时代人才的培养、需求与贡献[R].2014年中国人才发展报告(中国人才蓝皮书),2014.
[23]楼巍.面向大数据的高维数据挖掘技术研究[D].上海:上海大学,2013.

基于可拓学理论的高维大数据相似性研究

Research on the Similarity of High Dimensional Big Data Based on Extenics

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

[1]	徐选华, 刘尚龙, 陈晓红. 基于公众偏好大数据分析的重大突发事件应急决策方案动态调整方法[J]. 运筹与管理, 2020, 29(7): 41-51.
[2]	徐选华, 杨玉珊, 陈晓红. 基于决策者风险偏好大数据分析的大群体应急决策方法[J]. 运筹与管理, 2019, 28(7): 1-10.
[3]	李新明. 第三方数据平台精准营销收费模式研究[J]. 运筹与管理, 2019, 28(4): 109-117.
[4]	蒋诗泉,刘思峰,刘中侠,方志耕. 灰色面板数据视域下的相似性和接近性关联度模型拓展[J]. 运筹与管理, 2019, 28(4): 163-168.
[5]	段冠华, 林健, 崔春生. 基于犹豫倾向聚类的物流中心选址方法[J]. 运筹与管理, 2019, 28(3): 39-44.
[6]	郭皓月, 樊重俊, 李君昌, 王来, 吴海春, 杨云鹏. 考虑内外因素的电子商务产业与大数据产业协同演化研究[J]. 运筹与管理, 2019, 28(3): 191-199.
[7]	徐选华, 杨欣, 陈晓红. 基于UGC大数据挖掘的大群体两阶段风险性应急决策方法[J]. 运筹与管理, 2019, 28(12): 35-45.
[8]	崔春生, 王梦冉, 王国成. 一种基于可拓学的电子商务内容推荐算法研究[J]. 运筹与管理, 2018, 27(6): 75-81.
[9]	韩文民, 陈婷, 高龙龙, 李正义, 翁红兵. 急件订单干扰下虚拟单元重调度[J]. 运筹与管理, 2018, 27(2): 68-78.
[10]	赵丽丽, 王雪青, 陈超. 区间直觉模糊信息下的监理工程师信用评价[J]. 运筹与管理, 2018, 27(1): 125-131.
[11]	肖会敏. 基于基元方法的创造性模仿创新研究[J]. 运筹与管理, 2015, 24(5): 264-269.
[12]	岳意定, 訚军, 柯海霞. 基于标度理论的股指时间序列相似性分析[J]. 运筹与管理, 2014, 23(5): 221-230.