运筹与管理 ›› 2015, Vol. 24 ›› Issue (5): 184-188.DOI: 10.12005/orms.2015.0175

• 理论分析与方法探讨 • 上一篇    下一篇

基于可拓学理论的高维大数据相似性研究

袁瑞萍,师鸣若   

  1. 北京物资学院信息学院,北京101149
  • 收稿日期:2015-06-04 出版日期:2015-10-12
  • 作者简介:袁瑞萍(1982-),女,博士,讲师,山东荷泽人,研究方向:物流信息化,数据挖掘;师鸣若(1976-),女,河南郑州人,研究方向:商务智能。
  • 基金资助:
    北京市教委科技计划面上项目(KM201510037001);智能物流系统北京市重点实验室(NO:BZ0211);北京市属高等学校创新团队建设提升计划项目(项目号:IDHT20130517)

Research on the Similarity of High Dimensional Big Data Based on Extenics

YUAN Rui-ping, SHI Ming-ruo   

  1. School of Information, Beijing wuzi university, Beijing101149,China
  • Received:2015-06-04 Online:2015-10-12

摘要: 高维大数据的相似性计算是数据挖掘领域的研究重点,论文通过分析高维大数据相似性计算的难点,提出采用可拓学的方法解决其中矛盾问题的研究思路。在基元表示高维大数据的基础上,借助数据转换、数据筛选、权重的确定、数据预处理等技术实现了数据之间的相似性计算,并基于水污染常规分析数据进行了算法验证。论文借助可拓的思想研究大数据相似性的问题,不仅对数据挖掘的研究有一定的理论促进,同时也为可拓学的研究提供了新的应用空间。

关键词: 大数据, 高维数据, 可拓学, 相似性

Abstract: The similarity calculation of high dimensional big data is a research focus in the field of data mining. In this paper, after analyzing the difficulty of similarity calculation of high dimensional data, a method based on extenics is put forward to solve the contradictory problems. Firstly, the element is used to represent high dimensional data. Then the similarity between data is calculated by means of data conversion, data selection, weight determination and data pre-processing technology. Finally the conventional analysis data of water pollution is used to verify the method. The idea of using extenics to solve similarity problem of big data can not only promote theoretical research of data mining, but also provide a new application for extenics.

Key words: big data, high dimensional data, extenics, similarity determination

中图分类号: