我要咨詢
電話咨詢
400-0812-558
新聞資訊 > 悟空CRM:如何有效地進行數據挖掘,這些方法你都知道嗎?

悟空CRM:如何有效地進行數據挖掘,這些方法你都知道嗎?

2019-08-19

1.概念或類描述

概念描述以簡潔彙總的形式描述給定的任務相關數據集,提供數據價值的一般特性,主要應用于描述式數據挖掘。概念或類描述由特征化和區分組成,大體有兩種方法:基于數據立方體OLAP的方法和面向屬性歸納的方法。包括以下技術:數據聚焦、通過屬性删除或屬性概化的概化數據、計數和聚集值累計、屬性概化控制和概化數據可視化。與機器學習算法相比,面向數據庫的概念描述保證了大型數據倉庫中數據的有效性和可伸縮性。對基本方法加以修正,概念描述挖掘以增量方式、并行方式或分布方式進行。

2.關聯分析

關聯分析能夠發現關聯規則,這些規則展示屬性頻繁地在給定數據集中一起出現的條件。關聯分析廣泛用于購物籃分析、商務管理和決策分析,是商業分析中應用最為廣泛的一種數據挖掘方法和模式。有效的算法包括Apriori算法和頻繁模式增長(FP增長)算法,注重多層關聯規則、多維關聯規則和基于約束的關聯規則的挖掘。

3.分類和預測分析

分類和預測是數據分析的兩種重要形式,可以用于提取描述重要數據類的模型或預測未來的數據趨勢。主要方法如下

① 決策樹/判定樹(Decision Tree),算法有ID3和C4.5、剪枝葉算法,以及SIIQ、SPRINT、RainForest和PUBLIC等可伸縮算法。

② 貝葉斯分類(Naive Bayesian Classification)和貝葉斯置信網絡(Bayesian Belief Network),這兩種方法都基于貝葉斯後驗概率定理。

③ 後向傳播,是一種用于分類的神經網絡算法,使用梯度下降方法。

④ 關聯挖掘技術在大型數據合庫中搜索頻繁出現的模式,可以用于分類。

⑤ K-最近鄰分類和基于案例的推理是基于要求的分類方法。

⑥ 在遺傳算法中,規則群體通過交叉和變異操作進化,直到群體中所有的規則都滿足指定的閥值。

⑦ 粗糙集理論可以用來近似地定義類,這些類根據可用的屬性是不可區分的。

⑧ 模糊集方法用隸屬函數替換連續值屬性的陡峭罔值。

⑨ 多策略學習方法

⑩ 線性、非線性和廣義線性回歸模型都可以用于預測。

4.聚類分析

聚類分标屬于無指導學習。對象根據最大化類内的相似性和最小化類内的相似性原則進行聚類或分組。聚類分析有廣泛的應用,包括市場或客戶細分、模式識别、生物學研究、空間數據分析、Web文檔分類及其他方面。它可以用作獨立的數據挖掘工具來了解數據分布,也可以作為其他數據挖掘算法的預處理步驟。許多聚類算法已經被開發出來。主要包括以下幾種。

① 劃分方法,算法有K-均值、K-中心點,CLARANS和它們改進算法。

② 層次方法,根據層次分解的形成過程可分為凝聚法和分裂法。層次方法可集成其他聚類技術,如選代重定位、DENCLUE來改進。

③ 基于密度的方法,DBSCAN是一種基于高密度連接區域的密度聚類方法,OPTICS是一種通過對象排序識别聚類結構的方法,DENCLUE是一種基于密度分布函數的聚類方法。

④ 基于網格的方法,STING是基于網格方法的一個有代表性的算法,它基于存儲在網格單元中的統計信息聚類。CLIQUE和Wave Cluster是兩個既基于網格又基于密度的聚類算法。

⑤ 基于模型的方法,包括統計學方法(如COBWEB、CLASSIT和Auto Class)和神經網絡方法(如有競争學習和自組織特征映射)。

⑥ 模糊聚類方法。

5.孤立點分析

孤立點分析對于欺詐探測、定制市場醫療分析及其他任務是非常有用的。孤立點挖掘方法包括統計學方法、距離法和偏差法。

6.演變分析

演變分析描述行為随時間變化的對象的規律或趨勢并對其建模,包括時間序列數據分析、序列或周期模式匹配和基于類似性的數據分析。演變分析可用于趨勢分析、相似性搜素,以及與時間有關的序列模式挖掘和周期模式挖掘。

7.複雜類型的數據挖掘

複雜類型的數據挖掘是當前數據挖掘技術的一個重要的研究領域,它極大提升了數據分析能力的深度和廣度,主要方法包括對象數據挖掘、空間數據挖掘、多媒體數據挖掘、時序和序列數據挖掘、文本挖掘和Web挖掘等。


上一篇:悟空CRM:談CRM在不斷發展中與其他方面的集成、融合和結合問題
下一篇:悟空CRM:什麼樣的服務補救可以不斷提高企業利潤?