四虎国产精品永久地址998_chinesexxx少妇露脸_日本丁香久久综合国产精品_一区二区久久久久_四虎av影视_久久久久国产一区二区三区不卡

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁(yè) > IT資訊 > 大數(shù)據(jù) > 大數(shù)據(jù)預(yù)處理技術(shù)是什么?大數(shù)據(jù)預(yù)處理技術(shù)包含什么?

大數(shù)據(jù)預(yù)處理技術(shù)是什么?大數(shù)據(jù)預(yù)處理技術(shù)包含什么?

2020-09-16 17:02:41 | 來(lái)源:中培企業(yè)IT培訓(xùn)網(wǎng)

  對(duì)于工業(yè)智能建模,人們經(jīng)常會(huì)有一些誤解:建模過(guò)程是逐漸自動(dòng)化的,難度越來(lái)越小,并且不需要太多的工作。但是,在實(shí)際構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的工業(yè)智能模型時(shí),我們獲得的數(shù)據(jù)經(jīng)常存在許多問(wèn)題。一般來(lái)說(shuō),在建模之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并將其分類(lèi)為適合構(gòu)建機(jī)器學(xué)習(xí)模型的可靠數(shù)據(jù)。通常沒(méi)有用于數(shù)據(jù)預(yù)處理的標(biāo)準(zhǔn)過(guò)程,并且對(duì)于不同的任務(wù)和數(shù)據(jù)集屬性,它也有所不同。那么大數(shù)據(jù)預(yù)處理技術(shù)是什么?大數(shù)據(jù)預(yù)處理技術(shù)包含什么?

  大數(shù)據(jù)預(yù)處理技術(shù)是什么?

  大數(shù)據(jù)預(yù)處理技術(shù)主要是指完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗、填補(bǔ)、平滑、合并、規(guī)格化及檢查一致性等操作。

  因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類(lèi)型,數(shù)據(jù)抽取的主要目的是將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的結(jié)構(gòu),以達(dá)到快速分析處理的目的。

  大數(shù)據(jù)預(yù)處理技術(shù)包含什么?

  通常數(shù)據(jù)預(yù)處理包含 3 個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換及數(shù)據(jù)規(guī)約。

  1.數(shù)據(jù)清理

  數(shù)據(jù)清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數(shù)據(jù)處理(數(shù)據(jù)中存在錯(cuò)誤或偏離期望值的數(shù)據(jù))和不一致數(shù)據(jù)處理。

  · 遺漏數(shù)據(jù)可用全局常量、屬性均值、可能值填充或者直接忽略該數(shù)據(jù)等方法處理。

  · 噪音數(shù)據(jù)可用分箱(對(duì)原始數(shù)據(jù)進(jìn)行分組,然后對(duì)每一組內(nèi)的數(shù)據(jù)進(jìn)行平滑處理)、聚類(lèi)、計(jì)算機(jī)人工檢查和回歸等方法去除噪音。

  · 對(duì)于不一致數(shù)據(jù)則可進(jìn)行手動(dòng)更正。

  2.數(shù)據(jù)集成

  數(shù)據(jù)集成是指把多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合并存儲(chǔ)到一個(gè)一致的數(shù)據(jù)庫(kù)中。

  這一過(guò)程中需要著重解決 3 個(gè)問(wèn)題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理。

  由于來(lái)自多個(gè)數(shù)據(jù)集合的數(shù)據(jù)在命名上存在差異,因此等價(jià)的實(shí)體常具有不同的名稱。對(duì)來(lái)自多個(gè)實(shí)體的不同數(shù)據(jù)進(jìn)行匹配是處理數(shù)據(jù)集成的首要問(wèn)題。

  數(shù)據(jù)冗余可能來(lái)源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩來(lái)衡量數(shù)值屬性,對(duì)于離散數(shù)據(jù)可以利用卡方檢驗(yàn)來(lái)檢測(cè)兩個(gè)屬性之間的關(guān)聯(lián)。

  數(shù)據(jù)值沖突問(wèn)題主要表現(xiàn)為,來(lái)源不同的統(tǒng)一實(shí)體具有不同的數(shù)據(jù)值。數(shù)據(jù)變換的主要過(guò)程有平滑、聚集、數(shù)據(jù)泛化、規(guī)范化及屬性構(gòu)造等。

  數(shù)據(jù)規(guī)約主要包括數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約和概念分層等。

  使用數(shù)據(jù)規(guī)約技術(shù)可以實(shí)現(xiàn)數(shù)據(jù)集的規(guī)約表示,使得數(shù)據(jù)集變小的同時(shí)仍然近于保持原數(shù)據(jù)的完整性。

  在規(guī)約后的數(shù)據(jù)集上進(jìn)行挖掘,依然能夠得到與使用原數(shù)據(jù)集時(shí)近乎相同的分析結(jié)果。

  上述就是關(guān)于大數(shù)據(jù)預(yù)處理技術(shù)是什么,以及大數(shù)據(jù)預(yù)處理技術(shù)包含什么的全部?jī)?nèi)容介紹,想了解更多關(guān)于大數(shù)據(jù)預(yù)處理技術(shù)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。

相關(guān)閱讀

主站蜘蛛池模板: 岳西县| 桐乡市| 隆安县| 石屏县| 南丹县| 嘉兴市| 垦利县| 井研县| 荥阳市| 石城县| 通化县| 涞源县| 高陵县| 九寨沟县| 宁强县| 开化县| 定日县| 平度市| 崇州市| 沐川县| 水城县| 安岳县| 萨嘎县| 宜春市| 建昌县| 双鸭山市| 金门县| 新巴尔虎右旗| 日土县| 大同市| 黔江区| 西城区| 原阳县| 洪江市| 阿城市| 绥阳县| 涿鹿县| 彭阳县| 开远市| 承德县| 浦江县|