什么是垃圾數據?
另一方面,垃圾數據是任何不受治理的數據,當你創建了一個數據副本,然后為一個特定的使用案例進行操作,而沒有將改進的數據返回到原始數據存儲,為下一次使用提高質量時,就會產生垃圾數據。Salesforce將垃圾數據分為四類:缺失的信息、不準確的信息、過時的數據和重復的數據。
當個人從一個更大的數據集中為一個特定的用例復制數據,對其進行修改,然后不將這些修改整合到更大的數據集中時,垃圾數據就開始積累。例如,如果你在你的記錄系統中有一個正式的客戶地址數據庫,只復制了那些在芝加哥地區的客戶,并更新了該數據的子集,而沒有更新源數據,你就創造了垃圾數據。有了垃圾數據,你就沒有一個明確的脈絡或省份,它就不能被其他人輕易地訪問和使用;更糟糕的是,你有多個不一致的“真相”版本。這最終會在一個組織內產生多個一次性的數據集,而這些數據并不能為所有用戶提供價值。垃圾數據帶來了問題。
為什么垃圾數據是一個問題?
垃圾數據會給組織帶來許多問題,例如:
不一致的結果,取決于你是用原始的還是復制的、修改過的數據集,如果數據包含不同的信息,會有不同的結果,包括不同的匹配率、運營失敗,也許最糟糕的是導致糟糕的客戶體驗。
不準確的結果,如果數據集是過時的,不完整的,或包含錯誤的信息,輸出也會是這樣。
隱私問題,包含任何敏感信息的無人管理的數據副本是有風險的,因為可能不符合監管的要求,而這種風險往往是高層管理人員所不知道的,直到嚴重的問題發生,為時已晚。
信息安全,在任何可以創建垃圾數據的環境中,都存在著安全問題。這個問題類別的嚴重程度將根據數據的類型而有所不同。常見的例子包括不遵循內部程序,違反許可證或知識產權,以及數據被黑客攻擊,因為它被儲存在公司的安全操作之外。
財務成本,由于上述任何一個原因,創建和使用垃圾數據是低效的。
然而,垃圾數據造成的最大問題是,它為實現數據完整性構建了一個障礙。通過建立數據完整性,一個組織能夠更好地發展和管理一個可信賴的數據基礎,這個數據基礎是準確的、一致的、有背景的,并帶來更明智的商業決策。
為什么數據完整性很重要
數據完整性是指數據集的質量、可靠性、可信度和完整性。它建立在四個關鍵支柱上:企業范圍內的整合、準確性和質量、位置智能和數據豐富。
在更大的范圍內,如果一個組織的數據具有完整性,企業領導人就可以利用這些數據做出準確的業務決策,從而獲得更好的結果。在垃圾數據的背景下,如果一個公司已經實現了數據的完整性,他們就不再需要花時間去解決數據的不一致性,糾正和審查數據。完整性的數據已經在手邊,這些數據可靠并準備好,可以開始工作了。
從垃圾數據到數據完整性的轉變
擺脫垃圾數據的最好方法是消除對它的需求。如果一個組織創建了具有高完整性的可訪問數據資產,并在一個受管理的環境中確保數據可以按照公司的政策、權利和指導方針使用,那么員工將不再需要創建和維護數據的副本來執行一個特定的任務。通過花時間在前期投資其數據完整性,公司可以確保其數據資產的質量和安全性,并適當地提供給企業,最終節省時間和金錢。
標簽:什么是垃圾數據為什么垃圾數據會給組織帶來問題垃圾存在的問題有哪些垃圾問題的現狀