代码人生的小狗窝

一行行枯燥的代码,却描绘出人生的点点滴滴

推荐文章

原创:数据仓库建设5-维度建模

    原创:数据仓库建设五--维度建模 4.维度建模 4.1.维度建模技术       维度建模是DW/BI系统的核心,他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标,分别是:能尽可能简洁的向用户展示需要的信息;能尽快返回查询结果给用户;能提供相关信息,以便精确的跟踪潜在的业务过程。       维度建模能使任何事情尽可能简单,但绝不是简化。在数据仓库和商业智能中,维度模型是给用户显示信息的首选结构,其比典型的原系统规范化模型更便于用户理解。维度建模中表更少,信息分组为对用户有意义的、一致的业务类别。这些类别称为维度,有助于用户浏览模型,因为可以忽略与特定分析无关的全部类别。但是尽可能简洁并不意味着模型一定简单。模型必须反映业务,而业务通常都比较复杂,如果简化的过多,一般来说只表示了聚合数据,模型就会丢失对理解业务非常重要的信息。无论如何进

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1750

2019-09-26

阿里云MaxCompute被Forrester评为环球云端数据仓库领导者

    阿里云MaxCompute被Forrester评为全球云端数据仓库领导者 摘要: 参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、谷歌、微软四大巨头杀入全球一线阵营。   参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、谷歌、微软四大巨头杀入全球一线阵营。阿里云成为唯一入选的中国科技公司。     Forrester报告被认为是全球各大公司CIO选择服务商的指导手册,在行业内极具权威性。云端的大数据服务凭借安全、弹性伸缩、部署速

    阅读全文>>

作者:coody分类:【_数据仓库浏览(560

2019-09-26

原创:数据仓库建设3-数仓设计方法

    原创:数据仓库建设三--数仓设计方法 2.数据仓库架构 2.1.数据设计方法     数据仓库建立之前,就必须考虑其实现方法,通常有自顶向下、自底向上和两者结合进行的这样三种实现方案。 2.1.1.自顶向下实现     自顶向下的实现需要在项目开始时完成更多计划和设计工作,这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。 2.1.2.自底向上实现     自底向上的实现包含数据仓库的规划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。 2.1

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1040

2019-09-26

数据挖掘算法对照

    数据挖掘算法对比 转:http://www.36dsj.com/archives/68363 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 偏差&方差 在统计学中,一个模型好坏,是根据偏差和方差来衡

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1606

2019-09-27

环球云端数据仓库领导者 MaxCompute 将于本月10日正式开服美东节点

    全球云端数据仓库领导者 MaxCompute 将于本月10日正式开服美东节点 摘要: 作为全球云端数据仓库的领导者,阿里云MaxCompute为满足更多客户的业务需求,不断加快全球化部署的节奏。本月10日,美东(弗吉尼亚)节点会正式上线。届时,将会以最新版本产品向用户提供大数据计算资源和能力   作为全球云端数据仓库的领导者,阿里云MaxCompute为满足更多客户的业务需求,不断加快全球化部署的节奏。本月10日,美东(弗吉尼亚)节点会正式上线。届时,将会以最新版本产品向用户提供大数据计算资源和能力。     据参考消息网3月19日报道,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、谷歌、微软四大巨头杀入全球一线阵营。阿里云成

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1994

2019-09-26

原创:数据仓库建设4-数据模型

    原创:数据仓库建设四--数据模型 3.数据仓库建设中的数据建模     数据模型是指实体、属性、实体之间的关系对业务概念和逻辑规则进行统一的定义,命名和编码,主要描述企业的信息需求和业务规则,是业务人员和开发人员沟通的语言,是数据仓库设计工作的第一步。     首先我们需要解决三个问题:①什么是数据模型;②为什么需要数据模型;③如果创建数据模型; 3.1.什么是数据模型     数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里数据模型表现的抽象的实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。     数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型,一般的来说,我们数据仓库模型分为以下几个层次:业务模型、领域模型(主题域模型)、逻

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1080

2019-09-28

数据仓库建设6-维度处理

    数据仓库建设六--维度处理 1.代理关键字 代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理建” 代理关键字用于维度表和事实表的连接。在kimball的维度建模领域里,强烈推荐使用代理关键字的。在维度表和事实表的每一个连接中都应该使用代理关键字,而不应该使用自然关键字或者智能关键字(Smart Keys)    备注:数据仓库中的主键不应该是智能的,也就是说要避免通过主键的值就可以了解一些业务信息。当然,退化维作为事实表的符合主键之一时例外。     使用代理关键字的有点: 能够使数据仓库环境对操作型环境的变化进行缓冲。也就是说,当数据仓库需要对来自多个操作型系统的数据进行整合时,这些系统中的数据有可能缺乏一致的关键字编码,即有可能出现重复,这时代理关键字可以解决这个问题。 可以带来性能上的优势。和自然关键字相比,代理关键字很小,是整形的,可以减

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1239

2019-09-26

数据仓库建模与ETL的实践技艺

    数据仓库建模与ETL的实践技巧 一、数据仓库的架构   数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP 系统的分析需求为目的。   数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。   从OLAP 系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP 系统交互。因此,在实际项目中,将综合运用星型架构与雪花型架构来设计数据仓库。   那么,下面就来看一看,构建企业级数据仓库的流程。 二、构建企业级数据

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1789

2019-09-26

数据挖掘中 分类 ,属性变量 怎么变 double OHE

    数据挖掘中 分类 ,属性变量 如何变 double OHE 数据挖掘中,基本所有算法需求数据都是    二维 double    1  如果是 二变量    一个变 0   一个 变 1 2  其他的 以 index: dimentionvalue  来编码,  每个维度中,每种value用 用一个维度表示     //将train_cat_rdd中的(特征ID:特征)去重,并进行编号 var oheMap = train_cat_rdd.flatMap(x => x).distinct().zipWithIndex().collectAsMap() //oheMap: scala.collection.Map[(Int, String),Long] = Map((7,608511e9) -> 31527, (7,b2d8fbed) -&g

    阅读全文>>

作者:coody分类:【_数据仓库浏览(593

2019-09-26

superset-数据挖掘显现平台

    superset-数据挖掘展现平台 Superset是Airbnb开源的数据挖掘平台   Github地址:https://github.com/airbnb/superset 官网地址:http://airbnb.io/projects/superset/ Superset之前叫做Caravel,还叫做过Panaramix。到今天为止,Superset在Github上已经有8200多个星了。   以下内容翻译了Github上Superset简介的主要功能:     快速创建可交互的、直观形象的数据集合 有丰富的可视化方法来分析数据,且具有灵活的扩展能力 具有可扩展的、高粒度的安全模型,可以用复杂规则来控制访问权限。目前支持主要的认证提供商:DB、OpenID、LDAP、OAuth、和Flask AppBuiler的REMOTE_USER 使用简单的语法,就可以控制数据在U

    阅读全文>>

作者:coody分类:【_数据仓库浏览(1632

2019-09-27

速度保藏 | 100+篇大数据、数据分析、数据挖掘电子书免费下载

    速度收藏 | 100+篇大数据、数据分析、数据挖掘电子书免费下载! 全部都是电子书,根据书名点击进去即可进入下载页面,不用谢我,请叫我“雷锋” SQL电子书 SQL必知必会  R语言电子书 《R语言实战》《R语言与统计建模》《统计学与R读书笔记》《R实践运用》《R导论》中文版《R语言与统计分析》《R语言经典入门》《R语言 ggplot2:数据分析与图形艺术》《Learning R》复杂数据统计方法_基于R的应用》《R语言编程艺术》《时间序列分析及应用:R语言》《R语言初学者指南》R软件数据分析(初级部分)(高级部分)《R语言数据操作》《数据挖掘与R语言》《统计建模与R软件》《R语言与网站分析》《R in Acation》《R Graph Cookbook》《A Beginner‘s Guide to R》《Data Analysis and Graphics Using R》《

    阅读全文>>

作者:coody分类:【_数据仓库浏览(633

2019-09-27

数据挖掘统观

    数据挖掘概览 数据、信息、知识、智慧是信息系统的几个层次,挖掘的目的是获得知识甚至智慧,即对于信息的归纳和演绎的能力。筛选的演进过程是 sql查询--搜索---推荐--聚类、分类。 一、关于数据 统计描述、可视化、相似性和相异性;规约(简化),小波变换,主成分分析(PCA) 二、可以做哪些事情 http://www.cnblogs.com/tornadomeet/p/3395593.html 1、相关性:相关系数、回归分析。FP Growth算法和Eclat算法 2、分类: 线性、对数线性、逻辑回归 树形(符号):C4.5 CART(结果是条件概率) 概率:朴素贝叶斯、贝叶斯网络、EM算法 神经网络:(感知的时候有网络,推理和工作的时候有规则)BP->深度学习->DBN RBM CNN(适合于模式识别) SVM(存数学优化):线性可分、核技巧 组合:bagging(投

    阅读全文>>

作者:coody分类:【_数据仓库浏览(914

2019-09-28

数据仓库跟数据集市简介

    数据仓库和数据集市简介 全文连接http://click.aliyun.com/m/22751/初次接触数据仓库的朋友,肯定也听过另一个类似的概念:数据集市。很多朋友都心有疑惑,到底这两个有什么关系呢,今天这篇文章来谈一谈。首先来看一张网上的数据仓库架构图,这是一个从属型数据集市,位于数据仓库的上层。e901353f0ebb80066e2e17f1b15243432e6a0d1b一、数据仓库和数据集市的概念数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。       首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企

    阅读全文>>

作者:coody分类:【_数据仓库浏览(2125

2019-09-27
上一页 1/23页 下一页