『壹』 安装datastage服务端需要什么样的环境
datastage服务端一般都是安装在UNIX服务器,一般需要以下这些条件:1、操作系统 AIX 6.0以上版本。2、数据库需要建元数据库,因此需要安装数据库,至少安装数据库客户端连接另一个台数据库服务器。3、内存如果是datastage8.1以上版本,最低需要4G内存。4、硬盘考虑到日后项目实施所需要的临时数据空间,最好在安装目录所在的盘上分配至少20G的磁盘空间。5、XLC这是一个C的编译器,datastage8.5版本需要XLC 10.0以上版本,C编译器这是必需的,如果没有预先安装好C编译器,datastage服务端必然会安装失败的。当然也可以安装其它的C编译器,我就没有试过。
『贰』 DataStage软件的优缺点
以下是我这几年做datastage的一些看法,如有说的不准确,欢迎大家指正。datastage的优点主要有:1.支持异构的数据库:使用内建的组件即可完成不同数据源/目标(数据库或文件等)之间的数据抽取及加载;2.支持并行处理架构:开发好的作业不需任何修改,只要通过增加处理节点(逻辑节点——一机多节点,或者物理节点——计算机集群,或两者结合),即可实现近线性的ETL效率提升(在硬件性能支持的基础上);3.图形化的开发界面:开发者不需要了解后台底层是如何与各个数据源/目标进行交互的,只需要专心于ETL过程的逻辑实现即可,软件开发使用模块化的功能组件,通过相互之间的组合来实现ETL需求,内建各种数据处理函数,可处理绝大多数复杂逻辑,开发者只要掌握DS图形化开发和基础的ETL知识即可,无需深厚的代码编程功底,降低了开发人员更替的成本;4.图形化的监控、调度界面:实现作业调度、运行、日志查看、排错及维护。5.便捷的迁移过程:所有ETL作业可导出进行备份,并可在新的DS服务器上导入,不需要重新开发即可直接使用,降低系统故障导致开发成果丢失的风险。6.强大的自定义组件:可通过C等语言开发自定义组件,实现更丰富、更有针对性的功能组件。缺点:1.对硬件要求较高,尤其是8.x之后的版本,对CPU和内存、硬盘空间的要求更大(8.5版通常要求4CPU/6G内存为最低配置,如果单安装DS约需8~10G磁盘空间,安装全套产品则需要15~20GB)。2.ds自身调度、监控客户端功能略薄弱,在庞大的作业数量和复杂的调度需求下,通常需要基于DS自身API来额外开发调度及监控程序便于运维。3.另外,datastage还支持数据质量清洗(quality stage),不过它的这个功能在中国的语言环境下水土不服,不怎么好用。其他:1.datastage的并行引擎是此产品的一大亮点,现在datastage是IBM information server套件下的一个组成部分,新的版本在不断更新完善这套庞大的系统,将支持更多的数据源,提供更多的开发功能组件,并且在整合websphere、DB2后,支持快速生成作业、性能调优、更丰富的元数据管理、血缘分析等功能,基本上都是建立于datastage并行引擎基础上的。2.虽然IBM收购了datastage,版本从7.X升到现在的9.X,但是核心的datastage并行引擎在历次版本更新中没有做本质的改变。3.DS通常用于日常跑批,数据的实时传输不是它的长项,虽然可以借助一些辅助程序循环调用ETL作业实现准实时数据刷新,但如果需要实时数据功能的话,可通过CDC类软件实现(change data capture变化数据捕获)。4.目前还没有完美的ETL工具,但合适的才是最好的,DS本身的功能能够支持绝大多数ETL场景,当然也有些特殊的客户需求是无法实现的,需要与其它产品配合,或者进行自定义组件的开发。
『叁』 datastage V8.5版本怎么读取oracle存储过程呢使用表结构导入功能,只能看到表和视图。
通过导入元数据的方法,是无法导入存储过程的。要导入存储过程,需要配置oracle服务器的ODBC连接。datastage一般都已经安装了各种数据库的ODBC驱动程序的,基本是包含了绝大部分的数据库。使用的时候只需要对这些ODBC进行配置就可以,而不需要另外找什么ODBC驱程来安装。配置过程基本就是对两个文件进行修改:.odbc.ini和uvodbc.config注意第一个文件前面是有个“.‘的。具体配置可以参考 $DSHOME/Sample/ 路径下的例子和说明文档。
『肆』 跪求 IBM DataStage,哪个版本都行,虚拟机文件也可以…. 请上传 千恩万谢~~!
datastage 8.1、datastage 8.5、datastage 8.7 和 虚拟机版本都有,其中虚拟机版本是IBM 公司在广州举行datastage培训的课件,你想怎么拿?
『伍』 datastage是用来做什么项目的目前有哪些版本
DataStage 是由IBM公司开发的,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP系统:SAP/R3,PeopleSoft系统等普通文件和复杂文件系统:FTP文件系统,XML等Web服务器系统:IIS,Netscape,Apache等Email系统:Outlook等DataStage可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活地被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
『陆』 datastage怎么去掉重复记录
答:分类: 数据库开发技术Datastage版本:7.5Job类型:Parallel需求:输入文件中有重复记录,需要输出Distinct后的记录,并且将重复的记录也输出。Job设计如下:首先对输入文件排序,通过Sort Stage对记录排序,设置好Sort Key之后设置“Create Key Change Column”这个Option,它的功能在于生成了一列派生列,用于标注Sort Key是否第一次出现,如果Sort Key是首次出现,则标注为1,否则标记为0。这样通过这个派生列就可以将记录分成两个文件,使用Filter Stage分别输出了。在Job设计过程中需要注意的是,如果是多个Node的环境,在Sort Stage的Advanced页签将Execution mode设置为Sequential,这样排序才不会有问题。
『柒』 datastage安装教程没有设置用户密码
可以选择重新安装。前提:修改networkcd/etc/sysconfigvinetworkNETWORKING=YESNETWORKING_IPV6=YESHOSTNAME=ODSE禁用防火墙1.datastage安装介质InfoSvr_8.7.0.1_Linux.tar.gz解压文件后得到目录is_suite目录2.进入is_suite执行命令nohup./setup&后台执行防止进程中断,安装程序大约2个小时3.此时安装程序将启动一个Web服务4正式进入安装页面之后是语言选择NEXT选择开发环境是中文语言(咱们很爱国)NEXT确认防火墙关闭NEXT进行系统检查确认系统是否符合要求这一步一般会出现系统内核警告信息,然后修改内核参数vi/etc/sysctl.conf根据警告信息参数来添加修改参数NEXT选择安装目录(缺省目录,直接下一步就行)NEXT选择一个新安装的installNEXT选择安装组件选择Metadatarepository,Services,Engine.都选就行了NEXT选择产品语言选择中文就行(咱中国人不学洋鬼子语言)NEXT选择安装产品IBMInfoSphereDataStage,根据需要可以多选其他产品,选择其他事得花钱的,反正BOB花钱,管咱屁事NEXT选择协议下一步就行了NEXT选择安装的版本,咱们选择IBMInfoSphereDataStage就行了NEXT集群配置下一步就行了,NEXT安装应用服务器下一步就行NEXT选择目录,下一步就行了NEXTWAS服务端口设置这一步会出现问题,把占用的端口号去vi/etc/services把占用的端口号注释掉就行NEXT输入WAS管理员口令wasadminNEXT输入informationserver管理员口令isadminNEXT选择db2作为资料库NEXT选择db2安装目录NEXT创建db2一些用户密码跟用户名一样就行了,这一步创建不少用户….六个左右吧,忘了几个了NEXT这些用户创建成功下一步NEXT创建information资料库用户名密码等确认下一步就行NEXT下一步就行了NEXT创建DataStage管理用户和口令,例如用户名为:dsadm,密码按照项目要求设置
『捌』 求大神给分析一下Datastage 7.5,8.5,9.1三个版本之间有什么区别多谢啦!
相同点:
底层用的都是datastage parallel engine
不同点:
DS7.X及之前的版本,功能较单一,只是一个单纯的ETL工具,元数据是存储在一套univers data(文件数据库)里的,此外,ds用户都是直接使用OS用户;
DS8.X开始,引入了websphere,将应用用户和底层OS用户隔离开来,增加了安全性,并且采用关系型数据库存储元数据(univers数据库依然存在),产品架构发生了较大变化,datastage变成Information Server suite中的一个部件,但底层ds并行引擎没有改变,只是更新了一些驱动,加了几个新的stage组件,在原有ds的基础功能上,对元数据的管理做了增强,包括批量开发job、数据质量分析、数据血缘分析、业务元数据管理等内容。
DS9.1是2012年底最新发布的版本,相对于DS8.x,做了一些调整,在一些细节功能上进行了优化,但是底层架构与DS8.X没有太大差别,在原来的基础上增加了blueprint蓝图设计和发布功能,可以对数据仓库的数据架构进行设计规划。
DS7.X版本在2012年上半年IBM就已经停止产品更新和技术支持服务,多数使用DS的企业都选择了升级到8版本,目前大部分使用的版本是8.1和8.5或8.7,近几年Information Server版本升级较快,往往客户采购了8.1(或8.5、8.7),在项目还没做完的时候,8.5(或8.7、9.1)就出来了。
DS大版本号的变更表示产品进行了一些较大的更新,比如7.X到8.X,新功能需要有一个融合稳定期,是否要做第一个吃螃蟹的人,就看你是否强烈需要使用这些新增功能了。
个人觉得在8.x版本中,8.5、8.7是相对较稳定、对新数据产品支持较完善的(特殊情况下需要安装相关的fix pack),目前IBM主推9.1版,不过目前使用这个版本的客户不多,我也没有实际使用过9.1版,了解有限。
建议去google搜索一下各个版本的release note,new features等等,对比一下就大概了解了。
『玖』 datastage 有哪些版本
一般都用7.5或者8.5
『拾』 安装datastage客户端需要什么样的环境
按照datastage8.5的客户端安装来说:1、windows xp sp2以上补丁。2、安装Microsoft .NET Framework 4。满足这两个条件,基本就能安装datastage客户端了。安装前程序会有一个自检的流程,如果系统不符合要求,会有提示的,装过这么多的客户端,基本报的错都是 .NET 版本太低不支持,升级到Microsoft .NET Framework 4肯定可以的了。另外需要特别说明另一个报错,就是Script Engine出错,这是需要修改注册表来修正的,这个注册表脚本可以到IBM论坛找到。需要的话可以留下联系共享给你。希望回答能够帮到你。