DTEmpower——智能数据建模软件

QQ截图20181031162056.png 基本介绍

工业企业均拥有大量的数据,如何从数据中挖掘知识,并有效服务于自身的业务是各企业非常关注的话题。随着人工智能和数据挖掘技术的发展,市场上已存在有大量开源的和商业的数据建模解决方案,但是对于工业企业,要想建立高质量的模型,并应用于自己的业务场景,仍存在着一定的门槛,数据荒废或投入产出失衡的现场屡见不鲜。在此背景之下,南京天洑软件有限公司通过对工业企业数据建模需求的深度挖掘,研发了一套针对工业用户的数据建模软件DTEmpower。

数据建模软件DTEmpower围绕数据清理、特征生成、敏感性分析和模型训练等数据建模的各个环节,提供有大量算法。通过针对特定场景下算法的深度研发,利用智能调度引擎和超参优化等技术,提高模型质量的同时,降低了对用户数据建模经验的需求。同时DTEmpower提供一套图形化的建模开发环境,所有算法均可通过拖拽的方式进行调用,通过连线的方式进行数据的传递,极大的降低了用户的使用门槛。依托强大的算法和简便的操作,零基础用户也可以利用DTEmpower快速挖掘到优秀的模型。

模型是可复用的知识,DTEmpower秉承这一理念,定义了一套模型交换格式(简称DT模型),挖掘得到的模型可以直接存储为单个模型文件,DT模型可以在DTEmpower的模型运行模块DTEmpower Run(简称DTRun)、天洑智能优化设计平台AIPOD等软件中直接调用,服务于实时预警和优化设计等各种应用。

“降低数据建模的门槛、强化模型的知识属性”,DTEmpower针对典型的工业应用场景,提供了从建模到模型管理应用的一站式解决方案,让工业用户可以聚焦于业务而不是疲于数据分析,充分发挥数据的价值。


6367366249803765609748431.jpg 主要功能及优势

1)丰富而先进的算法工具箱

DTEmpower的核心功能建立于丰富、先进的算法工具箱基础之上。围绕数据清理、特征生成、敏感性分析、回归模型训练、时间序列模型预测等数据建模的各个环节,DTEmpower均提供有丰富的算法控件。在此基础上,“算法有自研,超参有优化,组合有调度,场景有聚焦”,相比于市面上的其他同类算法,DTEmpower的模型训练效果精度更高、稳定性更好。

宣传手册-图1.png

图 1 DTEmpower内置丰富而先进的算法工具箱

2)零编码建模

DTEmpower提供了图形化的数据建模流程搭建功能。所有的数据及模型操作,均以工具箱中模块的形式提供。用户无需具备编码能力或深入了解算法细节,通过简单的节点拖拽与节点连接即可完成复杂的数据建模流程的构建。

宣传手册-图2.png

图 2 DTEmpower采用零编码的数据建模流程搭建模式

3)表格式数据前处理

DTEmpower支持基于表格式的交互完成数据前处理。除覆盖有通用表格的操作与快捷键,还针对性地面向数据分析搭载附加功能,如数据可视化、数据核查与批处理、数据文件拼接等。此外,经过数据前处理完善的数据集可以直接导入建模流程中,完成后续的模型训练等操作。

宣传手册-图3.png

图 3 DTEmpower支持基于表格式的交互完成数据前处理

4)智能数据清理算法

数据中的异常点很大程度的影响着模型的质量,因此数据清理至关重要。考虑到工业设计数据集的特性,天洑研发了智能数据清理算法AIOD。通过自研的智能调度引擎,管控数十种数据清理算法,一键式精准挖掘出数据集中的“潜在异常点”

宣传手册-图4.png

图 4  基于自研算法AIOD完成异常点智能识别

5)针对小规模数据集的AIAgent训练

针对工业设计数据的“小数据集”“数据分布不均”等特点,天洑研发了一套智能训练算法AIAgent,通过使用集成算法、智能分层分类以及超参优化等技术,用户无需介入训练过程,一键得到“最优”模型。

宣传手册-图5.png

图5  船舶兴波阻力数据集AIAgent训练同其他算法训练的效果对比

 6)机理模型融合

DTEmpower支持用户在训练流程中嵌入机理模型,以改善模型的精度和提高模型的可解释性。同时还提供模型聚合功能,可以将用户提供的公式模型和数据训练的模型组合,作为单个DT模型导出,从而实现数据挖掘与机理模型的融合。

宣传手册-图6.png

6  DTEmpower支持数据挖掘与机理模型的融合

7工业设计场景聚焦——智能优化

DT模型的一类典型应用场景是用于产品设计优化、设备运行优化等各类优化问题中。天洑智能优化设计平台AIPOD支持在计算流程中一键导入DT模型,借助于SilverBullet算法,进行优化问题求解。

宣传手册-图7.png

7 在AIPOD中一键导入DT模型并进行优化

8)工业运维场景聚焦——智能监盘

智能监盘扩展工具箱在DTEmpower强大的数据建模能力的基础之上,提供了一套针对时间序列的智能预警算法,可以轻松固化专家的判断逻辑,从参数的波动、变化趋势,以及参数和预示模型预测值的相对偏差等多方面对参数进行健康度评估,实现异常早期预警。

宣传手册-图8.png

图 8 识别时间序列中的异常现象,并给出异常原因,辅助用户快速处置



6367366249803765609748431.jpg DTEmpower的案例展示

1数据清理与AIAgent训练

本案例采用一个基于Styblinski-Tang函数的仿真数据集,来展示在DTEmpower中智能模型训练算法AIAgent的效果。Styblinski-Tang函数如下所示,数据建模的目标是获取从x(x1至x5)到y的预测模型。

产公式1.png

为了验证AIAgent的优越性,本案例同时新建了对比工程,利用集成学习算法Adaboost节点代替AIAgent节点,在其它配置均相同的情况下,两者响应面对比如图9所示。采用AIAgent算法训练得到的模型的响应面基本完全贴合理论值,精度远高于AdaBoost算法。

宣传手册-图9a.png

宣传手册-图9b.png

(a)AIAgent的响应面,测试精度99.99%(b)Adaboost的响应面,测试精度79.9%

图 9 采用AIAgent算法训练得到的模型的响应面基本完全贴合理论值

2数据前处理与可视化

准备合适的数据集是开展建模前的必要准备工作,因此一个高效、易用的数据前处理与可视化工具可以帮助数据分析与数据建模工作事半功倍。

在本案例中,将不同数据源的样本绘制在同一散点图中,并区分为两种颜色展示。大部分的样本点分布在同一条曲线上,对应正常的运行模式;但是在来源于故障数据集的部分样本点与该曲线发生明显偏离,表明可能存在某种异常。

宣传手册-图10.png

图 10  聚合模型的响应面

3参数时序预测

时序预测问题是一种根据历史的数据,对未来的变化进行预测的问题。在本案例中,以污水处理系统的参数预测为例,演示DTEmpower在面对外界干扰强烈、时变性强、耦合性强、非线性的复杂动态生物化学过程中,基于大量的测量数据构建数据驱动的模型。

通过合理地选择外部特征并引入MDI/PCA等特征工程技术,既可以提升输入信息富集度从而有助于提升模型预测精度,又可以缓解因输入特征过多导致的维度爆炸、模型难以训练的问题,最终实现预测模型的R2指标从0.68提高到0.94

宣传手册-图11.png

图11  基于DTEmpower实现“层层递进式”的数据建模水平提升