`
runfeel
  • 浏览: 904970 次
文章分类
社区版块
存档分类
最新评论

过程挖掘(Process Mining Manifesto):从日志中挖掘知识

 
阅读更多

近年来,事件日志数据越来越多,也越来越容易获取。作为一个年轻的跨领域的交叉研究方向,过程挖掘发展迅速。什么是过程挖掘,过程挖掘算法如何在各类学术和商业系统中得以实现,以及过程挖掘面临哪些技术挑战。本文将进行深入探讨。

  • IEEE过程挖掘工作组

过程挖掘(process mining),指从现代信息系统中常见的事件日志中获取过程知识,发现、监测和改进实际系统行为模式(用过程模型来表达)。其原理如图1所示。

图1 过程挖掘:从事件日志中抽取信息,从而发现、监测和改进过程
过程挖掘在数据挖掘和业务过程管理之间搭建了一个重要的桥梁,推动了新型商务智能(business intelligence,BI)技术发展。比如,业务活动监测(business activity
monitoring,BAM)用来实时监测业务过程运行情况;复杂事件处理(complexevent processing,CEP)用于业务监测、引导和优化;公司业绩管理(c o r p o r a t eperformance management,CPM)度量过程或者组织效能。其他技术还有持续过程改进(continuous process improvement,CPI)、业务过程智能(business processintelligence,BPI)、全面质量管理(totalquality management,TQM)和六西格玛管理(6-Sigma)等。这些技术都将过程“放在显微镜下”观测,以寻找改进的可能性。因此,过程挖掘是CPM、BPI、TQM、6-Sigma等管理理念的使能技术。
过程挖掘现已成为业务过程管理(BPM)研究中的热门课题之一,有一群很活跃的研究者致力于过程挖掘工作。工业界对过程挖掘也表现出浓厚的兴趣,越来越多的软件商将过程挖掘功能添加到他们的软件产品中,包括:ARIS
PPM(Software AG)、Comprehend(Open Connect)、Discovery Analyst(StereoLOGIC)、Flow(Fourspark)、Futura Reflect(Futura Process Intelligence)、Interstage Automated Process Discovery(
Fujitsu)、OKT Process Mining suite(Exeura)、ProcessAnalyzer(QPR)、ProM(TU/e)和Reflect|one(Pallas Athena)等。

面向日益增长的对日志数据进行过程分析的需求,2009年IEEE计算智能学会(Computational IntelligenceSociety)下的数据挖掘技术委员会(DataMining Technical Committee)设立了IEEE过程挖掘工作组(IEEE Process Mining Task Force)[1]。

目前IEEE过程挖掘工作组包括三类成员:(1)软件制造商,包括HP、IBM、Infosys、SoftwareAG、Pallas Athena、Fujitsu Laboratories等;(2)咨询公司/最终用户,包括Gartner、Process-Gold、Business Process Trends、Deloitte等;(3)研究机构,包括如TU/e、University of Calabria、Penn State University、Queensland University ofTechnology、University of Haifa、K.U. Leuven、清华大学、University of Innsbruck等。

IEEE过程挖掘工作组的使命:(1)向用户、开发者、咨询顾问、业务经理和研究人员展现过程挖掘的最新成果;(2)促进过程挖掘技术和工具的使用,推动开发新的应用软件;(3)致力于日志数据记录的标准化;(4)组织过程挖掘培训、学术会议、专题研讨班;(5)发表学术文章、出版教程书籍、发布专刊和视频。

为了推动过程挖掘作为业务过程设计、改进和控制的新型工具的进一步发展,2011年IEEE过程挖掘工作组发布了《过程挖掘宣言》[2]。该宣言阐述了过程挖据技术发展现状、应用指南和未来挑战,得到了学术界、工业界和最终用户的广泛关注,目前已被翻译成汉语、荷兰语、法语、德语、希腊语、意大利语、日语、韩语、葡萄牙语、西班牙语、土耳其语等11 国语言。

  • 发展现状

信息系统的广泛应用使得事件记录(日志数据)变得无处不在,包括从ATM机中取款、医生校准X射线机、公民申请驾照、纳税申报的提交、游客获取电子客票等。简单收集日志数据并不能解决人们所关心的管理问题,比如洞察异常、识别瓶颈、预测问题、违规判定、对策推荐和优化处理等。为了解决上述问题,过程挖掘应运而生,其本质在于支持以一种有意义的方式利用日志数据。

过程挖掘的起点是日志数据。过程挖掘技术假定系统能够连续地记录事件,每个事件代表一个活动(对应过程模型的某个任务),同时每个事件都和一个特定的案例(即一个过程实例)相关。事件日志还包括其它信息,如资源(即人或设备)的执行或初始化活动、事件的时间戳或者在事件涉及的数据元素(如订货数量等)。


图2 三种典型的过程挖掘场景:过程发现、符合性检查和模型增强

过程挖掘典型应用场景(如图2所示)包括:过程模型发现(即从日志数据中挖掘出过程模型)、合规性检查(即通过对比模型和日志来监测运行偏差)、过程模型演化/增强、社交网络/组织挖掘、仿真模型的自动生成、模型修复、案例预测,以及基于历史的推荐等。

认识数据挖掘技术要避免三方面误区:

过程挖掘仅局限于控制流发现 控制流发现当然是过程挖掘中最令人兴奋的应用,然而,过程挖掘并不局限于控制流发现,还可以发现相关的组织模型、案例模型(即业务数据模型)和时间约束等信息。
过程挖掘只是数据挖掘的一种简单应用 传统数据挖掘技术(如关联规则和决策树等)并不是以过程为中心,过程挖掘以支持并发语义的过程模型来表征挖掘结果,传统数据挖掘技术并不能有效解决这一问题。
过程挖掘仅局限于离线分析 过程挖掘通常是从历史事件数据中提取过程知识,但是过程挖掘技术也可以应用于正在运行的案例中。例如,可以借助于发现的过程模型来预测正在执行的用户订单的完成时间。

  • 主要挑战

过程挖掘仍然是一门新兴研究方向,一方面,日志数据规模以惊人的速度增长,软件日志(softwarelog)已成为人们公认的大数据之一[3],另一方面,过程和信息需要进行对齐,以满足与符合性、效率和用户服务相关的需求。《过程挖掘宣言》总结了过程挖掘领域面临的主要挑战如下:

发现、合并和清洗日志数据 获取可用的日志数据需要克服以下困难:(1)数据可能分布在多个数据源上,这类信息需要关联与合并;(2)事件数据有时“以对象为中心”,而非“以过程为中心”,例如,RFID标签记录的事件会指向所绑定的产品、集装箱或容器;(3)事件数据可能是不完备的,有些事件的时间信息可能丢失;(4)一个事件日志可能包含异常行为,也称为噪音或不一致;(5)日志会包括不同粒度与级别的事件,比如,时间戳精度范围从精细的毫秒级别(28-9-2011:h11m28s32ms342)到粗糙的日期信息级别(28-9-2011);(6)某些事件发生在特定环境中,如天气、负载、一周的某一天等等。

处理多类日志数据 不同事件日志的特征有着很大差异。有些事件日志规模特别大,以至于难以处理,而有的事件日志规模特别小,以至于没有足够的可用数据来得出可信的结论。由于事件日志只包含样例行为,它们不应该被假定为完备的。过程挖掘技术需要通过“开放世界假设”来处理不完备性,所谓“开放世界假设”指的是:某些事情没有发生并不意味着它不能发生。这给处理包含许多变化的小规模事件日志带来了挑战。
构建广泛接受的基准 当前过程挖掘技术与产品还没有形成统一的评价标准。一方面需要真实数据集;另一方面也需要人工数据集。对真实数据集的需求是不言而喻的,而人工数据集,如不完备事件日志、有噪音的事件日志,则有助于开发新型过程挖掘技术。
处理概念漂移 概念漂移是指,业务过程模型随着时间推移而改变,即过程演化。例如,在业务初期,两个活动是并发关系,随着业务的推进,日志中这些活动变成了顺序关系。在实际应用中,只有少数过程模型处于相对稳定状态,因此理解概念漂移对于过程管理来说非常重要。为了应对概念漂移需要创新性研究工作。
改进过程模型的表示方式 过程挖掘技术需用一种建模语言(如BPNM或Petri网)描述结果模型。选择一种建模语言,即意味着限制了过程挖掘的探究空间:不能被建模语言表示的过程不能被发现。建模语言是否允许并发,对发现模型的可视化和算法考虑的模型类别都会产生影响。过程挖掘领域需要一种更严谨和精确的表示方式。权衡拟合度、简洁度、精确度和泛化度等。

质量标准 事件日志通常是不完备的,即只记录了一些样本行为。过程模型有四个互相竞争的质量维度:拟合度、简洁度、精确度、泛化度。权衡拟合度、简洁度、精确度和泛化度仍是一项挑战性工作。

跨组织过程挖掘 传统上,过程挖掘应用于单一的组织内部。但是,随着服务技术、供应链集成和云计算的普及,会遇到包含多组织的事件日志的应用分析场景。原则上,对于跨组织的过程挖掘来说,存在以下两种情况:一,我们可考虑不同组织协同工作,处理过程实例的协作环境;第二,不同组织环境中执行相同的过程,需要分享业务经验与知识。跨组织过程挖掘技术应该考虑隐私和安全问题,组织间也许因为竞争或缺乏信任的原因而不想分享信息。因此,开发隐私保护的过程挖掘技术是很有必要。
提供在线运营支持 过程挖掘起步于对历史数据的分析,今天多数数据源都是(接近)实时更新的,我们有时会期望即时完成事件数据的分析。过程挖掘已不局限为离线分析,开始提供在线运营支持。历史数据可以用来构建预测模型,这些模型被用来指导正在执行的过程实例。例如,有时需要预测一个案例的剩余处理时间,有时需要构建一个任务推荐系统,以减少开销、缩短时间。在线过程挖掘技术,对计算能力和数据质量都提出了新的挑战。
融合过程挖掘与其它类型的分析技术 运营管理,特别是运筹学,是一个依赖于建模技术的管理科学分支。它使用了各种数学模型,从线性规划和项目规划到排队模型、马尔科夫链和仿真模型。数据挖掘被定义为“通过对数据集(通常是大数据集)所做的分析,来寻找未知关系,以及用一种容易被数据所有者理解且有用的新型方式总结概括数据”。过程挖掘技术,应该与分类(如决策树学习)、回归分析、聚类(例如,k均值聚类)和模式发现(如关联规则
学习)等已经开发的技术融合使用。

方便最终用户使用 过程挖掘的目标之一是构造“实时过程模型”,即正在使用的过程模型,而不是已经归档的过程模型。新产生的事件数据可被用于发现涌现的行为,事件数据和过程模型之间的关联允许将当前的状态和最近的活动投影到最新的模型上。这样,最终用户需要经常与基于过程挖掘的结果进行交互,因此需要直观、友好的用户界面。
方便最终用户理解 即使产生了过程挖掘结果,并不意味着结果就真正可用。有时,用户由于不理解输出的内容,而被误导到不正确的结论。为了避免这样的问题,挖掘结果应该用一种合适的表示方式展示出来。同时,应明确给出挖掘结果的可信度。现存的过程挖掘技术一般不会对拟合度过低或者过高的结果给出警告,即使有时很明显由于数据量过小而无法得到任何可信的结论。


分享到:
评论

相关推荐

    论文《Process Mining Manifesto》翻译

    论文《Process Mining Manifesto》翻译

    Manifesto:软件初创公司应该如何运作

    宣言 软件初创公司应该如何运作。 管理 首先,简短的题外话。 所有书呆子都应该阅读: : 20 多年的创业经验教会了我一件事:非技术人员无法成功经营科技公司。 我所说的“成功”是指“公司因产品而成功”。...

    manaakiwhenua-manifesto:Manaaki Whenua的宣言和代码发布框架-Landcare Research GitHub account

    manaakiwhenua-manifesto:Manaaki Whenua的宣言和代码发布框架-Landcare Research GitHub account

    manifesto:IIIF Presentation API客户端和服务器实用程序库

    npm install manifesto.js --save入门文献资料开发人员设定git clone https://github.com/iiif-commons/manifesto.gitnpm installnpm buildnpm test发布包在master以外的分支上使用npm version在本地npm version 。...

    manifesto:APK混淆的PoC框架

    它支持可以执行不同混淆技术的插件(位于processing目录中)。 主要要点是,您在APK文件上运行了manifesto,这会产生混淆的APK文件。 开始 由于这是PoC,因此没有花哨的方法来启动它。 只需克隆仓库并输入: ...

    manifesto:FreeAI宣言

    但是研究人员不能直接从他们的工作中获利:没有经济诱因。 AI需要计算能力。 但这是昂贵的并且寡头垄断的。 我们旨在为大数据,机器学习模型和计算能力创建开放,竞争和分散的市场。3. AI不能为单数单一的人工智能...

    manifesto:CJ宣言

    代码骑师宣言这是代码骑师宣言。 Star 这个仓库加入运动吧! 100 STOP. MAKING. SHIT....= THIS!200 READ NEXT 1 (URGENT) PROBLEM300 WRITE 1 (PLAUSIBLE) SOLUTION400 DELIVER "SOLUTION" TO CLIENT500 REPEAT 100 ...

    manifesto:委内瑞拉Javascript社区宣言

    宣言我们当中那些合作并且属于委内瑞拉Java社区(即Venezuela.js)的成员,将向那些表示有兴趣学习Java编程语言的人传授和分享有关Java编程语言的知识和经验。 我们欢迎任何希望代表我们的社区贡献其知识和技能的人...

    the-happiness-manifesto:幸福宣言——是什么造就了幸福的开发者?

    幸福宣言——幸福驱动发展的开端 您可以在此处查看原始博客文章: : 这就是我们作为幸福驱动开发人员 (HDD) 所坚持的价值观。 因为谁不想快乐? 作为一个快乐驱动的开发者......... - We value languages that are ...

    manifesto:修复者的宣言

    自述文件修复者的宣言

    APIOPs-manifesto:APIOP清单

    API操作 ## Introduction麦肯锡全球研究所估计,到2025年,物联网的潜在经济影响为每年2.7万亿至6.2万亿美元。GSM协会预测,到2020年,将有240亿台互联设备,而思科的万物互联预测是连接到Internet的500亿种“智能...

    queue_manifesto:任务独裁者服务

    新任务总是添加到队列的末尾一次只能从队列中删除一项活动项目可能会被丢弃到队列的后面。 这只能每 7 天进行一次。 队列中的项目没有截止日期即将推出唠叨引擎:通过尽可能多的渠道纠缠你来帮助你记住一个活跃的...

    sea-manifesto:要了解更多访问

    立方体霜第三年| CSE(2018-2022)| 面向对象的程序设计项目项目摘要:来自印度各地的船舶代理商申请记录船舶详细信息,并在必要时进行修正,并将其上载到印度海关进行检查。项目Wiki:团队成员: Subhradip Debnath...

    batch4_data_manifesto:希波克拉底誓言

    希波克拉底誓言为数据科学家我们是一支由志愿者组成的团队,是“为了好数据”协会的一部分。 为数据科学家撰写希波克拉底誓言的想法被带到了该协会的第四个加速季节。 经过在线问卷调查和几次合作写作会议后,我们...

    大天使之剑java源码-manifesto:宣言

    它将是存在于物理空间中的物理计算机,并将成为物理和数字艺术的来源 关于重用的声明 电子垃圾每天都变得越来越严重。 trash.town 将反对计算机因过时而终止生命的想法。 如果我们对我们的解决方案有创意,计算机就...

    the-solo-developers-manifesto:本指南将帮助开发人员通过上帝的怜悯实现团队可以实现的目标

    将待办事项中的任务和分组任务添加到有意义的分组中,并按优先级/ MoSCoW(在优先级划分过程中必须,应该拥有,可能拥有和不会使用用户POV)和故事点(再定级/重新估计)对组进行排序/ Redo Dead衬里(如果新功能已...

    manifesto:有关Coq社区组织目标的文档,共同的贡献指南和行为准则

    请注意,此自述文件(清单)是一项正在进行中的工作,旨在进行协作改进。 请贡献! 谁管理这个组织? 该组织由志愿者Coq用户管理。 欢迎大家(您不需要成为经验丰富的Coq用户即可参加)。 请! 它的目标是什么? ...

    electron-manifesto:一个关于 Electron 命令行和构建工具的稻草人提案

    电子宣言 针对 Electron 命令行和构建工具的。 我不同意! / 我不太确定...... / 别的东西 本文档是有意设计的,绝对没有一成不变,只是讨论编写 Electron 应用程序的体验应该是什么样子的开始。 PR/问题/评论都很棒,...

    remote-manifesto:我的Jekyll博客提供有关设计,旅行,我的思想和生活的博客

    在根文件夹中运行jekyll serve --watch 。 咕&和部署! 停止grunt watch并在根文件夹中运行grunt来最小化和连接js,以及优化图像。 指南针和咕GrCSS 在css文件夹中运行compass watch ,并在根文件夹中运行grunt ...

    Affective Learning a Teaching Manifesto

    affective learning a teaching manifesto

Global site tag (gtag.js) - Google Analytics