当前位置:主页 > 技术文章 >

技术文章

Technical articles

收藏!25篇高引用次数论文打包给你——大数据篇

时间:2022-10-19 00:19 点击次数:
  本文摘要:泉源 | elsevier译者 | 火火酱责编 | 邓晓娟出品 | CSDN云盘算(ID:CSDNcloud) 在学习云盘算的历程中,不行制止的就是研究种种文献。而在本文中,我们为大家搜集了大数据领域中被引用次数最多的论文及其摘要,资助大家明白论文主旨。感兴趣的小同伴,可以自行搜索举行研究。01 大数据随机森林大数据是统计学面临的主要挑战之一,从算法和理论的看法来看,大数据会带来无数结果。 论文摘要:大数据包罗大量的数据,同时也包罗在线数据和数据异构性。

雷泽体育

泉源 | elsevier译者 | 火火酱责编 | 邓晓娟出品 | CSDN云盘算(ID:CSDNcloud) 在学习云盘算的历程中,不行制止的就是研究种种文献。而在本文中,我们为大家搜集了大数据领域中被引用次数最多的论文及其摘要,资助大家明白论文主旨。感兴趣的小同伴,可以自行搜索举行研究。01 大数据随机森林大数据是统计学面临的主要挑战之一,从算法和理论的看法来看,大数据会带来无数结果。

论文摘要:大数据包罗大量的数据,同时也包罗在线数据和数据异构性。近年来,人们通过例如线性回归模型、聚类方法和自举算法等统计学方法来处置惩罚大数据。

随机森林(random forests)是由Breiman在2001年提出的一种基于决议树、荟萃和自举思想的方法。通过这种强大的非参数统计方法,可以在单一和通用的框架中思量回归问题以及两类和多类分类问题。针对分类问题,本文对现有的将随机森林应用于大数据的提议有选择地举行了回首。

这些提议是基于并行情况以及随机森林的线上应用之上的。本文还将解释在这些方法中如那边理袋外错误(out-of-bag error)。接下来,本文在大数据配景下对随机森林举行了各种解释。

最后,在两个庞大的数据集(1500万和1.2亿的观察数据)、一个模拟数据集以及真实世界数据上实验了5个变量。效果显示,其中一个变量需二次采样。另外三个变量则与随机森林的并行化实现相关,或涉及自举法在大数据中的种种应用,或涉及“分而治之(divide-and-conquer)”算法。

第五个变量与随机森林的在线学习有关。这些数值试验突出了差别变量的相对性能,也展现了一些局限性。

02 系统化文献综述之云情况中数据复制技术论文摘要:云盘算面临着许多挑战,其中之一就是使用复制数据。数据复制是漫衍式海量数据治理的一项重要技术。其主要目的是将数据放置在差别的位置,从而在差别位置有同一特定文件的多个副本。复制是漫衍式情况中广泛研究的工具之一,在漫衍式情况中,一些数据的多个副本会被储存在差别地方,在其中解决建立、维护和更新副本的成本是很是重要且具挑战性的问题。

在已往的十年里,漫衍式盘算的应用和架构发生了庞大变化,同时,复制协议也发生了庞大变化。然而,只管这个问题十分重要,但到现在为止,还没有在漫衍式云情况中系统地研究过该问题。

云情况中的数据复制分为静态方法和动态方法。在静态算法中,建立的副本数从一开始就是常量,是由用户从开始就决议的,或者是由云情况决议的。而在动态算法中,思量到其所属的情况,副本数是由用户的会见算法来决议的。

本文旨在系统地回首这两类算法的数据复制技术,并划分讨论两者的特点。03 大数据之项目集挖掘:比力分析论文摘要:众所周知,项目集挖掘是一项探索性数据挖掘技术,用于发现隐藏在数据荟萃中所有有趣的关联。

由于它支持差别的目的分析,因此它在从网络流量数据到医疗记载的种种差别领域中都是十分有益的。随着数据量的增加,人们使用Apache Hadoop和Spark平分布式盘算框架的优势开发出了差别的可扩展性数据挖掘算法。本文通过理论和实验的对比分析,回首了处置惩罚大数据领域频繁项目集挖掘问题的基于Hadoop和Spark的可扩展性算法。

由于项目集挖掘目的盘算量很大,因此其漫衍和并行化计谋会严重影响内存的使用、负载平衡和通信成本。本文详细讨论了频繁项目集挖掘漫衍式方法的算法选择方法,然后通过实验分析比力了最先进的漫衍式算法在合成数据集和实际数据集上的性能。

在数据集特征(例如数据漫衍、平均事物长度、记载数)和特定参数设置方面详细讨论了算法的优缺点。最后,在理论分析和实验分析的基础上,提出了项目集挖掘问题并行化的开放研究偏向。04 为智慧都会提供关联数据:以卡塔尼亚为例论文摘要:语义网技术,特别是关联开放数据,提供了一种将都会作为物质、社会和技术系统共享知识的方法,从而支持智慧都会应用法式的开发。本文通过先容一个基于卡塔尼亚安利的原型,旨在分享履历教训,可为其他有类似需求的案例提供实践参考。

本文讨论了实现句法和语义互操作性的重要性(作为将异构数据源转换为关联数据的效果):语义互操作性在数据级获得解决,以便顶层的进一步开发。我们提出了一个智能都会综合数据模型,该模型集成了多个数据源,包罗地理参考数据、公共交通、都会故障陈诉、门路维护和都会垃圾收集。针对公共交通、都会故障陈诉和门路养护等领域,提出了一些新的本体设计模型。邀请领域从业者和普通民众使用原型并填写问卷,提供问题和反馈。

同时,还举行了一个盘算实验,以评估该数据模型在实际可扩展性方面(而不是增加数据和在庞大情况下的效率方面)的性能。研究所发生的所有数据、模型、原型和观察问卷效果都可从网上公然获取。

05 一种使用灰狼优化算法和MapReduce的新聚类方法论文摘要:随着技术的进步,数据量正迅速增长。需要越发高效地分析方法来支持有关数据的智能决议。数据聚类是一种重要的数据挖掘分析方法,广泛应用于数据分析领域。

面临日益增长的海量数据集的分析需求,当今迫切需要革新传统的数据分析方法。本文针对大规模数据集基于提出了一种有效的聚类方法——基于MapReduce的灰狼优化算法(MR-EGWO)。该方法引入了一种新型的灰狼优化算法——增强型灰狼优化算法(EGWO),将灰狼的搜索计谋与二项式交织混淆,并引入了莱维航行(lévy flight)步骤,从而增强搜索能力。

此外,该算法还可被用于优化聚类历程。实验在七个UCI基准数据集上测试了EGWO的聚类效率,并将其与五种现有的聚类技术(即K-均值、粒子群优化(PSO)、引力搜索算法(GSA)、蝙蝠算法(BA)以及灰狼优化算法(GWO))举行了比力。

通过收敛图和箱线图验证了EGWO的收敛性和一致性。此外,将提出的EGWO在Hadoop框架中的MapReduce模型上并行化,并命名为MR-EGWO来处置惩罚大规模数据集。另外,本文还从F-measure的角度验证了MR-EGWO的聚类质量,并将其与基于MapReduce的四种最优聚类举行了比力:并行K均值、并行 K-PSO、基于MapReduce的人工峰群优化(MR-ABC)、基于动态频率的并行k-bat算法(DFBPKBA)。

实验效果讲明,本研究提出的技术为大规模数据聚类提供了前景辽阔且强大的替代方案。06 快速深度卷积人脸检测在难题样本挖掘中的应用论文摘要:人脸检测是机械学习中一项重要的视觉信息分析技术。大数据的兴起导致了海量可视化数据的积累,从而越发需要正确快速的分析方法。

深度学习方法为此问题提出了一个解决方案。研究讲明,大量高可变性数据训练可以显著提高其有效性,但这通常会导致昂贵的盘算成本而且使模型高度庞大化。若以分析海量数据集中的大量可视化内容为目的,模型的庞大水平对模型是否能够取得乐成来说至关重要。

本文先容了一种针对人脸检测的轻量级深度卷积神经网络(CNN),该网络设计的目的是淘汰训练和测试时间,并使其有效性优于之前揭晓的深度卷积神经网络论文。为了在不影响效率的前提下训练这种轻量级深度神经网络,本文提出了一种渐进式正例及难题负例挖掘的新训练方法,并证明晰该方法能够显著提高训练速度和精度。

此外,本研究还训练了一个能够检测个体面目特征的独立深层网络,建设并评估了能够将两个网络输出相联合的模型。两种方法都能够检测被严重遮挡和各种姿势变化下的人脸,解决了真实情况下举行实时人脸检测的难题,本文提出的方法在无人航行器(UAVs)等移动情况中也适用。

07 列车延误预测系统:大数据分析视角论文摘要:现在使用的列车延误预测系统并没有使用最先进的工具和技术:从铁路信息系统收集大量列车历史运行数据,处置惩罚和提取有用且可操作的信息。相反,现在的预测系统依赖于铁路基础设施专家基于经典单变量统计建设的静态规则。本文旨在使用最新的大数据技术、学习算法和统计方法,构建一个面向大规模铁路网的数据驱动的列车延误预测系统(TDPS)。

特别是,本文提出了一种针对浅层和深度极限学习机的快速学习算法,该算法充实使用了最新的内存大规模数据处置惩罚技术来预测列车延误,并与现在最先进的TDPSs算法举行了比力。来自意大利铁路网的真实数据讲明,该方案能够革新现在最先进的TDPSs算法。08 上下文感知盘算中的大数据应用——前景与挑战论文摘要:大数据时代已经到来了,无数的应用法式和系统生成的数据量、种类和速度都是传统盘算系统和数据库无法治理的。

传感器已经存在与种种设备中,传感器收集的数据已经成为大数据的主要泉源之一。本文主要关注从数据派生上下文并据此行动的上下文感知盘算系统是如那边理大量数据的。大型行业到场者,即谷歌、雅虎和亚马逊已经借助来自于电子邮件、谈天信息、浏览和购物历史的用户数据开发了上下文感知应用法式。

例如,Gmail通过相识航班预订信息来提醒用户注意航班时间表。同样,亚马逊会相识用户的喜好并推荐相关商品等。在本文中,我们从大数据角度研究了上下文感知盘算系统。首先,本文在传感平台基础上提泛起有事情的分类法,然后讨论了大数据上下文感知系统领域的最新生长,重点讨论了大数据上下文感知系统如何应对种种大数据挑战。

最后,本文对涉及设计和开发上下文感知的大数据生成系统的开放性研究问题举行了深入分析。09 基于4V大数据流的高效资源治理系统论文摘要:成千上万的数据源正以前所未有的速度不停生成大数据流。对此类数据流的分析需要云资源,随着云上大数据的生长,合理分配云资源成为一个重要的研究课题。

当前使用的方法是凭据数据特征分配云资源。可是由于数据生成的随机性,大数据流中的数据特征是未知的,这给选择和分配合适的资源到大数据流带来了难题。针对这一问题,本文提出了一种高效的资源治理系统。

该系统开端预计了大数据流在容量、速度、多样性和可变性方面的数据特征。预计值以名为数据特征(CoD)的向量表现。另一方面,借助自组织映射(SOM),可动态建立云资源集群。

SOM使用CoD来建立集群并将其分配到大数据流。此外,由SOM形成的集群的拓扑顺序可淘汰等候时间。文中提出的系统已经由实验测试。实验效果讲明,该系统不仅可以有效地预测数据特征,而且可以有效地提高云资源的性能。

10 用于深度学习大数据分析的GPGPU神经网络原型论文摘要:大数据涉及大量庞大的、连续增长的数据。思量到数据存储和网络的快速生长,各组织都在收集包罗有用信息的连续增长的大型数据集。为了在有效期内从这些数据集中提取信息,使用漫衍式和并行算法是十分重要的。机械学习是大数据分析常用的方法,其中收集的数据被用于预测未来的行为。

使用人工神经网络举行深度学习是从庞大数据集中提取信息的常用方法之一。与传统的概率机械学习技术相比,深度学习能够建立更为庞大的模型,这为我们提供了有关如何原型化的在GPU和CPU集群上执行深度学习应用法式的分步指南。Python和Redis是本指南的焦点支持工具。本教程将能资助读者在几个小时内相识构建漫衍式高性能GPU应用法式的基础知识。

由于我们不依赖任何深度学习应用水平或框架,因此可以针对读者的想法在大数据上举行原型设计的任何并行算法来调整本教程。最后,本文将讨论如何从原型过渡到完全成熟的生产应用法式。11大数据系统应对机械学习挑战:大数据科学即服务论文摘要:近年来,人们见证了两大方面的进步,一是日常生活中发生和收集的数据规模的庞大进步,二是人们使用现代技术来处置惩罚、分析和明白这些数据的能力的进步。

这两大趋势的交点就是今天所说的大数据科学。大数据科学需要可扩展的体系结构来存储和处置惩罚数据。云盘算是支持大数据存储、处置惩罚和庞大分析应用法式的实用且经济的解决方案。

本文将详细分析用于支持大数据科学作为数据科学家们的商品服务的软件客栈的构建模块。此外,研究还凭据支持的服务模型对大数据分析框架的最新技术举行了分析和分类,现在这些框架大多在云上可用。与此同时,本文还提供了有关该领域的最新生长和挑战。

12 Marcher:支持能源意识高效能盘算和大数据分析的异构系统论文摘要:过多的能源消耗是设计和部署下一代超级盘算机的主要制约因素。要将高性能盘算和大数据应用法式的能耗降至最低,就要从架构、系统支持和应用法式的多个条理上使用新的节能技术(硬件和软件)。在已往的十年中,我们见证了在开发越发节能的硬件和基础设施方面的重大希望。

然而,软件的能效并没有获得很大的提高。阻碍绿色软件技术探索的障碍之一就是缺少能够为技术评估和验证提供准确的、实时功率和能量丈量的工具和系统。Marcher是一个异构高性能盘算基础结构,旨在通过为能源敏感型高性能盘算和大数据分析研究提供支持来填补这一空缺。

Marcher系统配备了Intel Xeon CPUs, Intel Many Integrated Cores (Xeon Phi), Nvidia GPUs, 可识别能耗的存储系统以及硬盘驱动器 (HDDs) 和固态磁盘 (SSDs)的混淆存储。为研究人员获取这些主要盘算组件剖析后的细粒度能耗数据提供了易于使用的工具和界面。本文先容了Marcher系统的设计,并演示了Marcher功率丈量工具在差别研究项目中用于获取详细能耗数据的用法。

13 BLADYG:用于大型动态图的图形处置惩罚框架论文摘要:近年来,大型动态图的漫衍式处置惩罚变得越来越盛行,特别是在某些领域,例如:社会网络分析、Web图分析和空间网络分析。在这种情况下,人们提出了许多漫衍式/并行图形处置惩罚系统,例如:Pregel, PowerGraph, GraphLab, 和Trinity。然而,这些系统智能处置惩罚静态图,而没有思量演化图和动态图的问题。

在本文中,我们思量了图形处置惩罚系统中的规模和动态性问题。本文先容了BLADYG,一种能够解决大规模图形中的动态性问题的图形处置惩罚框架。

文中先容了在AKKA框架基础上实现BLADYG。我们通过将其应用于大型动态图的漫衍式k-core剖析和划分等问题,对其性能举行了试验评估。实验效果讲明,BLADYG的性能和可扩展性在大规模动态图中的体现令人满足。

14 用于识别癌症驱动因素的大型DNA甲基化数据集的分类论文摘要:DNA甲基化是一种经由了充实研究的基因修饰,对换节基因组的功效至关重要。其改变在肿瘤发生和肿瘤抑制中起重要作用。

因此,研究DNA甲基化数据有助于发现癌症中的生物标志物。由于关于DNA甲基化的公共数据越来越富厚——而且思量到基因组中存在大量的甲基化点位(特征)——因此,有一个有效处置惩罚如此大数据集的方法是十分重要的。基于大数据技术,我们提出了BIGBIOCL算法,该算法可以将监视分类方法应用于具有数十万特征的数据集。它旨在通过迭代删除选定的特征来提取可选的和等价的分类模型。

通过对从癌症基因组图谱中提取的DNA甲基化数据集举行实验,重点研究三种类型的肿瘤:乳腺癌、肾癌和甲状腺癌。通太过类,准确地(准确率>97%)提取几个甲基化位点及其相关基因。效果讲明,BIGBIOCL可以在几个小时内对数十万个特征执行数百次分类迭代。

此外,我们还将本方法与其他最新的分类器和基于网络分析的DNA甲基化分析方法的性能举行了比力。最后,实验另有效地盘算了多个替代分类模型,并从DNA甲基化大数据集中提取一组候选基因,进一步研究其在癌症中的努力作用。

BIGBIOCL、实验效果、以及举行新实验的指南可以在GitHub上面免费获取:https://github.com/fcproj/BIGBIOCL15 Spark参数调整方法论文摘要:因为Spark乐成地向开发人员隐藏了与并行性、容错能力和集群设置相关的大部门庞大性,对大数据流分析来说,它已经成为极具吸引力的平台。然而,这是以凌驾150个可设置参数为价格的,因为这些参数的组合数量呈指数增长,因此无法对其影响举行全面分析。

默认值使开发人员可以快速部署他们的应用法式,可是有关是否可以提高性能的问题仍然悬而未决。在本文中,我们通过使用巴塞罗那超级盘算中心对Spark的Marenostrum III (MN3)举行了大量实验,研究了最重要的可调Spark参数在改组、压缩和序列化方面临应用水平性能的影响。

总体目的是指导开发人员更改默认值。我们以之前的事情为基础,在此研究中,将已往的履历映射到重复试验的迭代革新方法中,以基于少量实验运行的证据来调整任意应用法式中的参数。该研究的主要孝敬在于提出了一种用于参数调整的系统的替代方法,该方法可以轻松地被应用于任何盘算基础架构,而且在应用于MH3时,其效果与最初的效果平分秋色。

在验证的测试案例研究中,视察到加速从20%开始。此外,新方法可以依靠使用样原来运行,而不是在完整的数据集上运行,这使其越发实用。

16 有效支持高维数据项目集挖掘的并行MapReduce算法论文摘要:在当今世界,许多科学应用(例如生物信息学或网络)正在不停生成大量数据。由于每个事件通常都具有种种各样的特征,因此不停生成高维数据集。

为了从这些庞大的数据集中提取有价值的信息,可以使用差别的探索性数据挖掘算法来发现数据之间隐藏的、特殊的相关性。频繁项目集挖掘是一种有效但盘算量大的技术,通常用于支持数据探索。

由于漫衍式和并行框架的普及,能够处置惩罚大数据的可扩展方法的开发已经扩展到频繁的项目集挖掘。不幸的是,当前大多数算法都是为处置惩罚低维数据集而设计的,在那些以高维数据为特征的用例中体现不佳。本文先容了一种基于MapReduce、用于高维数据集的频繁项目集挖掘算法——PaMPa-HD。

提出了一种有效的解决方案来并行化并加速处置惩罚历程。此外,本文还提出了轻松设置算法参数的差别计谋。

在真实高维用例上举行的实验效果讲明,该方法在执行时间、负载平衡和内存问题的结实性方面是有效的。17 在R中使用大数据编程:将分析规模从一个节点扩展到数千个节点论文摘要:本文通过使用几个扩展软件包(包罗来自pbdR项目的扩展)先容了如何通过R语言实现可扩展性的教程概述。用到的软件包包罗MPI、PBLAS、ScaLAPACK、I/O库、设置库等。

虽然这些库在大型漫衍式平台上的体现最为精彩,但他们在小型集群上也能很好的运行,而且令人惊讶的是,纵然在只有两个内核的条记本电脑上也能流通地事情。本教程首先先容了图在思量并行实现之前提高R代码的性能。

因为R是一种高级语言,所以一个函数可以有很深的操作条理。对于大数据来说,这很容易导致效率低下。

提要分析是相识R代码性能的重要工具,可用于串行和并行革新。pbdR软件包为开发新型漫衍式数据分析算法提供了高度可扩展功效。

这种级此外可扩展性是其他分析软件所无法相比的。对于100GB及以上的数据,庞大的分析算法可实现交互式速度(秒)。这件事得以实现是因为接口对可扩展库只增加了很少的成本。此外,这通常是在串行R代码很少或没有更改的情况下实现的。

本概述包罗种种庞大水平差别的代码,阐明晰并行读取数据、将串行代码转换为漫衍式并行代码的历程以及如何在R中举行漫衍式矩阵盘算的历程。18 聚类算法BIRCH的变体论文摘要:近年来,随着大型数据集的可用性和并行盘算体系结构的兴起,聚类算法又重新引起了人们的关注。然而,大多数聚类算法都有两个缺点:它们无法随数据集巨细的增加而很好地扩展,而且经常需要适当的参数化(这并不容易)。

本文先容了A-BIRCH——BIRCH聚类算法的自动阈值估算方法。该方法从数据中盘算BIRCH的最优阈值参数,使BIRCH纵然在没有全局聚类阶段(通常是BIRCH的最后一步)的情况下依然能举行聚类。

如果数据满足某些约束条件,则可能实现,如果不满足这些约束条件,A-BIRCH将会在显示效果之前发出相关警告。这种方法使BIRCH最终的全局聚类步骤在许多情况下都不是必须的,这带来了两个利益。首先,我们不需要事先知道集群的数量。

雷泽体育app官方下载

其次,如果没有盘算量庞大的最终全局聚类,快速BIRCH算法将会变得更快。对于很是大的数据集,我们引入了BIRCH的另一种变体形式——MBD-BRICH,它与A-BIRCH联合后具有特殊优势,但其整体而言是独立的,而且也具有一般性的优势。

19 Smart4Job:使用时间序列预测和语义分类举行智能事情岗位分享的大数据框架论文摘要:最近几年,随着互联网的生长,泛起了专用于自动化招聘的门户网站和社交网络,从而导致了优化算法的广泛使用。为此,人们建立了许多求职网站,以便更好地公布和分享事情时机。对于招聘人员来说,要选择相关的招聘网站来公布招聘信息有时会很难题,因为他们总是希望能在短时间内吸引到最好的求职者。

此外,某些招聘网站还会有种种差别的业务种别,这也让选择变得很是难题。针对这些问题,本文建设了一种新的招聘通告推荐系统——Smart4Job,该系统能够为新的招聘信息推荐合适和招聘网站。该系统基于多个整合为一体的大数据平台,包罗领域知识分析和时间预测模型。招聘通告的语义分类需要使用受控词汇表举行文天职析。

借助浏览历史,时间序列分析模型可以为给定岗位推荐最佳招聘网站。最终的决议历程将这些模块的谜底组合在一起。该系统已经在真实数据的基础上举行了评估,开端效果讲明,该系统具有良好的应用前景。

20 应用并行盘算技术分析Terabyte TB级大气界限层层模型输出论文摘要:在大气科学中,随着人们越来越容易获得能够处置惩罚具有精致时空分辨率的盘算资源,模拟输出的巨细也连续增长。随着输出巨细的增加,串行数据分析方法会变得不堪重负,从而导致处置惩罚历程长时间延迟,或者由于内存限制而导致完全失败。并行数据分析方法可以缓解这些问题,然而大气科学家们往往并不相识如何实现这一目的。因此,需要通过实例方法来指导如何在大气模拟大数据分析中使用并行处置惩罚方法。

本文提出了一些十分实用的方法,通过这些方法,可以使用消息通报接口(MPI)和Python并行执行分析。这些方法首先思量了特定数据分析历程的固有空间依赖性。通过识别这些依赖性,可以在最小化历程间通信的基础上实现数据集的水平或垂直漫衍。此外,分析方法分为数据传输受限或盘算受限两种。

在数据传输受限问题中,数据传输时间大于处置惩罚时间。在盘算受限问题中,处置惩罚时间大于数据传输时间。效果讲明,随着处置惩罚器数量的增加,盘算受限问题的执行时间获得了改善;增加节点数也可以最大水平上改善数据传输受限的问题。

为了进一步提高盘算受限问题的性能,实验使用了图形处置惩罚单元(GPU)和统一盘算架构(CUDA)框架。实验效果讲明,该GPU实验比MPI版本的测试分析方法有了进一步的改善。21 无线多媒体传感器网络中用于监控的图形数据库的大数据模型仿真论文摘要:传感器以种种各样的形式存在于世界各地,如手机、监控摄像头、智能电视、智能冰箱以及血压监测仪。

通常来讲,大多数传感器都是某些其他系统中的一部门,与系统中的其他传感器配合组成网络。其中有一个网络是由数百万个毗连到互联网的传感器组成的,这就是物联网(IoT)。

随着无线通信技术的生长,多媒体传感器及其网络有望成为物联网的重要组成部门。在火灾探测、都会监控、预警系统等多个领域已经有了许多关于无线多媒体传感器网络的研究。所有这些应用法式都是通过实时数据流定位传感器节点并长时间收罗数据,这些数据可以成称为大数据。大数据可以是结构化的也可能是非结构化的,需要存储以举行进一步的处置惩罚和分析。

分析多媒体大数据是一项困难的任务,需要举行高条理建模才气有效地从数据中提取有价值的信息知识。在本研究中,我们提出了一个基于图数据库模型的大型数据库模型,用来处置惩罚无线多媒体传感器网络生成的数据。

我们引入了一个模拟器来生成综合数据并使用图形模型作为大数据库来存储和查询大数据。为此,我们评估了著名的基于图的NoSQL数据库、Neo4j和OrientDB,以及关系数据库MySQL。我们在模拟器上举行了大量的查询实验,证明晰在无线多媒体传感器网络中,某些数据库系统是有效且可扩展的。

22 可视化和可扩展盘算的闭环大数据分析方法论文摘要:许多科学观察都需要举行数据麋集型研究,其中需要收集和分析大量的数据。为了从大数据中相识更多信息,我们首先需要从数据中提出最初的假设,然后测试并验证这些关于数据的假设。

可视化通常被认为是一种从给定的数据集中提出假设的好方法。盘算算法与可扩展盘算相联合可以对大数据执行假设磨练。

此外,交互式的可视化界面能够让该领域的专家们直接与数据举行交互,到场到循环中,以完善其研究问题并重新定向其研究偏向。在本文中,我们讨论了一个集成了信息可视化、可扩展盘算和用户界面的框架,以探索大规模的多模态数据流。

从数据中发现新知识需要对这种规模的数据集举行探索性的分析,使我们能够正确的看待数据,需要联合自下而上的模式发现和自上而下的人类知识来使用人类感知系统的气力举行发现。我们从一种新颖的交互式时间数据挖掘方法开始,该方法资助我们发现可靠的顺序模式和准确的多元时间序列的时序信息。然后我们举行并行化的解决方案,该方案可以完成使用迭代MapReduce任务从大规模时间序列中提取可靠模式的任务。

本研究使用视觉信息技术资助科学家交互式地探索、可视化和明白其数据。例如,用户可以通过异步web服务会见在HPC上运行的并行挖掘算法。通过这种方式,科学家们可以通过比力中间数据来提出新一轮的分析,以获得更具科学意义和统计上更为可靠的模式,因此统计盘算和可视化可以相互促进。

此外,框架中的可视化接口使科学家可以直接到场循环,并可以重定向分析偏向。以上研究联合起来,组成了一种可以通过可视化和可扩展性盘算来执行闭环大数据分析的高效方法。23 Hadoop MapReduce在SSDs上分析社交网络的性能论文摘要:固态硬盘(SSDs)的泛起引发了大量观察和开发新驱动器潜力的研究。

本研究的重点是相识SSDs与硬盘驱动器(HDDs)在Hadoop MapReduce基础存储时的相对性能和优势。特别是,本次研究将从所有早期的相关事情中分散出来,不使用之前的事情负载,而是检查适合对出现差别执行模式的庞大网络举行分析的MapReduce任务和数据。

只管会涉及大量用于庞大网络分析的算法和实现,我们还是选择了“标杆分析法(benchmarking methods)”,其中包罗在庞大网络中执行当地和网络规模内的操作的多种方法。同时,因为其可以用作更庞大的网络处置惩罚应用法式原型,所以也足够通用。我们在真实的社交网络数据上执行这些算法(并清除了可能严重影响实验效果的网络宽带的影响),评估了SSDs和HDDs的性能。

效果讲明SSDs对Hadoop是有益的,这一效果也获得了部门早期研究的证实。然而,我们也提供了有力的证据,证明运行中的应用法式的处置惩罚模式也具有重要作用,因此在未来的研究中,不能盲目地将SSDs添加到Hadoop中,而应建设组件来评估应用法式的处置惩罚模式,然后直接将数据放到适当的储存介质中。24 适用于创新临床模型的大数据合规性论文摘要:在医疗康健领域,信息十分重要,人体是数据的主要泉源。因此,世界卫生保健面临的新挑战就是如何使用这些庞大的数据去对其举行解构。

为了从这一优势中获益,科学技术为人们提供了一种名为“大数据分析”的解决方案,该方案能够治理海量数据,这些数据的性质可以差别,也可以是来自差别的盘算机化医疗保健泉源,因为在所有主要康健领域中数字技术的输入都能带来庞大变化。临床情报包罗通过使用盘算机工具实现的分析方法、提取原始临床数据并将其转换为重要看法的历程、能够提供更好临床疗效的新的目的和知识。因此可以说,通过患者数据分析,临床智能将成为解决所有照顾护士方面问题的尺度操作法式。

本文的目的是通过数据挖掘和历程挖掘技术来实现临床情报方法,展示这两种应用于“实际历程”数据析取的方法间的差异,以便通过“切合性检查”与公司合规性模版(所谓的“Model 231”)中的法式举行比力。25 通过使用都会大数据举行颗粒物预测来实现可连续的智慧都会,扬弃昂贵的空气污染基础设施论文摘要:在数据时代和都会数字化时代中发生了大量与都会情况相关的数据集和数据流。从智慧都会的种种资源中获取和分析数据至关重要。

例如,实时的空气污染数据对于控制空气污染、实现都会的可连续生长、掩护人类免受空气污染的危害来说是很是重要的。然而,在现实生活中,空气污染占平均建设投资和维护成本过高。

本文旨在研究如何在不使用昂贵的污染传感器和设备的情况下,以经济有效的方法丈量空气污染。为实现这一目的,我们建设了颗粒物预测模型。

该模型由多个组件组成,以神经网络和回归为焦点,集成异构的多个都会数据源,从迁移学习视角对颗粒物举行预测。颗粒物预测实验效果讲明,这些数据源能够较好地预测颗粒物,与仅仅以空气污染传感器特征为基础的模型相比,其预测效果更为理想。本次研究中,我们用来自丹麦奥尔胡斯市的都会数据对模型举行了测试评估,并将模型性能与种种指定基线举行比力。该模型相对于基线的优越性讲明了其实用性。

原文链接:https://www.journals.elsevier.com/big-data-research/most-cited-articles。


本文关键词:收藏,25篇,高引用,高,引用,次数,论文,雷泽体育app官方下载,打包

本文来源:雷泽体育-www.mgxsls.com

Copyright © 2002-2021 www.mgxsls.com. 雷泽体育科技 版权所有 备案号:ICP备24024325号-8

在线客服 联系方式 二维码

服务热线

0220-54897652

扫一扫,关注我们