启动数据科学的民主化

令人悲伤但真实的事实是,即使付出相当大的努力,大多数生成或收集的数据也不会得到任何严肃的分析。但在某种意义上,这并不奇怪。因为做数据科学一直很难。即使是专家数据科学家通常也要花费大量的时间来讨论代码和数据来做任何特定的分析。

我自己用计算机处理数据已经有三分之一多个世纪了。随着时间的推移,我的工具和方法也逐渐发展。但是这个星期释放属于沃尔夫拉姆阿尔法专业-发生了戏剧性的事情,这将永远改变我处理数据的方式。

关键思想是自动化。Wolfram Alpha Pro的概念是,我应该能够以任何原始形式获取数据,并把它扔到Wolfram | Alpha Pro。然后Wolfram Alpha Pro会自动进行一系列分析,然后给我一份有组织的关于我的数据的报告。如果我的数据不太大,徳赢彩票游戏这一切都应该在几秒钟内发生。

令我惊奇的是它确实有效。我有各种各样的数据:测量,业务报告,个人分析,无论什么。我一直把它喂给Wolfram Alpha Pro。Wolfram Alpha Pro已经向我展示了可视化效果,并提出了一些分析,告诉我关于数据的各种有用的事情。徳赢彩票游戏

数据输入

过去,当我真的被激励的时候,我会在这里或那里收集一些数据,把它读入数学软件,使用一些强大的工具做一些分析或其他。但是Wolfram Alpha Pro的新功能和激动人心之处在于它是如此自动化。徳赢中国突发奇想,我可以把数据扔进去,希望看到有用的东西出现。

其基本思想与沃尔夫拉姆阿尔法的整个核心使命非常一致:获取专家级知识,并创建一个系统,在需要的时候和任何地方自动应用它。这里的专家级知识是一组优秀的数据科学家所拥有的方法的集合,Wolfram Alpha Pro所做的就是利用这些知识来分析你输入的任何数据。

有很多挑战,我们还处于解决所有问题的早期阶段。但是整个Wolfram Alpha技术栈,以及基础数学软件语言,我们能够从一个非常坚固的基础开始。在构建Wolfram Alpha Pro的过程中,我们发明了各种新方法。徳赢中国

类别编号性别

整个问题有几个部分。第一种方法是将数据以任何一种结构良好的形式转化为Wolfram Alpha。任何真正使用真实数据的人都知道,这通常不像听起来那么简单。

你以为你得到了按列排列的数据。但是那些奇怪的分隔符呢?那些标题呢?徳赢彩票游戏数据元素中徳赢彩票游戏出现的那些分隔符呢?那些缺失的徳赢彩票游戏元素呢?从浏览器复徳赢彩票游戏制时剥离的那些行怎么样?同一个电子徳赢彩票游戏表格中的第二个表呢?等等。

这有点像沃尔夫拉姆阿尔法在理解自由形式的自然语言时所做的,所有的变化和冗余。但是结构化数据的语法是不同的,从某种程度上说,还不够宽容。就像沃尔夫拉姆阿尔法最初的发展一样,我们所做的就是用大量的例子,尝试从我们所看到的知识中推断出适当的语法,当我们得到大量的实际查询时,我们将逐步改进这一点。(不用说,我们使用Wolfram Alpha Pro本身的分析功能进行大部分分析。)

好啊,所以我们已经知道了数据中的各个元素在哪里。现在我们必须弄清楚它们是什么。这就是Wolfram Alpha的语言能力至关重要的地方。因为它可以立即让我们理解所有这些奇怪的数字和日期格式等等。不仅如此,它可以让我们识别单位、地名和其他很多东西,并自动将它们放入标准的可计算表单中。

有时在普通Wolfram | Alpha,当输入中有给定的日期、单位或地点时,它可能模棱两可。但当它输入整列数据时,Wolfram Alpha Pro通常可以自动解决这些模棱两可的问题(“所有日期可能都是美国风格”;“这些单位可能都是温度单位”;等等)。

城市

所以假设wolfram alpha pro知道数据表中的所有元素是什么,它们的“值”是什么。然后,它必须开始找出它们的“意思”。这个数字序列代表某种标签或坐标吗?或者只是随机分布的样本?该货币价值序列是否代表具有随机游走变化的资产价格?还是只是一系列不相关的货币金额?这两列实际上都是主数据,或者其中一个只是另一个的排名?等。等。

Wolfram Alpha Pro有大量的算法和启发式方法来尝试推断它所给出的数据代表什么。这立刻使它步入正轨,看看它应该做什么样的可视化和分析。

总是有棘手的问题。在二维图中连接点什么时候有意义?什么时候应该使用条形图、散点图和饼图?等。?什么样的地块具有足够近的比例来组合?应该如何建立回归分析:应该尝试预测哪些变量?等等。

Wolfram Alpha Pro继承自数学软件多种标准类型统计分析.但它所做的是完全自动化这些。有时,它会根据数据选择什么样的分析是有意义的。但通常情况下,它会同时进行大量可能的分析,然后只报告那些有意义的。

在某种程度上,Wolfram Alpha Pro的一个关键目标是能够获取任何一组数据,并且能够从中“讲述一个故事”。能够展示数据的有趣或不寻常之处,徳赢彩票游戏从中可以得出什么结论。

日期-货币-2

一个例子是拟合。给定数据,Wolfram Alpha Pro通常会尝试大量不同的功能形式。直线。多项式。指数。逻辑曲线。正弦曲线。等等。然后它有标准来决定如果有的话,其中代表了与原始数据的合理匹配。

Wolfram Alpha Pro对概率分布做了同样的事情。它还使用各种统计方法来得出统计结论,是否排除统计假设,等等。

当它处理的数据不仅仅由数字组成时,事情变得更加有趣。

如果给予的话,说,日期和货币价值,它可以计算出货币兑换,以及通货膨胀调整。如果有地方,它可以把它们标在地图上,但它也可以通过一个地方的属性(如人口或地区)来正常化。如果它被赋予任意的对象,并且有适当的重复级别,它将把它们当作网络中的节点。

电子邮件地址

对于输入的任何给定数据,Wolfram Alpha Pro通常可以运行大量分析。但接下来的挑战是修剪,结合并组织结果,强调哪些是重要的,为了使他们尽可能容易地被人吸收,适当地添加对非专家来说严格但可以理解的文本摘要。

通常情况下,Wolfram Alpha Pro会给出一个作为其“默认报告”的总体摘要,然后有各种各样的按钮和下拉按钮,可以向下钻取到许多变化或细节。

在我多年的数据工作中,我可能在某个时候或者另一个时候,至少生成了一些大多数类型的情节,Wolfram Alpha Pro显示的表格和分析但我很确定在任何特定情况下,我从来没有生产过超过一小部分的沃尔夫拉姆阿尔法专业生产。

重要的是,通过自动生成一个完整的报告,并仔细选择条目,Wolfram Alpha Pro给了我一些东西,让我一眼就能开始了解我的数据中的内容。

结果的任何特定部分,毫无疑问,我可以复制,有足够的时间来讨论代码和数据。但关键是作为一个实际问题,只有当我很清楚自己在找什么的时候,我才会这样做。徳赢中国只是“一时兴起”花了太多时间,纯粹出于探索目的。

但是Wolfram Alpha Pro改变了这一切。因为这是第一次,它使我能够立即得到一份关于我所拥有的任何数据的完整报告。这意味着在实践中我最终会做到这一点。通常情况下,一个足够大的“定量”的变化,在多容易做的事情导致定性的变化,我们将在实践中做什么。

现在,不用说,Wolfram Alpha Pro本周发布的版本只是一个开始。有很多额外的分析要包括,以及大量具有特殊特性的新型数徳赢中国据。

国家性别统计货币

现在,Wolfram Alpha Pro的设置只是为了处理相当小的数据集(数千行,一撮柱子)它可以在典型的“Web响应时间”几秒钟内生成一个有意义的报告。

架构和底层没有什么徳赢彩票游戏数学软件基础设施,虽然,这就限制了数据集如此之小。我希望将来我们能够使用Wolfram Alpha Pro技术栈处理越来越大的数据集。

但现在,我很高兴能够很容易地获取几乎所有相当小的原始数据,并使用Wolfram Alpha Pro开始从中获得有意义的见解。它是,我相信,数据科学成就的主要民主化。以及一种使世界上产生的更多数据能够以有意义的方式使用的方法。

十四评论.显示全部

  1. 好极了!

    乌姆塔卡拉科
  2. 作为一个花了几个月时间拼接和切割数据的人,按摩图和参考教科书计算f-stats,这个只有一个词

    太神了。

    等不及要用了。

    袭击
  3. 真的,这听起来确实很有希望。服务是否能够处理英语以外的语言?而且,有没有可以玩的API?

  4. 如果系统支持自动元启发式及其相关计算(贝叶斯逻辑/推理)等,那将是很有趣的。那么,只需要知道Mathematica语法就可以设计一个实验,并为响应面选择模型回归器……所有这些都在网络上。

  5. 这很有趣,在我们的一些现场场景中可以看到一个即时的应用。我想多了解一点徳赢彩票游戏

    安尼斯
  6. 我想知道Wolfram Alpha是否会考虑向希望通过Wolframalphapro提供其ERM数据并获得分析仪表盘的企业提供“后端”服务,每30分钟左右同步一次。

    BK
  7. 看起来真的像是我们一直在等待的深入数据的工具,如果有可能有一些免费的数据集,就像天气一样,那会更酷。我们一定要试试看!

  8. 这听起来真的很棒。它让我想到了不同的方法来开始自动收集徳赢彩票游戏数据。期待着玩这个!

  9. 这太好了。

    因为我们生活在一个世界里,开放的政府开始在世界各地的数据酒店推出免费的数据集,我只是想知道一件事:徳赢彩票游戏
    你有没有机会与开放知识基金会(OKFN.org)合作,并自动分析进入世界开放数据门户的数据集?这可能是一个免费的促销活动,向人们介绍您的服务,或者由一个基金会支持,我肯定会得到很多支持。

  10. 如果能和Evernote合作,那就太好了,谷歌文档,和Dropbox。

    菲利普威尔逊
  11. 我刚测试过。它对我的大多数数据(带有时间序列的csv文件)都不起作用。在一个例子中,我得到了散点图和一些频率图。直到他们按照承诺改善Wolfram Alpha,我将坚持使用一些更成熟的自动分析工具,如CepelInspect和DeltaMaster。

    克劳迪娅·贝特曼
  12. 不到一周前我开始使用免费的Wolfram演示,我想知道,我可以向谁真诚地感谢这一钻石价值的免费提供的技术。20年来我读过和听过有关数学的文徳赢彩票游戏章。我总是对它的巨大能力感到惊讶,我一直买不到这个包裹。现在,我在开罗大学教的物理课程中使用了一些压倒性的演示。你是向我表示感谢的合适人选。再一次,谢谢,以我的名义和我的学生的名义。

  13. 使用mm的统计部分,看起来很好,我对“最佳数据图”的能力印象深刻。我猜幸存下来的是“焦点”,因为列的顺序很重要,或者因为它只有两种可能性(更多的独立性)。

    保险程序员可以利用概率和样本空间(计数技术)来归纳和推断“意义”。“考虑到事故数量和是否下雨,显示降雨的百分比效应”。给出了一个明确的计数,但它的统计性质或“过去事件的预期值”并不一定需要。(P64 6)科尔ALG+TIG第二,杰罗姆·考夫曼)。我认为“不太可能”不是这样,因为likelyhood还没有数学描述;)这就像是一个从未给出的规则(不公平的游戏,博弈与统计)(除非在使用期望值方程时使用计数原理,否则人们不会说“可能”。它是计数的(统计数据可以以任何方式对数据进行分组(然后计数),但没有规则,结果是随机的,可能性因式分解)

    所以,它意味着什么的问题可能意味着要展示什么,而按顺序要求或依序依赖是好的(以避免出现结论的因式分解)。未知,如果有一个算法从阶乘结果中获取“有趣的”结果……必须考虑什么,徳赢彩票游戏如果没有规定,会被认为是突出显示比(其余的垃圾)。金钱和时间同样重要!购买安然,你确定吗??

    我喜欢新的“最佳图形选徳赢中国取器”或“最佳图形表”可能比许多图形选项节省大量时间。

  14. 对于统计数据包,语言意义可以根据选择进行分类。

    我在寻找:趋势,趋势例外,一件事可能存在或不存在的地方。趋势可以是一种分组趋势,线性或曲线趋势,等。但可能需要计算原则来“追求”时间和金钱的最大化,需要计算的地方(即,车祸算作损失,在散点图中哪里是更多的钱?)

    如果展示了各种各样的情节,人们通常可以在统计上看到所发生的事情,而不用嘎吱嘎吱作响:这些情节可以通过独立/依赖来选择,使用上述语言。我相信“趋势”、“分组”、…可能是一种选择,但不确定该语言将如何与今天书籍中的统计(计算公式)进行比较。

隐藏注释»

?斯vwin中国蒂芬·沃尔夫拉姆,有限责任公司 条款γ RSS