为什么要学习计算机科学并成为数据科学家的人在分析,统计和机器学习方面的培训如此差?

如果您要与真正不了解特征选择,采样偏差等基础知识的人员打交道,那么我很可能会猜测他们在其学位课程中根本没有涵盖任何机器学习。 机器学习不一定是计算机科学学位的一部分,并且大多数软件工程师对此一无所知,尤其是自从ML和AI流行以来,最近几年没有获得学位的人。

我认为,这应该归咎于“使机器学习民主化”的共同努力。 Google这个词,您会发现大量的机器学习工具和库,例如Google的Tensorflow,IBM Watson等。

这些库使整个软件开发人员无需培训即可涉足机器学习。 我以前写过关于这些家伙的文章。 他们向从堆栈溢出中复制的11行python代码添加了一个tensorflow参考,并认为这使他们成为机器学习工程师。 这些人认为ML库类似于高级编程语言,该语言成功地抽象出了低级语言中实现的繁琐细节。 尝试告诉其中一个人,您不能仅在没有广泛了解该主题的情况下使用库,他们会询问您是否通过在记事本中键入“ 1”和“ 0”来完成所有编码。 他们只是不知道他们不知道的东西。

在最近完成的计算机科学理学硕士课程中,我有机会从计算机科学学院和统计学院学习机器学习的各个方面。 我发现的最大区别是,计算机科学系希望我能够从头开始编写ML算法,而无需引用库,而统计学学校可以引用R中的库。计算机科学课程的提交材料主要是软件项目的形式(考试中也涵盖了更广泛的统计概念),而统计学院的提交则采用报告形式,但它们并不关心用于生成报告详细信息的R代码。

两种方法都包括学习基本统计信息,包括A / B测试,t检验,如何避免过拟合和欠拟合,特征选择等。但是,无需完全了解如何从头开始实现算法,统计学学校可以有更多时间来考虑我们所做工作的统计意义。 因此,我可以看到有人比计算机科学专业的毕业生花更多的时间从事统计学方面的工作,这将使他脱离统计学院。 计算机科学方法可以更好地为学生成为机器学习研究人员做准备,而统计学院的方法则更适合于数据科学家的日常职责。

计算机科学和统计学都是巨大的领域,需要大量学习才能做出重大贡献。 机器学习正处于他们的交汇点上-许多机器学习可以描述为用计算机科学术语表达的统计概念-但它与两者的主流有足够的不同,它本身就是另一个值得研究的领域。

这意味着几乎没有一个培训课程可以教给您足够的两者。 一个“训练营”肯定不会这么做。 一个大学的本科专业和另一个大学的研究生专业可能会接近。 在多个领域的研究生学习可能是最好的,但是恰恰是这样做的。结果是在2002-2013年间花了十几年的时间在研究生院学习,我并不一定推荐它。

这是一个实际的问题,并且随着“数据科学”保护下的专业子领域数量的增加,情况只会变得越来越糟。 我不知道解决方案是什么。

我可以肯定地说,大多数计算机科学专业的人都是非常好的数据工程师。 这是数据科学工作的第一桶,它消耗了数据科学家60%至80%的时间。

数据工程基本上涉及准备数据以使其准备用于机器学习。 数据工程与分析本身一样重要。 大多数处于数据分析初期(1-2年)的企业比数据科学家更需要数据工程师。 当组织需要做出简单决策时,自动化的需求就变得至关重要。 传统上,数据工程师的输出将导致建立智能数据仓库。

keya@nakala-analytics.co.ke

问题本身就是答案。

1-从历史上看,ML主题是我的计算机科学家所驱动的。 这就是为什么他们的许多模型都是基于模仿的,而不是基于math-stat的原因。

2位计算机科学家不需要了解数学统计或ML。 许多人“偶然地”成为了数据科学家。 这就是为什么根据第1点和第2点成为计算机科学家和ML的原因。

3-顺便说一句,IRL,您大部分时间(大约90%)花费在尝试理解数据上,而在数学统计中只有10%(但是您需要了解数学统计才能知道它的意义) )。

4-许多雇主不知道如何处理数据科学家,更糟糕的是:数学统计模型不容易呈现给(未知的)受众,在您的雇主内部(试图说服您(未知的)雇主,X模型都是一)和您的雇主之外。 这需要文化的改变,这需要时间。

与任何职业一样,您将在同一职称内(有时在同一公司内)拥有一系列人才。 例如,如果有100位数据科学家在同一家公司工作,那么某些人将比其他人更有才能。

有些人将在A / B测试方面表现出色。 这些通常是统计专业的毕业生,他们参加了一些实验设计和假设检验的课程。 有些人会擅长预测分析。 这些通常是受过机器学习培训的计算机科学专业的毕业生(并不关心假设检验或统计推断)。 还有一些不懂编程的统计专业毕业生和不了解样本偏见的计算机科学专业的毕业生。

不知道您的样本量或评估标准是什么。

数据科学是一个热门的新领域。 我确实相信很大一部分招募工作已中断。

与许多新领域一样,公司热衷于雇用人才并假设团队其余成员会完善所缺乏的技能。

加上现实软件工程本身就是一项专业工作,统计学家和业务分析师也是如此。 期望一个人拥有所有这些技能是不现实的。

我认为他们的聘用不会那么多(也许硅谷的大多数人都在编程)。 为了在工作中表现出色(以及在硅谷以外的大多数公司),他们将需要学习统计信息和机器学习,因为弄错数学将对公司(财务,法律等)产生重大影响。 在加利福尼亚的一些会议之后,我自己对此感到纳闷,因为大多数演讲者都把重点放在软件上,然后只是应用随机森林。 我也看到过公司在削减数学运算时会关闭或受到法规的打击。