开发机器学习的挑战和陷阱

机器学习确实是一种极其有效的数据分析工具。 但与许多其他工具一样,也存在挑战和陷阱。 在下面的句子中,我们将讨论许多个人挑战以及克服这些挑战的方法。

应对复杂性:机器学习的固有挑战

机器学习通常是一个理解技术领域,涉及可以检查数据的算法的组合和伟大性。 “机器学习”这个术语是由 Arthur Samuel 于 1959 年创造的,他将其定义为“一个赋予计算机理解能力而无需忍受清晰编程的研究领域”。 机器学习包括监督学习(计算机从示例中推断规则)、无指示学习(不接收标签)、强化学习(计算机根据其氛围采取行动)和半监督学习(同时使用标记和未标记数据) )。 )和迁移学习(这有助于系统跨领域重用理解)。

开发机器学习解决方案 使公司能够自动执行重复性任务 example 多年来分析客户模式或检测金融交易中的欺诈行为。 由于它是一项新兴技术,机器学习可以让公司比过去更快地了解其运营情况,从而改善整体决策流程!

过度拟合和欠拟合:找到正确的平衡点

模型偏差的两个最常见原因是过度拟合和欠拟合。 当数据对于它试图解释的数据而言过于复杂时,就会发生过度拟合,而当数据不够复杂时,就会发生欠拟合。 因此,在这两种情况下,您的模型做出的预测在其训练集之外都不能很好地推广。

为了最大限度地减少过拟合和欠拟合:

  • 通过添加更多数据或使用更简单的模型来最大限度地减少偏差。 带有偏差的平衡的方差(最佳平衡取决于应用)
  • 通过使用比维基百科或更高质量的来源来减少数据集中的噪音 Twitter

可扩展性问题:为实际应用准备模型

可扩展性是开发机器学习模型时的一个重要考虑因素。 在为几乎任何特定目的构建模型时,您需要考虑模型在使用您想要处理的数据集时扩展的方式。 为了在现实世界的应用中实用和有用,模型必须能够处理大量的理解和变量,如果您不立即正确准备模型,这些理解和变量可能会变得困难。

大型数据集:在考虑可扩展性时要考虑的第一个因素是您的最佳模型何时适合大型数据类别(例如数千或数百万)。 否则,在开发重点关注该领域之前可能需要进行一些更改。 否则,由于训练期间没有足够的信息,结果可能会有偏差!

许多变量:与上面我们讨论的“大量”直接相关的东西。 此外,在各个表的每个列标题中实际上都讨论了不同类型或类型集的数量。 所有帖子基本上每个列标题仅包含一种类型吗? 或者在每行包含一些多种类型,其中包含以下值 example 整数值与字符串值与浮点数等。

道德考虑:道德和 Social 影响

在开发机器学习项目时,您需要考虑工作的道德和社会影响。 包括对人的实际影响以及隐私、公平等其他因素。 机器学习对于需要选择对他们有重大影响力的人的任务通常很有用,例如,如果您正在构建一个信用卡应用程序,该应用程序使用面部识别软件来读取用户发布的个人照片(例如 Facebook 如果他们不接受您存储或与他人共享您的图像以使应用程序正常运行,则可能会侵犯他们的隐私权。

在考虑与机器学习发展特别相关的道德因素时:

了解管理像您这样的公司的数据收集实践的现有法律、法规和规则。 与西方客户打交道时,在线搜索“加州消费者隐私法”! 这一点很重要,不仅因为违反这些规则会受到处罚,还因为它可能会对公众对您品牌的整体认知产生负面影响,并对忠实的消费者造成不可挽回的伤害,他们在幕后接触此类行为,并在没有任何警告的情况下感到被背叛。

文凭

机器学习确实是一个极其强大的工具,可以帮助我们做出更明智的决策,并带来一些严重的道德因素。 如果我们看一下下面的句子,就会发现机器学习算法更有可能存在偏见,并被恶意行为者以危害整个社会的方式使用。 为了解决这些问题,开发人员在开发新模型时应注意偏见迹象,并确保他们的工作不会无意中助长群体歧视 example 在寻求工作或信贷时遭受历史偏见的妇女或少数民族。

相关文章:

  1. Snapchat Bitmoji 万圣节服装挑战 | 12 个焦点挑战系列
  2. 如何将物理机转换为 VirtualBox 机器。
  3. Samsung 洗衣机应用程序:这是您控制洗衣机的方式
  4. Snapchat Spotlight Pride 挑战的解释以及如何参与?
  5. BeReal 克隆坦率挑战经过测试 Instagram