北京汽车和BATC哪个好

一线导游从业人员长期带团经曆。导游进修课程培训课程授课老师

}

关于数据科学家如何解决问题有兩个神话:一个是问题自然存在因此数据科学家面临的挑战是使用算法并将其投入生产。 另一个神话认为数据科学家总是尝试利用最先进的算法,更高级的模型等于更好的解决方案 尽管这些并不是完全没有根据的,但它们代表了关于数据科学家如何工作的两个常见误解:一个在“执行”方面过分强调而另一个则夸大了“算法”部分。

显然这些神话并不是我们实际解决问题的方式。 从我的角度来看为数据科学家解决问题的方法是:

如此说来,我观察到解决问题的过程通常涉及四个阶段我想分享这四个阶段是什么,以及它如何与案例研究一起发挥作用然后我们如何才能达到目标?正确的心态

我的第一份工作是在一家经营汽车价格和信息网站的公司中,该公司於2014年5月进行了首次公开募股(IPO)这是一次很棒的经历,我生动地记得那天周围的每个人都为该公司的诞生欢呼雀跃上市公司。 作为一家上市公司我们的收入开始受到广泛关注,尤其是在八月份发布了第一份季度收益报告之后 7月初,税务部门的主管来到了数据科学家的办公区看来他没有什么好消息可分享。

“我们有麻烦不能适当地记入一定比例的销售收入; 我们需要您的帮助。”

以下是一些相关的上丅文:公司的收入是基于这样的事实而产生的:它为汽车经销商带来了更多的销售 为了获得应得的佣金,我们需要将车辆的销售与正确嘚客户匹配 如果我们的数据提供商可以告诉我们哪个客户购买了哪辆汽车,那么匹配就完成了不需要额外的工作; 但是,问题在于┅个数据提供者决定不提供一对一的销售记录:必须分批处理(可视化显示如下所示的“批处理”),这会变得更加困难并且不确定要知道哪个客户买了哪辆车。

收入团队对此更改感到惊讶在花费了过去一个月的时间来解决问题之后,只能手动恢复该数据提供商2%的销售额 这对于第一次打来的电话来说是个坏消息,因此他们来寻求数据科学家的帮助 显然,这是一个亟待解决的紧迫问题因此我们跳过了。

这是数据科学中解决问题的第一步 关于“理解问题”部分,需要清楚地识别痛点以便一旦痛点得到解决,问题就应该消除 关于“萣义”问题部分,通常这就是为什么问题需要数据科学家的帮助

对于我们的收入团队要求的特定问题,问题是:我们无法将每辆售出的車辆分配给客户然后我们损失了收入。

痛点是:考虑到成千上万的批次需要匹配的销售找到谁在给定的批次中购买了汽车是手动且不准确的,这非常耗时且不可持续

用数学术语来说,“重新定义”的问题是:给定一个具有客户C1C2,..Cn的批次以及出售的车辆信息V1,V2…,Vm我们需要一个自动化的解决方案来准确地确定正确的反映实际购买事件的匹配对(Ci,Vj)

有了重新定义的问题,我们可以看到这是在给定嘚客户和车辆成批的约束下的“匹配”练习 因此,我将问题进一步分解为两个步骤:

现在我们可以进一步确定每种解决方案。

为简单起见我们假设此批次中有三个客户(c1,c2c3),并且提供了一辆汽车(v1)信息作为销售

由于只有一位客户进行购买,因此可以将这种可能性扩展為:

对于每个项目给定以下公式

关键是获得每个P(V | C)的概率。 这样的公式可以用语言来解释为:特定顾客购买车辆的可能性与顾客购买该特萣车辆的可能性成比例

上面的公式看起来太“数学”了,因此让我将其放在一个直观的上下文中:假设三个人在一个房间里一个是音樂家,一个是运动员一个是数据科学家。 有人告诉您这个房间里有一把小提琴属于其中之一。 现在猜您认为小提琴的所有者是谁? 這很简单对吧? 鉴于音乐家拥有小提琴的可能性较高而运动员和数据科学家拥有小提琴的可能性较低,因此小提琴属于音乐家的可能性更大 下面说明了“数学”思维过程。

现在让我们将概率放入业务环境中。 作为一个在线汽车定价平台每个客户都需要至少生成一個车辆报价,因此我们假设该客户可以合理地代表其报价的车辆。 然后可以从公司在历史记录中已经积累的现有数据获悉这种P(V | C)概率,包括谁在何时生成车辆报价以及他们最终购买了哪种车辆 我不会进一步详细说明,但是关键是我们可以学习P(V | C)然后计算每批中所需的概率P(C | V)。

一旦我们获得了每辆车出售给客户的预期概率第二步就是归因过程。 假设批次中只有一辆售出的车辆那么这个过程很简单; 但是,如果批次中有多个售出的车辆则可以使用以下两种方法之一:

    vehicles to the same customer. (直接归因)仅使用计算出的概率P(C | V),始终将车辆归因于可能性最高的客户 茬这种方法下,可以将两辆车分配给同一客户 (轮循方式)假设每个客户最多购买一辆车辆:一旦将一辆车辆归于客户,则在下一轮归属之湔将两者都移除

现在,我们设计了一个两步算法来解决关键挑战现在该测试性能了! 鉴于有历史报价和销售数据,可以轻松地模拟“創建随机批次”“将销售附加到批次”并尝试“从给定的批次信息中恢复销售”的过程。 这种模拟提供了一种评估模型性能的方法我們估计可以以高精度(> 95%)收回超过50%的销售额。 我们为实际数据集部署了该模型结果与我们的预期非常吻合。

收入团队对上述解决方案感箌非常满意:与?2%的回收率相比50%的回收率是25倍以上! 从业务影响的角度来看,该收入直接添加到了我们的第一季度收入报告的底线Φ数据科学团队的贡献是巨大的。

我们将上述解决方案运行了一个多月看到性能相当稳定,现在是时候考虑下一步了吗 我们收回了50%的销售额,但其余50%呢 是否有可能进一步改进算法以达到目标?

通常作为数据科学家,我们倾向于过多地关注算法细节 在这种情況下,围绕如何更好地对P(V | C)建模进行了一些讨论:我们是否应使用深度学习模型来使这种概率更好等等。但是据我了解,这些纯算法上嘚改进通常导致只是提高性能而我们缩小50%的剩余差距的可能性较小。

然后我与收入团队进行了更深入的对话,试图找出我们对问题嘚了解中缺少的内容结果我们可以控制将客户分组的方式! 尽管存在一些限制(例如,客户必须从同一个经销商处生成报价)但是这给了峩们进一步优化的自由,我认为这是缩小其余50%销售差距的方向

我为什么对这个方向充满信心? 考虑这种情况:如果要分批处理4个人烸批分2个人。 最佳的批处理策略是将最多的人放在同一批中这样一来,一旦退回货品归因将更加准确。 以下可视化显示了该概念 在咗侧,如果将两个音乐家放在同一批中将两个运动员放在同一批中,则很难知道谁拥有小提琴或篮球 在右侧,如果您每批都有一位音樂家和一位运动员那么说出音乐家A拥有小提琴而运动员D拥有篮球则要容易得多。

要实现上述概念需要执行两个步骤:

在第一阶段的解決方案中,我们已经找到一种计算P(V | C)的方法 在这里,我将直接进行概括:两个客户之间的相似性与两个客户购买彼此报价的车辆的平均可能性成正比 如果每个客户仅报价一辆车(c1报价为v1,c2报价为v2)则简化版本如下所示:

一旦我们有了两个客户之间的成对相似性,就可以将一個批次的熵定义为该批次中客户之间相互成对相似性的总和 现在,我们有一个优化的目标函数:我们想要具有最大熵的批次

阅读一些类姒的研究后我决定使用2-opt算法,这是一种用于解决旅行商问题的简单本地搜索算法

2-opt算法的基本概念如下:在每个步骤中,随机选择两个邊缘并尝试“交换”如果交换完成后目标函数更好,则将执行交换; 否则重新拾取两个边缘。 该算法继续进行直到目标函数收敛或滿足最大迭代次数为止。 下图说明了拾取两个边缘(红色)并将其交换为新边缘(蓝色)时获得的距离更短的情况

为了在我的情况下应用2-opt算法,峩对旅行商问题(TSP)进行了类比:

    在我的情况下随机选择两个批次,然后每个批次随机选择一个内部客户进行交换 在TSP中总距离用作目标函數,越短越好;反之亦然 就我而言,所有批次的熵都是目标函数越高越好。

太好了我们拥有优化批次的所有要素! 实施该算法后,峩们对现有数据进行了进一步的回测发现:可以收回超过85%的销售额。 在下个月当我们将其应用于实际数据集时,发现恢复率处于相姒的水平 这种方法符合预期!

我上面描述的主要是算法设计部分; 同时,还有工程开发部分要简单地编写代码并期望它具有可扩展性囷可维护性并不容易。

在项目发展过程中我们逐渐注意到,所需模块之间存在某种依赖关系模式 车辆由许多功能代表,客户由一组车輛代表批次由一组客户代表。 通过这种高级表示我们可以将依赖关系谱系构建为Vehicle-> Customer-> Batch。

同时作为数据产品,我们需要确保系统可以发展鉯更新所需的参数并始终评估性能。 因此架构是通过以下方式设计的

使用这种架构,数据科学家需要定期进行以下操作:

现在我们巳经构建了可维护的可持续数据产品。 鉴于数据科学团队建立了良好的声誉明年,我们将大量参与销售匹配系统的重新设计从而进一步扩大了数据科学在公司的业务范围。 由于该体系结构的卓越操作性它使我们有更多的资源来寻求下一个挑战。

数据科学领域非常广泛设计算法数据产品只是许多潜在项目的一部分。 其他常见的数据科学项目包括实验设计因果推断,深入分析以推动战略变革等尽管咜们可能并不严格遵循甚至需要上面列出的所有阶段,但四阶段流程仍然有助于奠定基础提出一种思考解决问题的方法:

四个阶段的流程鈈一定是应该遵循的严格规则但是如果数据科学家在面对任何即将来临的挑战时具有正确的心态,则它更像是自然的结果 我认为这些惢态是:

  • 业务驱动,而不是算法驱动 纵观全局,了解数据科学如何适应业务了解为什么需要数据科学以及它如何带来价值。 不要太拘苨于任何特定的算法:“如果您只有锤子那么一切看起来就像钉子”。

  • 造成问题的不仅是接单 。 成为问题的所有者意味着人们将积極思考如何立即解决,更好地解决问题以及以更少的精力解决问题 人们不会停在一个次优的解决方案上并认为它已经完成。

  • 胸襟开阔詠远学习 。 作为一个跨学科领域数据科学与统计,计算机科学运筹学,心理学经济学,市场营销销售等等重叠! 提前知道所有领域几乎是不可能的,因此要胸襟开阔并不断学习。 总会有比您已经知道的更好的解决方案

希望以上分享对您有所帮助:快乐的问题解決,数据科学的方式

— — — — — — — — — — — — — —

— — — — — — — — — — — — — — — — —

如果您喜欢这篇文章,请通过喜欢共享和評论来传播这个词。 Pan目前是LinkedIn的数据科学经理 您可以阅读以前的帖子并在 上关注他

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信