周记23/2/19: 让AI来面试数据分析师会如何?

ChatGPT的火爆在本周迎来了一波回调,首先是AI行业大牛Yann LeCun(卷积神经网络之父)在社交媒体上多次提出了对LLM过度火热的质疑,究其原因是这类技术的“一本正经胡说八道”。Yann LeCun自己是Meta的首席数据科学家并且也开发了Galatica这个和ChatGPT非常类似的工具,只不过测试几天之后就出现了很多与事实违背的答案而下线。

图片

另一方面高举AI大旗要颠覆搜索引擎市场的微软,在周五宣布了Bing的聊天应用每个用户在每次使用时只能问5个问题,一天最多问50个问题。虽然官方说,数据表明大部分用户能在五个问题之内得到自己想要问题的答案,但实际上AI自身存在的逻辑漏洞可能是微软也希望避免的(特别是在美国社会存在很多种族性别歧视等问题,AI如果“说错”了答案,那可能会给微软带来更大的负面影响)

这波回调是理性的告诉社会,AI离我们所梦想的还有那么些距离,尽管这个距离已经被缩小了不少。对于我这个商业数据分析师来说,一个自然的联想是,AI到底离彻底取代我的工作还有多远。

浓缩下我的工作(或者任何商业数据分析工作)的实质,对这个岗位的要求不外乎是两个核心点:对企业以及所处行业的商业逻辑认知(能将商业问题拆解成数据问题),以及用SQL等工具来解决数据问题的能力。不妨我们来做个模拟面试,关于商业能力的问题,我引用了车品觉老师的《不贰》中的经典问题,很久之前也发过这个书摘

图片

初始的答案是不太合格的,GMV的确是电商的北极星指标,但客单价和客户满意度通常在周维度是比较难有很大变化的。

图片

AI学习能力非常快,在被挑战了之后,保留了北极星指标同时加上了转化率(这个是非常必要的)但退换货率这个答案很清奇。

图片

这个问题是想搞清楚AI如何判断数据的波动是否异常,AI的答案含糊其辞(像极了一个没有实际做过数据分析但是想糊弄的选手),没有给出比如周环比之外,还应该加入月环比甚至年同比等作为参考。上面三个问题代表了对电商这个商业模式的考察,一个从上至下的围绕GMV的拆解模式,加上横向的不同时间段的周期对比,是商业数据分析的基础工具。

图片

这个问题是我自己添加,是希望AI能更好的讲清楚对电商的指标体系理解,虽然AI没有很好回答,但能直接说双11的潜在影响还是让我刮目相看。如果AI能够用公式化或者树状的结构来回答拆解关系,那就更能接近合格的分数了。

SQL问题来自亚马逊和leetcode的相关题库,不得不说对于这种问题真是太强了。之前有报道说openai在发布chatgpt之前,曾经在某个技术网站长期回答各种用户提问,而且得到了很多高分好评。不仅回答SQL问题,Chatgpt还非常通透地讲了自己为什么要这么用。综合评分4.5 半颗星留给我们还需要写SQL的人类(相信AI还是会有出错的时候

图片

图片

Q1和Q2相对比较简单的聚合计算和join方法;Q5是window function的应用

图片

图片

特别值得注意的是,我在提问中并没有非常准确用语言描述表格,只是copy了原问题的描述,chatGPT居然准确无误get了各个表格的关系。这个问题的解法主要是考察嵌套的子查询语句(leetcode刷题特别喜欢的一类问题)。

看完了这些答案,我觉得AI离让我失业还是有点距离的。但如果你是OpenAI或者其他公司内部的AI革新者,如果需要用AI去改变企业内部的数字化决策流程(砍掉我这样的大龄互联网员工),你会怎么去一步步的实现?下一篇我就来写写这个思路。

Scroll to Top