相关性与因果性

与phpBB有关或无关的话题以及日常闲聊
Post Reply
老橙子
新手入门
新手入门
Posts: 48
Joined: 2008-09-02 12:00

相关性与因果性

Post by 老橙子 » 2021-03-19 12:33

  分清相关性和因果性是我们一切科研和技术工作的基础,如果让大家不面对具体工作,不面对具体数据,单独从文科的角度来区分二者,大家可能还是可以说出些名堂的,但一旦真实面对工作,面对数据,大家有意无意地就混淆了二者,这么干要么埋下了隐患,要么直接就会造成巨大损失。

  相关性是对现象的描述,或对数据的描述,体现为某些形象或数据同时出现或消失,同时增大或缩小,一个大时另一个就小等等。这是不涉及机理的,也是没有先后顺序的。对相关性可以利用,但不能造作。比如我们发现了A和B有明显相关性,那么我们在探测到A的数据时,我们可以对B的数据进行预测,做好相应的应对。但是我们不能人为制造A的现象,来等着B的相应现象出现,你可能会碰上几次,但一旦“失效”,就会造成不可预测的损失,甚至损失惨重。设想一个容器里,有个局部有水汽被电流或催化剂电解了,于是我们会持续观察到氧组分和氢组分有很强的相关性,如果我们误认氢和氧的含量涨跌的本场合相关性为因果性,就充进氧气,坐等氢气增加,这个可能吗。

  因果性则是对现象背后机制的破解,是有数学或物理化学定律支撑的,是超越场合和人为因素的,符合重复性和再现性,而且是有时间顺序的,因在先,果在后,不过果也可能反作用于因,最后形成反馈。

  我们的一切研究是要找到因果性,而不能满足于获得相关性就止步,这样既不究竟,还很危险。

  我们现在进入了大数据时代,“拿数据说话”这个口号终于得到了彻底贯彻,我们对基于神经元的AI技术抱有莫大希望,但我其实怀有很大的忧虑。神经元取得巨大成功的领域要么规则清楚,要么可以利用人类的经验,前一种是棋类和解方程等,后一种是X光片找病灶和折叠蛋白质等,对于那些机理本来不清楚,甚至都没有很好数学化的领域,比如湍流研究和新材料研制,神经元AI能起多大作用还有待验证。不讲机理,不要解释,纯粹拿数据说话就是混淆了相关性和因果性,是不稳定的,是有隐患的。举个例子,所有工科学生都知道钢中的碳元素是提高强度的,可不止一个人通过相关性分析和多元逐步回归都得出了碳含量和强度的相关系数是负的,回归公式中碳含量的系数也是负的,如果用这个公式或思路来设计新钢种的碳含量,结果可想而知。根因是什么呢,是因为炼钢的习惯操作是碳加得多时,锰会有意少加,反之碳加少了,会多加点儿锰,这样会取得平衡。应该是碳和锰的调整关系不太合适,锰的强化作用盖过了碳,于是碳降低强度的“奇迹”就出现了。神经元计算后是没有解析式的,就是个黑匣子,它更是完全不分相关性和因果性的,我对它的外推性不敢报太大希望。所以,人一时半会儿还是不能完全被AI取代的,基础研究还是要有人来搞,大数据就能解决一切那是妄想。

  现在一些掌握了大数据分析技术的公司就像神医,包治一切,他们根本没耐心听你讲专业知识和背景,只要你交出数据就中,他们会按时鼓捣出相关性很好的结果的。说句实话,花那么多钱,整出一大堆结果,其中不少还是带着上述“碳奇迹”的,你只能再花时间去甄别,费时费力费钱,真不如好好计算和策划,组织一些生产试验来得快,还少花钱。

  数据分析最大的作用也就是提示你一些可能忽略的因素,而完全跟着相关性走,一切拿数据说话是要走弯路,出问题的。其实也不是我们普通人在混淆相关性与因果性,在医学等一些严密性不足,数学化不足的领域专家们也在大量干混淆相关性和因果性,“一切以数据说话”的蠢事。比如前段时间看到有报道说每天吃一个鸡蛋会造成肝损伤,我大惊,专家们也太离谱了,我们老百姓被他们指挥得昏头转脑,“四渡赤水”了。后来我一想就明白了,每天规律地吃且仅吃一个鸡蛋的人大多数是白领,他们工作压力大,久坐,熬夜,可不就容易肝功能不好嘛,于是吃一个鸡蛋和肝损伤在数据上就表现出了关联性,专家们就顺理成章地强安因果了,鸡蛋这锅背得冤啊。由是痛感我们理工科学生的逻辑推理和哲学思维方面的培训实在是太薄弱了,大学宁愿给理工科学生开大学语文和诗词曲赋的课程都不给开逻辑思辨和哲学思维的课,这是重大缺憾,贻害无穷。

  记住:真正能一锤定音的只能是人的理论推导,凡事只有找到了理论解释,融入了理论框架,才是真正靠谱的。数据挖掘就像一块走不准的表,有比没有就强那么一点点儿。
有空来坐坐:https://www.jmxl.xyz

Post Reply