(中配)斯坦福AA228不确定性决策 | 2025秋季 | 贝叶斯结构学习─影片 Dailymotion

大视野 伊帕

在 Dailymotion 上觀看 (中配)斯坦福AA228不确定性决策 | 2025秋季 | 贝叶斯结构学习 - 大视野 伊帕

Transcript

00:00:05我是阿米利亚

00:00:07我是2023年这门课的学生

00:00:10去年2024年,我担任了首席助教

00:00:13我现在是一名博士生

00:00:15今天我将继续我们关于贝业司网络的讨论

00:00:20那么,在开始之前

00:00:22我们先简要回顾一下一程和一些资源

00:00:24我们将从复习开始

00:00:27然后,我们将讨论参数学习

00:00:29接着是结构学习

00:00:31在这门课程中,我们正在逐步放宽假设

00:00:36所以,当我们开始研究贝业司网络时

00:00:38我们假设参数和结构都是已知的

00:00:42然后,我们放宽了参数已知的假设

00:00:44并从数据中学习它们

00:00:46我们放宽了结构已知的假设

00:00:48并从数据中学习结构

00:00:50最终,我们可以从数据中学到一切

00:00:55因此,这里有一些可能有用的资源

00:00:58嗯,有一本教材叫决策算法

00:01:01这将与课程内容最为贴近

00:01:05我还会在讲义中写下与课程内容相对应的章节

00:01:09标题

00:01:11如果你想更深入地了解贝业司网络或其他图模型

00:01:15我强烈推荐COLOR和Friedman的教材

00:01:18嗯,Jack的课程笔记

00:01:19你可以在詹谷卡.com这个网址找到

00:01:21它也是对美杰克最重要主题的一个很好的总结

00:01:23这些笔记稍后也会在ED上分享

00:01:31最后,特别是对于项目一

00:01:33到今天课程结束时

00:01:35你会获得所有需要的信息

00:01:37我强烈建议你查看课程网站上项目一页面的视

00:01:41频

00:01:42以获取关于从哪里开始的提示

00:01:45那么,我们来简要回顾一下贝业司网络

00:01:49为什么,它们是我们想要研究的东西?

00:01:52贝业司网络的力量在于

00:01:54它通过编码条件独立性假设

00:01:57紧凑地表示了联合分布

00:02:00我将给出一个例子

00:02:02以便我们能更仔细地看看

00:02:04这意味着什么

00:02:06这里,我们有三个二元变量和X3

00:02:16它们将代表是否在下雨

00:02:24我是否穿着雨靴

00:02:25以及我是否携带雨伞

00:02:27当我们说贝业司网络编码了条件独立性假设时

00:02:32我们需要回顾条件独立性的定义

00:02:43我们说X在给定基的条件下独立于Y

00:02:46当且仅当给定基时X和Y的概率

00:02:50等于给定基时X的概率乘以给定基时Y的概率

00:03:05换句话说,我们可以这样理解

00:03:08一旦我知道了Z

00:03:09知道X并不会给我关于Y的更多信息

00:03:14我们可以看看这如何在这个图中编码

00:03:17因此,这是一种连接节点的方式

00:03:21使得雨靴和雨伞在给定下雨的条件下是条件独

00:03:25立的

00:03:27这是合理的

00:03:29一旦我知道在下雨

00:03:30知道我带着雨伞

00:03:32可能不会给我关于我是否穿着雨靴的更多信息

00:03:36然而,如果我没有任何关于是否下雨的信息

00:03:40并且我想知道我是否穿着雨靴

00:03:43那么,我是否带着雨伞将是一个有用的信息

00:03:48现在我将给你一些

00:03:49我们将贯穿整个讲座使用的符号

00:03:52然后我们将进入新内容

00:03:54首先,我们有从1到n的x

00:03:57这些是贝叶斯网络中的离散随机变量

00:04:00在这个例子中,n等于3

00:04:12我们有三个随机变量

00:04:162自i是节点x自i的可能实力化数量

00:04:20而实力化就是该节点可以取的值

00:04:30由于这些是二元变量

00:04:31每个变量都有两个可能的实力化

00:04:39然后,我们有q自i

00:04:40这将是x自i的负解点数量

00:04:57我会再举一个例子来说明

00:05:00这意味着什么

00:05:01以及我们如何找到这个数字

00:05:04所以,现在假设我们有这个网络

00:05:06我们有x4和x6

00:05:15而x4和x5是x6的负解点

00:05:20x4和x5都没有任何负解点

00:05:23所以,当这种情况成立时

00:05:25我们说趋势

00:05:26那么我们会说q4等于q5等于1

00:05:41清了清嗓子

00:05:42如果我们确实有负解点

00:05:44那么qi值将是这些负解点的二值的乘积

00:05:50所以,在这个例子中

00:05:51q6等于R4乘以R5

00:05:57我们仍然在处理二元变量

00:05:59所以这将是

00:06:00我们还有一个最后的符号

00:06:02那就是πj

00:06:03这是xi的负解点的负解点实力化

00:06:07就是xi的负解点实力化

00:06:09那么,如果我们看看

00:06:11这里可能的不同负解点实力化

00:06:14我们有x4和x5

00:06:40我们会说

00:06:41他们可能都是1

00:06:46一个可能是1

00:06:47另一个可能是2

00:06:49然后两个都可能是2

00:06:51所以这里有四种情况

00:06:52所以,如果我们有π63

00:06:54那将是这一行

00:07:00这是节点6的第三个负解点实力化

00:07:04嗯,是的

00:07:06你写出来的顺序交换了

00:07:08这实际上有关系吗?

00:07:15你只需要确保

00:07:16以一致的方式存储它

00:07:18所以,只要你每次都能

00:07:20以相同的方式进行映射

00:07:22就没有对错之分

00:07:25你想重复这个问题吗?

00:07:27是的

00:07:28重复这个问题

00:07:29就是我们在这里

00:07:30用于j和πj的索引

00:07:32取决于我们在这个表中

00:07:34如何对形进行排序

00:07:37我们应该使用特定的排序方式吗?

00:07:40同样,答案是否定的

00:07:42你只需要确保映射方式一致

00:07:44这样你总是得到相同的结果

00:07:46但你可以用任何对你来说最合理的方式来做

00:07:57好的

00:07:58那么,在我们迄今为止所做的工作中

00:08:01参数学习

00:08:02我们假设网络的参数是已知的

00:08:05并且,我们使用它来做

00:08:07让我们再看一下

00:08:09我们已有的这个例子

00:08:10我将谈谈参数的含义

00:08:15所以,我们有下雨

00:08:16穿靴子和带伞

00:08:28在这个例子中

00:08:30我们假设图结构

00:08:31我们说,我们的参数

00:08:33φjk是给定πj10

00:08:36xi等于k的概率

00:08:54它们最终将是i从1到n的RI型号t的总和

00:08:58总参数

00:09:06所以,每个负节点实力化和节点实力化

00:09:10对应一个参数

00:09:11然后其中

00:09:12i从1到n的RI型号t将是独立参数

00:09:32现在,为什么参数是我们想要学习的东西

00:09:35让我们举一个例子

00:09:38所以,我们将取φ3

00:09:43我们看节点3

00:09:44第二个负节点实力化和第二个节点实力化

00:09:52所以,在这种情况下

00:09:54为了与书中的符号保持一致

00:09:57我将真和假编码为1和2

00:09:59而不是0和1

00:10:01所以,在这种情况下

00:10:03这个参数表示

00:10:04在下雨的情况下

00:10:06我带伞的概率

00:10:07如果这个参数是0

00:10:09我们可以看到

00:10:10基于我们对世界的直觉

00:10:12这可能不是一个很好的模型

00:10:15同样

00:10:16我个人经常丢伞

00:10:33实际上

00:10:33在这个教室里多次

00:10:35因此

00:10:36让它成为1也不太适合数据

00:10:42我们如何找到适合的参数

00:10:44我们将讨论两种不同的选择

00:10:49第一种是最大自然估计

00:11:08正如在之前的课程或讲座中

00:11:10我们寻找φ3

00:11:12即在给定这些参数下

00:11:14最大化我们观测数据概率的最佳参数

00:11:27对于将其扩展到贝叶斯网络

00:11:30我们只需对此做一个更改

00:11:34它还将给定我们的图结构G

00:11:36我们假设这是已知的

00:11:41在解决这个问题之前

00:11:43我们需要多一个符号

00:11:44即MIJK

00:11:46它表示

00:11:47在我们的观测数据中

00:11:49给定复节点实力化J

00:11:5111等于K的次数

00:12:15因此我们可以用这个成绩写出给定参数

00:12:19φ和结构G的整个数据集的概率

00:12:22它将是I从1到N的成绩

00:12:25J从1到G

00:12:26结点I的负结点实力化数量

00:12:29然后K从1到R

00:12:30结点φIJK的数量

00:12:33的φIJK的MIJK次方

00:12:35我将花点时间解释这个公式的来源

00:12:59因此我们假设数据集中的所有样本都是独立的

00:13:04那么如果我们想找到整个数据集的概率

00:13:07我们可以取每个样本概率的成绩

00:13:11正如我们之前展示的

00:13:13我们使用参数来表示给定结点

00:13:15直在负结点实力化下的可能性

00:13:22因此

00:13:22如果我们观察到

00:13:24x11出现两次

00:13:25那么在成绩中

00:13:27就会有两次

00:13:28θ值θ1111

00:13:37所以

00:13:37这将是二次方

00:13:38也就是我们在数据中观察到它的次数

00:13:41基本上

00:13:42这给了我们一种稍微更紧凑的方式来表示

00:13:46将代表每个数据点可能性的参数相乘

00:13:50如果我们对这个式子求导

00:13:52并找到概率最大的地方

00:13:54就能得到我们的最优参数

00:13:56θ hatIJ

00:13:57它是所有K的MIJK之和

00:14:11这里K便利节点

00:14:13I所有可能的取值

00:14:19所以

00:14:20如果我们使用最大自然估计

00:14:22这些就是我们的最佳参数

00:14:24但仅仅看这个公式

00:14:26有人能看出

00:14:28这种方法

00:14:29有什么潜在缺点吗

00:14:32提问

00:14:33那么

00:14:33J和K代表什么

00:14:37是的

00:14:38好问题

00:14:39嗯

00:14:39这是我学习材料时

00:14:41觉得最棘手的事情之一

00:14:44在整个讲座中

00:14:45我们将使用带有三个位置的索引

00:14:48第一个位置

00:14:49始终是我们正在引用的节点

00:14:52嗯

00:14:52所以

00:14:53如果我们看这个图

00:14:55并且我们有或者假设是M2

00:14:57那么我们有一个负节点

00:14:59这将指的是这里的这个节点

00:15:03第二个索引是哪个负节点实力化

00:15:06所以

00:15:07如果是M21

00:15:08这是第一个实力化

00:15:09并且

00:15:10由于我们只有一个负节点

00:15:12这将是负节点取其第一个值

00:15:14然后第三个索引指的是

00:15:17节点正在取的值

00:15:19所以

00:15:20M212

00:15:21将是节点X2的第一个负节点实力化

00:15:24和第二个节点实力化

00:15:29所以

00:15:29在这种情况下

00:15:31我们使用二进制编码

00:15:33这将是我在没有下雨时穿靴子的次数

00:15:36这里表示

00:15:37穿靴子

00:15:38且没有下雨

00:15:41然后

00:15:42这是我们在谈论的节点

00:15:47第一个负节点

00:15:48不一定是X1

00:15:50对吧

00:15:51所以

00:15:52如果有像X5

00:15:53X6这样的

00:15:54它会是

00:15:55嗯

00:15:55你是说

00:15:56有两个负节点

00:15:57所以

00:15:58如果我们有像X5这样的节点

00:16:00嗯

00:16:00我的意思是

00:16:01看起来好像

00:16:02哦

00:16:03我明白

00:16:04你的意思了

00:16:05是的

00:16:05所以

00:16:06因为这个图中

00:16:07只有一个负节点

00:16:09两个可能的负节点实力化

00:16:11也就是对于那个节点

00:16:13RI等于2

00:16:14会是1和2

00:16:15因为它是2元的

00:16:19嗯

00:16:20但让我想想能不能举一个

00:16:21不那么令人困惑的例子

00:16:23我们可以

00:16:24我想

00:16:30哦

00:16:30我明白

00:16:31你的意思了

00:16:31不

00:16:32所以

00:16:33如果有两个负节点

00:16:34X5和X6

00:16:36我们有像这样的东西

00:16:37那么

00:16:38当我们看所有可能的负节点实力化时

00:16:41我们是在看

00:16:42它们可能取值的成绩

00:16:44也就是迪卡尔基

00:16:47所以

00:16:48如果它们是2元的

00:16:49我们会有12122

00:16:53嗯

00:16:53正如我之前提到的

00:16:55你在那个表中排列它们的顺序并不重要

00:16:57你只需要保持一致即可

00:16:59那么首先就是这一行

00:17:01它们都是

00:17:08这就是我们如何通过最大自然估计得到参数的方法

00:17:13嗯

00:17:13是的

00:17:20是的

00:17:20当然

00:17:21还有就是

00:17:22对

00:17:25当你说每个数字的含义时

00:17:27你指的是这里的定义还是另一页上的

00:17:31不

00:17:32我们有一个带下标债的相同问题

00:17:36我想我有点迷糊了

00:17:38在那里很容易迷糊

00:17:39让我再写一遍

00:17:41所以

00:17:41M.I.J.我们这里有的是一节点

00:17:44带有这幅实力化和K.F.节点实力化

00:18:16所以

00:18:17这些索引表示我们当前在哪个节点

00:18:20它的负节点值是什么

00:18:21以及那个值是什么

00:18:24是的

00:18:24没问题

00:18:27我再回答一个问题就继续

00:18:29好的

00:18:30所以实力化

00:18:31清嗓子

00:18:32就是一组值

00:18:35是的

00:18:35对于节点本身

00:18:37它是一个单一值

00:18:38而对于负节点或负节点们

00:18:40它是一个集合

00:18:42如果没有负节点

00:18:44我们通常将其视为一个值

00:18:56看看这个带有M.I.J.K.的公式

00:18:59它来自我们观察到的数据集

00:19:04最大自然估计可能较弱的一个地方是

00:19:07世界上可能发生的一些事情

00:19:09我们在数据集中根本没有观察到

00:19:14例如

00:19:15假设我收集了一周下雨时的数据

00:19:17但那周我丢了雨伞

00:19:22所以我们将得到零技术

00:19:23表示下雨时我没有带伞

00:19:26在这里我们会发现参数化的最优方式是说下雨时我

00:19:29带伞的概率为0%

00:19:30但根据我们的先验知识

00:19:31直觉上我们知道这可能不是一个很好的模型

00:19:33因此我们可用的另一种方法

00:19:36可以解决其中一些限制

00:19:38是贝叶斯参数学习

00:20:08与MV不同

00:20:10我们寻找的试点估计

00:20:12即θ hat

00:20:13是给定θ下数据概率的最大值

00:20:30在贝叶斯参数学习中

00:20:32我们寻找的是给定数据及下参数θ的可能性

00:20:41因此我们实际上是在推断一个分布

00:20:44然后为了找到最佳参数

00:20:46我们称最优参数θ hat

00:20:49为给定数据及下这些参数的可能性

00:21:04我们也将此称为最大后焰估计或map估计

00:21:23当我们将其应用于贝叶斯网络时

00:21:26我们考虑的是给定某个图结构

00:21:29G下参数θ的可能性

00:21:31我们仍然假设G是已知的

00:21:39这里θ代表我们网络中的所有参数

00:21:42这只是书写上的简洁方式

00:21:53这个概率将是i等于1到n的乘积

00:22:00所以是针对所有节点

00:22:02以及g等于1到g

00:22:07所以是针对所有负节点的实力化

00:22:10p of θ j

00:22:11当我说θ j时

00:22:13我指的是这个向量

00:22:19所以θ j是θ j1到θ jn

00:22:28因此对于i节点和g-节点实力化

00:22:32我们在这个向量中为节点可以取得每个实力化有一个元

00:22:37素

00:22:41并且我们能够假设这个概率取自一个迪利克雷分布

00:23:03所以你会从上一讲中回忆起

00:23:06我们迪利克雷分布中的这些alpha式微技术

00:23:10实际上在继续之前

00:23:12我将简要回顾一下关于迪利克雷分布的更多内容

00:23:22哦是的

00:23:37所以迪利克雷分布将β分布推广到任意数量的类

00:23:42别

00:23:45它由我们的alpha参数化

00:23:47这些alpha式微技术

00:23:50当我们观察到新数据时

00:23:52我们只需更新技术

00:24:07所以在我们将这些技术相加之后

00:24:09在我们的迪利克雷分布中

00:24:12参数的四冉

00:24:14接下来

00:24:15再来

00:24:17制作人

00:24:17不 noted

00:24:18感谢观看

00:24:47为了符号的简洁

00:24:49我将直接写φ从1到n给定α从1到n等于φ给

00:24:55定α的迪利克雷分布

00:25:06这将与所有n个参数φ的密次减1的乘积乘比例

00:25:26我说成比例而不是相等

00:25:28是因为我们缺少一个规矣化常数

00:25:31需要确保这些概率之和为1

00:25:36这只需要用到你们在上节课会回忆起来的γ函数

00:25:42所以这个常数会是这样的形式

00:25:45我们有γ函数α0除以从i等于1到n的γ函数

00:25:50αi的乘积

00:25:51然后就是这个规矣化常数乘以我们最初得到的成绩

00:26:06嗯

00:26:06我看到这边有个问题

00:26:09是的

00:26:09我只是好奇最后一个的计法会是什么样子

00:26:13看看某个节点11和负节点实力化绝

00:26:16然后对于节点可以取得每个实力化

00:26:19我们有一个参数

00:26:20θ

00:26:42而对于节点i有re种可能的实力化

00:26:47哦

00:26:47所以是mue sub

00:26:51是的

00:26:51就是r sub

00:26:54对

00:26:54嗯

00:26:55是的

00:26:56还有一个问题

00:27:00抱歉

00:27:01您能重复一遍吗

00:27:04是的

00:27:04那些是先验

00:27:05所以那些是

00:27:06正如之前

00:27:07清了清嗓子

00:27:09嗯

00:27:09伪技术越高

00:27:10我们就越有信心

00:27:19所以给定阶梯分布

00:27:21当我们根据我们的图取参数的四燃时

00:27:24我们看的是

00:27:25给定我们的伪技术alpha g的φ四燃

00:27:28那将是先验

00:27:30而mate是我们的数据集

00:27:32我们只是统计

00:27:33我们在数据中观察到事物的频率

00:27:36并且我们说

00:27:37对于节点i

00:27:38每个r sub

00:27:39或节点可以取得值

00:27:41都有一个参数

00:27:42并且有sub

00:27:44这样的值

00:27:44对于

00:28:21我将给你一个我们如何实际计算这些参数的例子

00:28:25因为它比我们看β10要复杂一些

00:28:29所以假设我们再次处理二元变量

00:28:32并且我们有这个图结构

00:28:38我们有x3和x4

00:28:40它们是x5的负解点

00:28:48现在每个节点的参数数量取决于节点实力化和负

00:28:53解点实力化的数量

00:28:55我们可以将参数存储在矩阵中

00:28:57所以首先我们将为x3做矩阵

00:29:01这将有q3行

00:29:05因此由于它没有负解点

00:29:08我们说它有一个负解点实力化

00:29:13然后它将有r3列

00:29:16因此

00:29:17节点实力化的数量

00:29:19节点可以取两个值

00:29:20我们将有一个相同形状的矩阵

00:29:23来保存x4的参数

00:29:26所以q4

00:29:27我们有一个负解点实力化

00:29:29因为我们有零个负解点

00:29:31而r4

00:29:32我们有两个可能的节点实力化

00:29:35因为它是二元的

00:29:36然后情况稍微复杂一点的是x5

00:29:44那么现在

00:29:45由于我们有两个二元负解点

00:29:47我们将有多少个负解点实力化

00:29:524个

00:29:53因此

00:29:53我们只是取r3型号r4作为q5

00:30:02所以这个矩阵将有四行

00:30:04然后再次

00:30:05节点本身是二元的

00:30:07所以

00:30:07r5是2

00:30:13你能像r3那样写下来吗

00:30:15r3等于1吗

00:30:17是的

00:30:17接着

00:30:18所以r3是2

00:30:19r4是2

00:30:20r5是2

00:30:23q3是1

00:30:25q4也是

00:30:26因为它们都没有负解点

00:30:28而q5是4

00:30:29因为我们有两个二进制负解点

00:30:33如果我们假设一个均匀纤艳

00:30:35我们可以用意填充所有这些矩阵

00:30:44然后我们将观察

00:30:45如果出现一些新数据会发生什么

00:30:49那么

00:30:50我们如何用观察到的技术

00:30:52来更新我们的伪技术呢

00:30:59假设我们在这个表格中做了这些观察

00:31:08我将从x3和x4开始

00:31:10因为它们更容易理解

00:31:12对于这里的x3

00:31:14我们观察到它取值为1的一次实力

00:31:18再次说明

00:31:18你可以按照任何对你有意义的方式来排列矩阵的裂合

00:31:21型

00:31:22你只需要保持一致性

00:31:24但我会这样排列

00:31:25第一列对应值1

00:31:27第二列对应节点2的实力化

00:31:35所以我们有x3等于1

00:31:38因此

00:31:38我们将第一列和第一行的技术增加1

00:31:44我们将对x4应用同样的操作

00:31:47只是我们观察到它取值为2

00:31:50所以

00:31:50我们增加第二列的技术

00:31:54事情变得稍微复杂一点的地方

00:31:56在于我们将如何处理x5

00:31:59我们观察到x5是1

00:32:01所以

00:32:01我们知道

00:32:03我们位于这第一列

00:32:05同样

00:32:06你可以选择按负实力化队形进行排序

00:32:09只要你觉得合理

00:32:11但我将展示我的做法

00:32:12因此

00:32:13当我们查看表格时

00:32:15我们有负实力化1

00:32:172

00:32:23这时我们位于第二行和第一列

00:32:27因此

00:32:27我们将该技术增加1

00:32:31我们可以做

00:32:32嗯

00:32:33是的

00:32:39嗯

00:32:39你是说我在

00:32:40是的

00:32:43以及你之前拥有的公式

00:32:45这个公式

00:32:48第四个

00:32:49就在这里

00:32:49是的

00:32:50是的

00:32:50好的

00:32:50当然

00:32:52那么

00:32:52嗯

00:32:53我们的θ这参数

00:32:55代表了一个结果上的分布

00:32:58我觉得

00:32:59把它想象成质头字

00:33:01对我来说更直观一些

00:33:04所以

00:33:04以质头字为例

00:33:06假设我们只有一个变量

00:33:08它代表一个头字

00:33:13头字有六个面

00:33:15所以

00:33:15它可能有六种不同的曲值

00:33:18这些曲值

00:33:19就是

00:33:191

00:33:192

00:33:203

00:33:204

00:33:215

00:33:226

00:33:25嗯

00:33:25清了清嗓子

00:33:26也许我们认为

00:33:27它很可能是一个公平的头字

00:33:29所以

00:33:29我们一开始

00:33:31让θ参数

00:33:32代表一个均匀分布

00:33:35所以

00:33:36这些参数都将为16

00:33:45然后根据我们的观察

00:33:46我们想推断

00:33:48这些参数的可能性有多大

00:33:51这样做的动机是

00:33:53在未来

00:33:54我们可以说

00:33:55这个θ

00:33:56是否是我们可能观察到的数据的良好模型

00:34:00比如

00:34:01如果你在赌这个头字的点数

00:34:02你会想要一个与之非常匹配的θ

00:34:05嗯

00:34:05所以我们

00:34:06可以从参数均匀分布的dith分布开始

00:34:12所以

00:34:13假设我们的α

00:34:14都设为2

00:34:15这代表了对投资公平性的弱智信度

00:34:27然后

00:34:28我们观察到一些数据

00:34:29所以

00:34:30如果我们仅仅基于这些数据

00:34:32计算θ的dith自然

00:34:34它可能会相当高

00:34:38不会是99%那么高

00:34:40因为我们不是非常确信

00:34:42但会相当高

00:34:43然后

00:34:43假设我这投资100次

00:34:45只得到一个1

00:34:48所以

00:34:49我将增加这个伪计数

00:34:51我们有α1加上m1

00:34:54现在我们的分布参数非常不同

00:34:59所以

00:35:00如果我们再次使用这些参数

00:35:02来计算θ的四然

00:35:04我们会发现

00:35:05θ

00:35:05准确表示数据的可能性

00:35:07要小得多

00:35:14好的

00:35:14是的

00:35:15没问题

00:35:17对

00:35:18所以

00:35:18当我们有2到20

00:35:20就像我们只制了一次头子

00:35:22对吧

00:35:25222是我们的鲜艳

00:35:27所以

00:35:27我们根本没有制头子

00:35:28我们可以根据我们相信的真相

00:35:31以及我们的信心程度

00:35:32以任何我们想要的方式

00:35:34设置这个鲜艳

00:35:35所以

00:35:36如果我们相信

00:35:37嗯

00:35:38我们可能比其他任何数字

00:35:40更有可能得到1

00:35:41我们可能会有一个像这样的鲜艳α

00:35:47也许我们有5个

00:35:48然后其他都是2

00:35:541

00:35:55如果我们制出1

00:35:56而第一个

00:35:58你必须加1

00:36:00然后

00:36:01我们就在那个基础上加1

00:36:03正是如此

00:36:04所以

00:36:05我们现在

00:36:06会有3个

00:36:0622

00:36:072个22

00:36:08因此

00:36:09我们可以看到

00:36:10尽管我们在数据中实际观察到的

00:36:13只是制出1

00:36:14它仍然会与我们拥有的那个均匀分布的θ

00:36:17相当吻合

00:36:19是的

00:36:20所以

00:36:21在这种情况下

00:36:22一个均匀鲜艳

00:36:23对于我们的所有情况来说

00:36:25只是边界

00:36:27好问题

00:36:29好的

00:36:29我认为

00:36:30关于德尔塔和贝塔分布最酷的事情之一是

00:36:33我们不仅可以表达我们预期的分布形状

00:36:36还可以表达置信度

00:36:41因此

00:36:42我们可以用一个具有任何置信水平的均匀分布来表示鲜

00:36:46艳

00:36:47嗯

00:36:47比如我们从这样一个分布开始

00:36:50我们的置信度是

00:36:52然后我们置了一次1

00:36:58所以

00:36:59现在我们这里有一个4

00:37:00这将比我们有一个强鲜艳

00:37:03其中所有值都是100

00:37:04然后置两次

00:37:06产生更大的影响

00:37:09所以

00:37:10你可以有很多均匀分布

00:37:12其鲜艳参数的大小表示

00:37:22好的

00:37:22这就是德尔分布

00:37:24我们稍后再进入结构学习时

00:37:27会再次看到它

00:37:32所以

00:37:32为了从我们的数据中学习结构

00:37:35我们需要一种方法来评估它们

00:37:43我们希望有一个合理的客观衡量标准

00:37:46让我们可以说

00:37:47某个图结构比另一个更适合数据

00:37:53让我们再看一遍我们的降雨例子

00:38:09所以

00:38:09我目前的结构是

00:38:11这些节点是完全不相连的

00:38:14这意味着

00:38:15它们彼此完全独立

00:38:18它们之间没有概率关系

00:38:22基于我们对雨

00:38:23雨伞和雨靴的鲜艳知识

00:38:24我们知道

00:38:25这可能不是一个很好的模型

00:38:27我们希望能够对它进行评分

00:38:30这样

00:38:30如果它得到我们寻找的东西的支持

00:38:33它就会更好

00:38:35换句话说

00:38:36我们寻找的是在给定观测数据集的情况

00:38:39下图的概率

00:38:47从贝叶斯规则来看

00:38:49我们可以看到

00:38:50这将雨图的概率乘以

00:38:52给定图的数据概率成正比

00:38:57使用全概率定律

00:38:58我们可以看到

00:39:00这等于对所有可能的θ进行积分

00:39:03嗯

00:39:03这应该在外面

00:39:08它等于图的概率乘以对θ的积分

00:39:12积分内容是θ的概率

00:39:14和给定图的θ的概率dθ

00:39:17所以

00:39:18我只是写出

00:39:19我们如何执行每一步

00:39:20贝叶斯规则

00:39:22全概率定律

00:39:23然后最后

00:39:24我们应用链式法则

00:39:26我们将得到图的概率

00:39:27乘以对θ的积分

00:39:29积分内容

00:39:30是给定θ

00:39:31和我们的图结构的数据集的的概率

00:39:34乘以给定图结构的θ的

00:39:36肆然度dθ

00:39:37az 还有

00:40:07好的

00:40:12所以我们遵循与之前相同的假设

00:40:15即遵循迪克雷分布

00:40:17我们能够写出给定数据的图的概率

00:40:20是图的概率乘以这个i等于1到n

00:40:35所以这是对节点的求和

00:40:37然后j等于1到t对节点i的负节点实力化求和

00:40:41γ函数αj0除以γ函数αj0加μj0

00:40:47这些只是对所有i和a的α

00:40:49以及所有i和j的m的求和

00:41:15然后这将乘以从k等于1到re的γαjk加μj

00:41:20k除以γαjk的成绩

00:41:35现在为什么我们能这样写

00:41:38嗯

00:41:38答案是一个两页的推导

00:41:40你可以在教科书的参考文献中找到

00:41:42而且你不需要知道

00:41:45嗯

00:41:45但如果你好奇的话

00:41:46它确实存在

00:41:48而且确实有

00:41:53是的

00:41:54所以我正想说

00:41:55我们只需要再进行一步

00:41:57就能把它变成你在项目一中要使用的格式

00:42:00嗯

00:42:00不过别担心推导过程

00:42:02嗯

00:42:03是的

00:42:03好的

00:42:04这是个很简单的问题

00:42:05但b规则里还有一个关于d的概率的项

00:42:09这是否意味着

00:42:10假设一个正数据就变成1了

00:42:13不

00:42:13它不会变成1

00:42:15嗯

00:42:15这就是为什么我们说成正比而不是等于

00:42:19哦

00:42:20明白了

00:42:21所以

00:42:22它会是除以某个值

00:42:24是的

00:42:24所以

00:42:25如果我们只是用b规则把它写出来

00:42:28嗯

00:42:28我们会得到这个

00:42:40我们之所以可以接受使用于某个量成正比的东西

00:42:44是因为我们只关心最大化它

00:42:48所以

00:42:48如果我们知道左右两边是成正比的

00:42:51即使它们不相等

00:42:53最大化右边的项仍然会最大化左边的项

00:42:57所以

00:42:58我们在进行优化时

00:43:00只是省略了那个项

00:43:02但你说的对

00:43:03这确实会涉及到相率

00:43:08好的

00:43:09因此

00:43:10我们采取的最后一步是为了稳定性而应用对数技

00:43:14巧

00:43:15嗯

00:43:16如你所见

00:43:17我们开始将许多非常小的概率相成

00:43:20为了避免相成

00:43:21清了清嗓子

00:43:23我们将取对数

00:43:24这样就可以将它们相加

00:43:30因此

00:43:31我们得到了图的对数概率

00:43:33然后是对之前那些伽马函数比率的对数进行的大求

00:43:37和

00:43:58即伽马Alpha-J0除以伽马Alpha-J0加上M

00:44:02ate-Zero

00:44:05嗯

00:44:05关于产品项目

00:44:07我给你一个建议

00:44:08我强烈推荐你从实现评分开始

00:44:11我们给你一个例子

00:44:13让你可以检查你的评分实现是否正确

00:44:16这绝对是你开始的最佳位置

00:44:19然后你再继续搜索图结构以最大化评分

00:44:30哎呀

00:44:31我们在这里的计算速度有点快

00:44:33但这是相同的比率

00:44:35只是在一个求和内部

00:44:37关于这一点

00:44:38还有几点说明适用于你的项目

00:44:43通常我们并不知道什么样的图结构是最优的

00:44:47因此

00:44:47在这种情况下

00:44:49我们可以使用PFG Dropout

00:44:51而无需担心它

00:44:53有时存在这样的情况

00:44:55我们知道某条特定的边必须在图中

00:44:58或者永远不能在图中

00:45:00因此

00:45:01在这些情况下

00:45:02我们可以说

00:45:03如果我们得到一个包含这条概率为0的边的图

00:45:07那么

00:45:08所有其他图的概率将是均匀分布的

00:45:11在实际操作中

00:45:12另一种实现方式是

00:45:14你可以通过规定永远不添加被禁止的边

00:45:17或者总是添加并保留所需的边

00:45:20来强制执行约束

00:45:22这样你就不需要在复制时计算PG

00:45:25这就是你处理图自然信念的方法

00:45:30是的

00:45:30我看到在双求和之后是开放的

00:45:37那个括号就在那里闭合了

00:45:39好的

00:45:40对于作业

00:45:41务必小心谨慎

00:45:44好的

00:45:47说说对数函数

00:45:49哦

00:45:50呃

00:45:50关于对数干嘛函数

00:45:52有件事想说

00:45:57所以

00:45:57计算干嘛函数

00:45:59记得它是阶层

00:46:01我们不想

00:46:02计算那些阶层

00:46:03因为阶层增长极快

00:46:06但计算对数干嘛函数我们可以做到

00:46:09而且它是内置函数

00:46:12是的

00:46:12包括Juia语言

00:46:16所以请在你的项目中使用它

00:46:22现在

00:46:22当我们优化这个分数时

00:46:24发生了一件很酷的事情

00:46:26那就是它平衡了模型复杂度和数据量

00:46:30我要画一下图5.3

00:46:32你可以在书中找到

00:46:34但基本上我们看的是Y轴上的贝叶丝值

00:46:38及这里的这个量相对于真实的网络结构

00:47:01所以

00:47:01在这里我们有0

00:47:03如果贝叶丝分数相对于真实网络为0

00:47:06这意味着分数相同

00:47:08然后分数开始变为负值

00:47:11因此

00:47:12这里下方显示的是

00:47:14我们比真实结构的分数差多少

00:47:18而言Y轴是我们数据集中的样本数量

00:47:24所以是0

00:47:2515和20

00:47:33我将使用粉色来表示一个完全不连通的图

00:47:41因此

00:47:42因此我们会看到这条相对分数曲线是这样的

00:47:46所以在开始时

00:47:48当我们数据不多时

00:47:49一个完全不连通的图实际上比真实图得到更高的分

00:47:54数

00:47:55随着数据量的增加

00:47:57我们因没有建模任何东西而受到越来越重的惩罚

00:48:11这是完全不连通的

00:48:18然后我们也会看完全连通的

00:48:21如果我们的图是完全连通的

00:48:23一开始我们的表现会更差

00:48:26我们因为拥有比基于数据能建模的复杂度更高的结

00:48:30构而受到惩罚

00:48:32然后情况趋于平稳

00:48:35所以最终

00:48:36如果我们有足够的数据

00:48:38完全连通的图会优于完全不连通的图

00:48:41尽管我们当然希望找到尽可能接近真实结构的东西

00:48:48所以这两种都不是最优的

00:48:50前排的

00:48:51是的

00:48:52请讲

00:48:55好问题

00:48:56因为贝叶斯分数的工作方式

00:48:58如果我们没有很多数据

00:49:00意味着有很多参数

00:49:02我们没有足够的技术

00:49:04我们的很多MIJ都是零

00:49:06嗯

00:49:07它的表现就不好

00:49:10所以在小数据集中

00:49:12我们可能没有观察到真实结构所建模的所有关系

00:49:17所以在一定量的数据下

00:49:19我们通过建模为完全不连通的图表现会好一点

00:49:23然后一旦我们有更多数据

00:49:25表现又会下降

00:49:27是的

00:49:27嗯

00:49:28是的

00:49:29嗯

00:49:29我刚才问的是网络本身的结构

00:49:45所以当你说鲜艳分布时

00:49:46你指的是所有图上的鲜艳吗

00:49:49好的

00:49:49嗯

00:49:50那会是这个正在被舍弃的PFG项

00:50:06所以通常就在这里

00:50:08数学上它并没有被舍弃

00:50:10但如果你没有鲜艳

00:50:11在计算分数时可以直接忽略它

00:50:14一个希望不会太明显提示另一种处理方式的例子是

00:50:19正如我所说

00:50:20你可以强制某些边存在

00:50:23嗯

00:50:23对于这个项目

00:50:24第一个小图是关于基于多种因素的葡萄酒评分

00:50:28而我的父母是酿酒师

00:50:31所以我问了

00:50:32有没有什么你非常确信应该连接的东西

00:50:35然后我会说让那些每次都被连接

00:50:49所以底部的这个图

00:50:51我们没有根据数据更新图结构

00:50:54不

00:50:55我们完全没有更新它

00:50:56因此

00:50:57我们选取了两个可能并不完全适配我们数据的模型

00:51:00一个是完全连接的

00:51:02另一个是完全不连接的

00:51:03然后观察随着数据量的增加

00:51:05它们的评分如何变化

00:51:07所以这里的重要结论是

00:51:09使用这种评分指标

00:51:10当数据量较小时

00:51:12它会惩罚模型的高复杂度

00:51:14并鼓励仅构建数据所能支持的模型复杂度

00:51:19因此

00:51:20这为我们提供了更多的实证证据

00:51:23表明我们

00:51:24不会采取某种奇怪的奖励黑客策略

00:51:27比如永远不连接任何东西

00:51:29或者尽可能多地连接

00:51:32是的

00:51:32当你说完全连接时

00:51:34你的意思是每个节点都必须至少有一条箭头

00:51:38指向其他节点

00:51:39但这可能意味着它可以有任意数量的连接

00:51:44我认为这意味着每个节点都与其他所有节点相连

00:51:49且边的方向设置使得不会产生环路

00:51:53是的

00:51:54因此

00:51:54一个例子是

00:51:55如果我们有X1

00:51:57X2和X3

00:51:59我们可以构造像这样的结构

00:52:05所以没有环路

00:52:05但每个节点都与其他所有节点之间有一条边

00:52:09所以

00:52:10这是一个环路

00:52:11因为没有箭头指向

00:52:13完全正确

00:52:14嗯

00:52:14是的

00:52:15我的意思是

00:52:16这不是最数学化的方法

00:52:18但当涉及到循环时

00:52:20我会从一个节点开始

00:52:22追踪它的边

00:52:23看看是否能回到它

00:52:26好的

00:52:29所以

00:52:29循环的问题很重要

00:52:31因为现在

00:52:32我们有了一个可以应用于图的评分函数

00:52:35我们可以讨论如何找到最好的那些

00:52:40这就是结构学习

00:52:47所以

00:52:47我将给你两个不同的方法

00:52:49它们都适用于项目一

00:52:51我们首先要讨论的是

00:52:53K2算法

00:52:59所以

00:52:59这是多项式时间的

00:53:01并且不能保证

00:53:03找到全局最优解

00:53:04我将向你展示

00:53:06它是如何工作的

00:53:10在K2中

00:53:11我们从一个完全不连接的图开始

00:53:13即没有边

00:53:23所以

00:53:23可能看起来像这样

00:53:34然后按某种顺序

00:53:38在这种情况下

00:53:39我将选择一个非常简单的顺序

00:53:42我们将便利节点

00:53:54那么

00:53:55我选择X1

00:53:56X2

00:53:57然后是X3

00:54:01当我们便利节点时

00:54:02我们贪婪的添加负节点

00:54:04以最大化提高分数

00:54:23这意味着

00:54:24我们正在跟踪到目前为止的最佳分数

00:54:31由于我们完全不连接

00:54:33开始时

00:54:34可能不是一个惊人的最佳分数

00:54:37然后在我们的顺序中

00:54:38我们将尝试

00:54:40添加负节点

00:54:43如果我们添加该负节点时

00:54:45获得的分数

00:54:46大于我们目前的最佳分数

00:54:48那么

00:54:48我们将在图中保留该边

00:54:50所以

00:54:51从X1开始

00:54:52它前面没有节点

00:54:54因此

00:54:55我们无法为其添加任何负节点

00:54:56而K2强制执行此顺序

00:54:59然后在X2处

00:55:00X1在它之前

00:55:02所以

00:55:03我们将它视为一个潜在的负节点

00:55:05如果分数增加

00:55:06我们将添加从X1到X2的边

00:55:10然后在X3处

00:55:12我们将首先查看X1作为潜在负节点

00:55:15并观察添加该边

00:55:16是否会提升我们的最佳得分

00:55:19如果会

00:55:20我们就添加它

00:55:21然后在X2处采用相同的逻辑

00:55:23如果向X3添加

00:55:25该边能提升得分

00:55:26我们就将其加入图中

00:55:29因此实际上

00:55:30在这张图中

00:55:32我已经根据K2算法的约束

00:55:34添加了所有可能的边

00:55:37你会看到

00:55:38因为我们强制执行了这种排序

00:55:40我们永远不会创建环

00:55:41我们只能单向添加边

00:55:43并且永远不会反向

00:55:45这就是K2算法处理环问题的方式

00:55:48我看到这边有个问题

00:55:50是的

00:55:51我想你已经在最后提出了问题

00:55:53但我假设你

00:55:54哼了一声

00:55:55这里存在一个接近最大值

00:55:57而非深度的问题

00:55:58嗯

00:55:59是的

00:55:59完全正确

00:56:00如你所见

00:56:01我们处理这个问题的一种方式是

00:56:04由于我们最初选择的顺序

00:56:05我们能够添加的边是有限的

00:56:08你可以做的是

00:56:09尝试多种初始顺序

00:56:11随机生成一堆

00:56:13然后从所有这些顺序中

00:56:15选取最好的结构

00:56:17但确实

00:56:18这种方法容易出现这个问题

00:56:21因此

00:56:21你需要人为的扩展搜索空间

00:56:24对于这个项目

00:56:25你还需要注意的另一件事

00:56:27是强制执行负节点数量的最大值

00:56:29这是一个非常小的数字

00:56:31但我们需要的参数数量

00:56:33会随着负节点数量乘指数增长

00:56:36为了你的计算资源着想

00:56:38强烈建议设置一个限制

00:56:40你可以从一个非常低的数字开始

00:56:42比如

00:56:43只允许有两个负节点

00:56:45然后随着你的资源增加

00:56:46再提高这个限制

00:56:48所以总的来说

00:56:49对于这个算法

00:56:50你假设

00:56:51无论你从哪个节点开始迭代

00:56:53它都不必是负节点

00:56:55比如

00:56:56如果你改变顺序

00:56:57从X2开始

00:56:59那么你就假设X2

00:57:01是的

00:57:01所以

00:57:02我们完全受限于那个顺序

00:57:05如果你有一个数据集

00:57:07其中某个节点

00:57:08比如

00:57:09X1

00:57:10应该有很多负节点

00:57:11而你随机得到一个顺序

00:57:14其中

00:57:14X1排在第一位

00:57:16那么你就无法得到

00:57:17所有那些潜在的结构了

00:57:22这是在寻找该排序下的最大值吗

00:57:25也就是说

00:57:26这个策略在给定迷

00:57:28所做的附带假设下

00:57:29是否找到了最优解

00:57:31或者说

00:57:32在所有假设下

00:57:33这能找到最优解吗

00:57:36我认为不能

00:57:37因为我们是贪婪的添加的

00:57:39但嗯不

00:57:40这不能

00:57:42好的

00:57:42那么我们还有另一种处理方式

00:57:45那就是局部搜索

00:57:53局部搜索也容易陷入局部最优

00:57:56但在我描述完算法后

00:57:58我会告诉你们几种处理这个问题的方法

00:58:01因为有一些有趣的选项

00:58:04好的

00:58:04那么在局部搜索中

00:58:06与K2不同

00:58:07我们从某个初始图开始

00:58:09你可以从完全不连接的图开始

00:58:12但并非必须如此

00:58:14而在K2中

00:58:15你必须从没有边的图开始

00:58:22不过实际上

00:58:23正如我刚才所说

00:58:25对于K2

00:58:25如果你有一条想要强制执行的边

00:58:28你可以从那条边开始

00:58:30你只是想确保在你的排序中

00:58:32边不会倒退

00:58:33这样你就不会引入一个环

00:58:35好的

00:58:36对于局部搜索

00:58:38我们从一个初始图开始

00:58:43为了这个例子

00:58:44我将让它看起来像这样

00:58:46而我们称之为局部搜索的原因是

00:58:50我们将查看当前图领域中的所有图

00:59:01所以我将定义领域

00:59:04因此

00:59:05一个图的领域

00:59:06是所有与当前图

00:59:07仅相差一个基本图操作的图的集合

00:59:33有三种基本图操作

00:59:34有三种基本图操作

00:59:37首先

00:59:37我们可以添加一条边

00:59:40所以

00:59:40这将给我们

00:59:41我的意思是

00:59:43只要我们不引入环

00:59:44这里可以添加许多条边

00:59:46但一个例子是

00:59:48我们可以从

00:59:49X2

00:59:49添加一条

00:59:50边到

00:59:51X3

00:59:59下一个基本图操作

01:00:00是我们可以

01:00:01移除一条边

01:00:02在这种情况下

01:00:04由于我们最初只有一条边

01:00:06这将导致完全不连通

01:00:08最后

01:00:09我们可以反转一条边的方向

01:00:21所以

01:00:21在我们的初始图中

01:00:23我们只有一条边可供选择

01:00:25我们将翻转它

01:00:26使得现在

01:00:27X2

01:00:28有一条指向

01:00:29X1的边

01:00:39正如我一开始提到的

01:00:41我们可以添加的边

01:00:42不止一条

01:00:44所以

01:00:45我们的淋浴

01:00:46会比这个稍大一些

01:00:47但它只是所有距离

01:00:49一部基本图操作的图

01:00:51因此

01:00:52我们从某个初始图开始

01:00:53我们拥有其淋浴中的所有图

01:00:56然后在局部搜索中

01:00:58我们将对所有不引入环的邻居进行评分

01:01:01然后移动到得分最高的邻居

01:01:13所以

01:01:13现在得分最高的邻居

01:01:15就是我们当前的图

01:01:26我们不断重复这个过程

01:01:28直到达到一个点

01:01:29即对于当前图

01:01:31没有邻居的得分

01:01:32比它更高

01:01:37因此

01:01:38重复直到当前图

01:01:40没有更高得分的邻居

01:01:57正如我们在K2的前一个例子中看到的

01:02:00这也很容易陷入局部最优

01:02:04嗯

01:02:04我们有一些有趣的方法可以摆脱这种情况

01:02:08首先

01:02:08我们有随机重启

01:02:10所有这些方法都会在书中详细说明

01:02:19所以

01:02:19不必现在就记住他们

01:02:21但对于随机重启

01:02:23我们只需取一个未被选中的图

01:02:25即我们访问过的某个图的邻居

01:02:28然后从那里重新开始搜索

01:02:30除了随机重启

01:02:32我们还有模拟退火

01:02:42这是受野金学启发的

01:02:45在模拟退火中

01:02:47我们有一定百分比的时间

01:02:49选择一个适应度

01:02:50或得分低于最佳邻居的邻居

01:02:52然后

01:02:53我们将这个参数百分比设置为

01:02:56随着搜索的进行而降低

01:03:02所以

01:03:03也许我们开始时

01:03:04有百分之五十的时间

01:03:06不选择最适应的邻居

01:03:07然后这个比例逐渐下降

01:03:11最后

01:03:11嗯

01:03:12这里举个例子

01:03:13但不是你们可以选择的

01:03:15我们有遗传算法

01:03:24遗传算法

01:03:25是受生物学启发的

01:03:26它们从一个个体群体开始

01:03:31因此

01:03:31在这种情况下

01:03:33个体将对应不同的图结构

01:03:35我们将这个个体群体编码为一个二进制矩阵

01:03:41所以当DNA有T

01:03:42C和G时

01:03:44这个矩阵将包含0和1

01:03:46嗯

01:03:47我们从完全随机开始

01:03:49对于初始群体中的每个图

01:03:51我们使用贝叶斯分数来评估它们的适应度

01:03:57然后为了产生下一代

01:03:59我们随机选择两个亲本

01:04:01但选择概率由它们的适应度加权

01:04:06因此

01:04:06贝叶斯分数越高

01:04:08该结构繁殖的可能性就越大

01:04:10我们对它们进行重组

01:04:12从每个亲本中取一半的DNA或0和1

01:04:15并添加一些突变

01:04:17因此

01:04:18我们翻转一些在重组过程中得到的比特

01:04:20嗯

01:04:21然后我们继续繁殖我们的图结构

01:04:24直到满足某个停止标准

01:04:27这可以基于时间

01:04:28这可能是管理约束的最佳方式

01:04:31或者基于分数

01:04:32或者任何其他标准

01:04:36有典型的标准吗

01:04:39直到你用完时间

01:04:41直到你用完时间会是典型的做法

01:04:44嗯

01:04:44所以这是解决这个局部最优问题的另一种方法

01:04:49我看到几个问题

01:04:50是的

01:04:51嗯

01:04:51你如何强制执行

01:05:15所以

01:05:16假设我们有一个初始矩阵

01:05:18我将让它非常简单

01:05:23我们有

01:05:24清嗓子

01:05:25一个0105

01:05:26假设我们正在复制

01:05:28它需要是

01:05:29啊

01:05:29是的

01:05:30这是一个方阵

01:05:45如果它表示连接性

01:05:47那么每个图结构

01:05:48我们都会有一个矩阵

01:05:49对吧

01:05:50好的

01:05:50那么我们只选取

01:05:52两个可能的附带

01:05:56嗯

01:05:56为了节省时间

01:05:58第二个附带

01:05:59基本上将全部为0

01:06:05好的

01:06:06那么

01:06:07如果我们让这两个矩阵相互繁殖

01:06:10我们将从一个附带中

01:06:11随机选取50%的位置

01:06:14再从另一个附带中

01:06:15选取50%

01:06:18嗯

01:06:18为了让我自己更简单一点

01:06:20我不随机选取

01:06:22而是直接取第一个矩阵的前两行

01:06:25和第二个矩阵的最后两行

01:06:34这样就会产生一个像这样的子带

01:06:37嗯

01:06:38你可以想象

01:06:39你可以用多种方式

01:06:41从不同的矩阵中采样50%

01:06:44但这就是我做的方式

01:06:45你可以持续采样

01:06:47直到你得到一个没有循环的东西

01:06:50是的

01:06:50所以

01:06:51在这个矩阵中

01:06:52基本上每个矩阵中的每个参数

01:06:55都代表了某种缺失

01:06:56比如我

01:06:57嗯

01:06:58你像从1到n横跨列

01:07:07是的

01:07:07所以

01:07:08嗯

01:07:08这只是其中一种编码方式

01:07:11但在这里

01:07:12我们可以这样分配节点

01:07:19那么

01:07:20如果我们有

01:07:21嗯

01:07:21我们拿这个例子来说

01:07:25这意味着有一条边从x2指向x1

01:07:29你可以随意设定方向

01:07:33只要确保自洽即可

01:07:35那么

01:07:36这是否意味着默认情况下

01:07:38它们都必须是单位矩阵

01:07:41因为每个节点都连接到自身

01:07:43比如x1和x1

01:07:45x2和x2

01:07:48我认为实际上默认情况下

01:07:49节点不应该连接到自身

01:07:51因为从技术上讲

01:07:52这会形成一个环

01:07:54哦

01:07:54好的

01:07:56再补充一点

01:07:57你不能让一个节点

01:07:58有x1

01:07:59x2

01:08:00x2

01:08:00x1这样的连接

01:08:02你不能有

01:08:03除非是环形指示器

01:08:05是的

01:08:05你不能拥有那个

01:08:08是否有一个公式

01:08:09可以计算领域的大小

01:08:14那么

01:08:14有多少个图

01:08:17哦

01:08:18好问题

01:08:19我不知道

01:08:19有没有封闭形式的方程

01:08:22嗯

01:08:23你知道有吗

01:08:26啊

01:08:26这取决于你的图操作

01:08:29你可以添加一条边

01:08:30删除或翻转一条边

01:08:34是的

01:08:34所以

01:08:35对于删除或翻转

01:08:37这将基于你当前拥有的边数

01:08:40对于删除

01:08:41你总是可以删除一条边

01:08:43因为

01:08:43这永远不会引入环

01:08:45对于翻转操作

01:08:46你必须检查它

01:08:47不会引入环路

01:08:48同样的

01:08:49对于添加操作

01:08:50你也必须进行同样的检查

01:08:52嗯

01:08:53但在实践中

01:08:54你会便利所有边

01:08:55然后说

01:08:56好吧

01:08:57在所有我没有的边中

01:08:59如果我添加它

01:09:00并且它不形成环路

01:09:02它的分数是多少

01:09:03然后你会跟踪最佳结构

01:09:06和最佳分数

01:09:09我会说

01:09:09从渐进的角度来看

01:09:11它大约是变量数量的指数级

01:09:14是的

01:09:15嗯

01:09:15好的

01:09:16是的

01:09:18所以从技术上讲

01:09:19在图中

01:09:22是的

01:09:22我们会

01:09:24所以更一般的说

01:09:26这就是你定义节点结构

01:09:28或图结构的方式

01:09:30一种算法上检查环路的方法

01:09:33是检查任何给定元素的直接对角线元素

01:09:36是否不应等于它

01:09:37就像在

01:09:38这将是检查简单环路的一种方式

01:09:46但我们可以有更复杂的环路

01:09:48比如我们可以说

01:09:50我们有

01:09:50嗯

01:09:51我们可以有一个看起来像这样的环路

01:09:53对吧

01:09:58嗯

01:09:59我相信我们已经提供了检查循环的代码

01:10:02所以不必太担心如何实现这一点

01:10:04关于实现的另一个注意事项是

01:10:07为了通过项目中的所有测试

01:10:09你不需要对局部搜索进行任何这些修改

01:10:13如果你关注的是最右排行榜

01:10:16这些修改会更有意义

01:10:24那么

01:10:24我们只剩下一个话题要讨论

01:10:27那就是马尔可夫等价

01:10:29我们说两个图是马尔可夫等价的

01:10:32如果他们编码了相同的条件独立性假设

01:10:59这听起来相当复杂

01:11:01但实际上我们只需要检查两点

01:11:04首先我们需要检查

01:11:06它们是否有相同的五项边

01:11:18所以我将给出几个结构来说明这一点

01:11:21假设我们有X1

01:11:22X2和X3

01:11:40所以

01:11:40这些确实有相同的五项边

01:11:42对吧

01:11:46因为我们有X1

01:11:47X3

01:11:48X2

01:11:48X3

01:11:49两者都有

01:11:50然后

01:11:50它们还需要具有相同的不道德V结构

01:12:01所以

01:12:02你会从之前的讲座中

01:12:03回忆起V结构

01:12:05这将是其中一个例子

01:12:08嗯

01:12:08当我说

01:12:09V结构是不道德的时

01:12:11我的意思是

01:12:12嗯

01:12:12这不是我的定义

01:12:14即父母节点之间没有连接

01:12:17所以

01:12:17如果我们想把这个

01:12:19变成一个道德的重结构

01:12:21我们可以那样做

01:12:26嗯

01:12:26或者我们可以那样做

01:12:29但就这个例子而言

01:12:31这是一个不道德的V结构

01:12:34因此

01:12:35由于第二个标准

01:12:36我们会说

01:12:37这两个图不是马尔可夫等价的

01:12:40因为在这个图中

01:12:41我们这里有一个不道德的V结构

01:12:46而在这里

01:12:46我们实际上没有不道德的V结构

01:12:49所以

01:12:50它们不是马尔可夫等价的图

01:12:54完全相同的结构

01:12:55完全相同的V形结构

01:12:57是的

01:12:57那么让我画一个例子

01:13:08好的

01:13:09所以

01:13:10好吧

01:13:15想一个例子

01:13:16有点难

01:13:17实际上

01:13:18我意识到

01:13:19你最终会创建多少个V形结构

01:13:21也许我直接展示

01:13:23为什么这样

01:13:27所以

01:13:27我们有这样的图

01:13:29我们可以说

01:13:30那里有什么

01:13:37嗯

01:13:37实际上

01:13:38我觉得这个可行

01:13:41我们一起讨论一下

01:13:42这将是一个很好的例子

01:13:44所以

01:13:44肯定有相同的无相边

01:13:47然后

01:13:48当我们观察不到德V时

01:13:50我们在两个图中

01:13:51都有这个

01:13:56这里

01:13:57我们有一个链

01:13:58这里

01:13:58我们有一个叉子

01:14:00你是这么叫它的吗

01:14:01一个叉子

01:14:02嗯

01:14:03所以

01:14:03它们有相同的边和相同的不道德V结构

01:14:07所以

01:14:07我们会说

01:14:08这两个图

01:14:09是马尔可夫等价的

01:14:11我们关心

01:14:11马尔可夫等价的原因是

01:14:13马尔可夫等价类的空间

01:14:15比所有图的空间

01:14:17要小得多

01:14:21所以

01:14:21一个选择是搜索这些马尔可夫等价类

01:14:24而不是搜索所有图的空间

01:14:26这在计算上

01:14:27要容易得多

01:14:28我们认为

01:14:29这样做是足够安全的

01:14:31因为它们编码了相同的条件独立性假设

01:14:36嗯

01:14:36但需要指出的是

01:14:38统一马尔可夫等价组中的两个图

01:14:41可能具有不同的分数

01:14:42除非在组内可以有不同的分数

01:14:45呃

01:14:46这是一个卡帕值

01:15:02这在书中是清楚的

01:15:03但那样是不行的

01:15:03这是一个卡帕值

01:15:05嗯

01:15:05除非我们有卡帕值

01:15:07它是对阶求和

01:15:09再对k求和

01:15:10我们先验中的α值

01:15:12αijk是针对所有i的

01:15:21我想说这是一个相当小的注释

01:15:23但值得指出的是

01:15:24马尔可夫等价并不意味着相同的分数

01:15:27但我们假设它是足够接近的

01:15:29因为它编码了相同的独立性假设

01:15:32所以我们可以在这些组上进行搜索

01:15:35而不是在所有图上搜索

01:15:37嗯

01:15:37我看到一个问题

01:15:39是的

01:15:40所以相同的

01:15:41恶不

01:15:41他们是

01:15:44所以

01:15:45马尔可夫等价当且

01:15:47仅当这两个成立

01:15:54所以通过说

01:15:55哦

01:15:56两者都是不道德的

01:15:57或者两者都是

01:16:03所以

01:16:04如果我们观察两个图A和B

01:16:06如果A中存在一个不道德的V结构

01:16:09那么为了使A和B马尔可夫等价

01:16:12这个不道德的V结构

01:16:14也必须存在于B中

01:16:18同样的

01:16:19如果B中存在一个不道德的V结构

01:16:21那么

01:16:22这个不道德的V结构

01:16:23也必须存在于A中

01:16:25因此

01:16:26要使两个图马尔可夫等价

01:16:28每个图中不道德的V结构集合

01:16:30必须相同

01:16:32他们具有相同的道德化

01:16:34哦

01:16:34如果他们具有相同的道德化

01:16:36如果道德化的V结构不同

01:16:37那我们就不关心了

01:16:38嗯

01:16:39让我们看另一个例子

01:16:44假设好的

01:16:59所以

01:16:59他们具有相同的

01:17:01然后如果我们以不同的方式连接附结点

01:17:04我们甚至不需要看N式的

01:17:06我们可以以不同的方式连接附结点

01:17:09这样也可以

01:17:25所以对于道德化的V结构

01:17:27他们可以不同

01:17:28但对于不道德的V结构

01:17:29他们必须完全相同

01:17:31因此

01:17:32如果我们在一个图中连接了附结点

01:17:34而在另一个图中没有连接

01:17:35那么

01:17:36他们就不会是马尔可夫等价的

01:17:38因为这里

01:17:38我们有一个不道德的V结构

01:17:40而另一个图中没有

01:17:41没问题

01:17:43是的

01:17:43关于那个分数

01:17:44当我们推导它时

01:17:46那是从使用映射定义

01:17:48还是MLA中得出的

01:17:50那是从使用

01:17:51搭分布的映射定义中得出的

01:17:56嗯

01:17:57所以你提到

01:17:58我们应该在马尔可夫等价类和图中搜索

01:18:01因为他们在某种程度上相似

01:18:03但我感觉这有点反直较

01:18:06我本想搜索哦

01:18:07是的

01:18:07抱歉

01:18:08我就是这个意思

01:18:15所以问题是

01:18:16我说我们可以在马尔可夫等价类上搜索

01:18:20因为他们编码了相同的条件独立性假设

01:18:24因此

01:18:25我们的搜索空间将是所有不同的等价类

01:18:28而不是不同的图

01:18:30所以我们说

01:18:31实际上

01:18:32我们不需要

01:18:33查看一个马尔可夫等价组内的两个图

01:18:36因为他们编码了相同的条件独立性假设

01:18:41嗯

01:18:41我认为在等价类上搜索

01:18:44可能有点难以实现

01:18:45尽管你绝对应该尝试一下

01:18:48但为了项目目的

01:18:49我没有这样做

01:18:50而且

01:18:51这已经足够了

01:18:52在图空间中

01:18:53还有很多优化可以做

01:18:56嗯

01:18:57注意时间

01:18:58我想

01:18:59我们只能再回答一个问题了

01:19:08或者是针对所有

01:19:09还是只是硬式的

01:19:16所以这是针对组内的图

01:19:18嗯

01:19:19我相当确定

01:19:20如果让α值都为1

01:19:22就可以实现这一点

01:19:24因为他们都会有相同的边

01:19:28哦

01:19:28实际上他们不一定有相同数量的负解点

01:19:31是的

01:19:31你需要组内的总和是恒定的

01:19:34嗯

01:19:35书里给出了一些例子

01:19:37是的

01:19:38书里给出了一些例子

01:19:40好的

01:19:40嗯

01:19:41我想我们时间到了

01:19:42如果还有更多问题

01:19:43我们很乐意在办公室间提供帮助

01:19:45非常感谢大家

01:19:47请不吝点赞

01:19:48请不吝点赞

01:19:48感谢观看

(中配)斯坦福AA228不确定性决策 | 2025秋季 | 贝叶斯结构学习

类别

文字稿

评论

推荐视频