- 5天前
类别
🗞
新闻消息文字稿
00:00:05我是阿米利亚
00:00:07我是2023年这门课的学生
00:00:10去年2024年,我担任了首席助教
00:00:13我现在是一名博士生
00:00:15今天我将继续我们关于贝业司网络的讨论
00:00:20那么,在开始之前
00:00:22我们先简要回顾一下一程和一些资源
00:00:24我们将从复习开始
00:00:27然后,我们将讨论参数学习
00:00:29接着是结构学习
00:00:31在这门课程中,我们正在逐步放宽假设
00:00:36所以,当我们开始研究贝业司网络时
00:00:38我们假设参数和结构都是已知的
00:00:42然后,我们放宽了参数已知的假设
00:00:44并从数据中学习它们
00:00:46我们放宽了结构已知的假设
00:00:48并从数据中学习结构
00:00:50最终,我们可以从数据中学到一切
00:00:55因此,这里有一些可能有用的资源
00:00:58嗯,有一本教材叫决策算法
00:01:01这将与课程内容最为贴近
00:01:05我还会在讲义中写下与课程内容相对应的章节
00:01:09标题
00:01:11如果你想更深入地了解贝业司网络或其他图模型
00:01:15我强烈推荐COLOR和Friedman的教材
00:01:18嗯,Jack的课程笔记
00:01:19你可以在詹谷卡.com这个网址找到
00:01:21它也是对美杰克最重要主题的一个很好的总结
00:01:23这些笔记稍后也会在ED上分享
00:01:31最后,特别是对于项目一
00:01:33到今天课程结束时
00:01:35你会获得所有需要的信息
00:01:37我强烈建议你查看课程网站上项目一页面的视
00:01:41频
00:01:42以获取关于从哪里开始的提示
00:01:45那么,我们来简要回顾一下贝业司网络
00:01:49为什么,它们是我们想要研究的东西?
00:01:52贝业司网络的力量在于
00:01:54它通过编码条件独立性假设
00:01:57紧凑地表示了联合分布
00:02:00我将给出一个例子
00:02:02以便我们能更仔细地看看
00:02:04这意味着什么
00:02:06这里,我们有三个二元变量和X3
00:02:16它们将代表是否在下雨
00:02:24我是否穿着雨靴
00:02:25以及我是否携带雨伞
00:02:27当我们说贝业司网络编码了条件独立性假设时
00:02:32我们需要回顾条件独立性的定义
00:02:43我们说X在给定基的条件下独立于Y
00:02:46当且仅当给定基时X和Y的概率
00:02:50等于给定基时X的概率乘以给定基时Y的概率
00:03:05换句话说,我们可以这样理解
00:03:08一旦我知道了Z
00:03:09知道X并不会给我关于Y的更多信息
00:03:14我们可以看看这如何在这个图中编码
00:03:17因此,这是一种连接节点的方式
00:03:21使得雨靴和雨伞在给定下雨的条件下是条件独
00:03:25立的
00:03:27这是合理的
00:03:29一旦我知道在下雨
00:03:30知道我带着雨伞
00:03:32可能不会给我关于我是否穿着雨靴的更多信息
00:03:36然而,如果我没有任何关于是否下雨的信息
00:03:40并且我想知道我是否穿着雨靴
00:03:43那么,我是否带着雨伞将是一个有用的信息
00:03:48现在我将给你一些
00:03:49我们将贯穿整个讲座使用的符号
00:03:52然后我们将进入新内容
00:03:54首先,我们有从1到n的x
00:03:57这些是贝叶斯网络中的离散随机变量
00:04:00在这个例子中,n等于3
00:04:12我们有三个随机变量
00:04:162自i是节点x自i的可能实力化数量
00:04:20而实力化就是该节点可以取的值
00:04:30由于这些是二元变量
00:04:31每个变量都有两个可能的实力化
00:04:39然后,我们有q自i
00:04:40这将是x自i的负解点数量
00:04:57我会再举一个例子来说明
00:05:00这意味着什么
00:05:01以及我们如何找到这个数字
00:05:04所以,现在假设我们有这个网络
00:05:06我们有x4和x6
00:05:15而x4和x5是x6的负解点
00:05:20x4和x5都没有任何负解点
00:05:23所以,当这种情况成立时
00:05:25我们说趋势
00:05:26那么我们会说q4等于q5等于1
00:05:41清了清嗓子
00:05:42如果我们确实有负解点
00:05:44那么qi值将是这些负解点的二值的乘积
00:05:50所以,在这个例子中
00:05:51q6等于R4乘以R5
00:05:57我们仍然在处理二元变量
00:05:59所以这将是
00:06:00我们还有一个最后的符号
00:06:02那就是πj
00:06:03这是xi的负解点的负解点实力化
00:06:07就是xi的负解点实力化
00:06:09那么,如果我们看看
00:06:11这里可能的不同负解点实力化
00:06:14我们有x4和x5
00:06:40我们会说
00:06:41他们可能都是1
00:06:46一个可能是1
00:06:47另一个可能是2
00:06:49然后两个都可能是2
00:06:51所以这里有四种情况
00:06:52所以,如果我们有π63
00:06:54那将是这一行
00:07:00这是节点6的第三个负解点实力化
00:07:04嗯,是的
00:07:06你写出来的顺序交换了
00:07:08这实际上有关系吗?
00:07:15你只需要确保
00:07:16以一致的方式存储它
00:07:18所以,只要你每次都能
00:07:20以相同的方式进行映射
00:07:22就没有对错之分
00:07:25你想重复这个问题吗?
00:07:27是的
00:07:28重复这个问题
00:07:29就是我们在这里
00:07:30用于j和πj的索引
00:07:32取决于我们在这个表中
00:07:34如何对形进行排序
00:07:37我们应该使用特定的排序方式吗?
00:07:40同样,答案是否定的
00:07:42你只需要确保映射方式一致
00:07:44这样你总是得到相同的结果
00:07:46但你可以用任何对你来说最合理的方式来做
00:07:57好的
00:07:58那么,在我们迄今为止所做的工作中
00:08:01参数学习
00:08:02我们假设网络的参数是已知的
00:08:05并且,我们使用它来做
00:08:07让我们再看一下
00:08:09我们已有的这个例子
00:08:10我将谈谈参数的含义
00:08:15所以,我们有下雨
00:08:16穿靴子和带伞
00:08:28在这个例子中
00:08:30我们假设图结构
00:08:31我们说,我们的参数
00:08:33φjk是给定πj10
00:08:36xi等于k的概率
00:08:54它们最终将是i从1到n的RI型号t的总和
00:08:58总参数
00:09:06所以,每个负节点实力化和节点实力化
00:09:10对应一个参数
00:09:11然后其中
00:09:12i从1到n的RI型号t将是独立参数
00:09:32现在,为什么参数是我们想要学习的东西
00:09:35让我们举一个例子
00:09:38所以,我们将取φ3
00:09:43我们看节点3
00:09:44第二个负节点实力化和第二个节点实力化
00:09:52所以,在这种情况下
00:09:54为了与书中的符号保持一致
00:09:57我将真和假编码为1和2
00:09:59而不是0和1
00:10:01所以,在这种情况下
00:10:03这个参数表示
00:10:04在下雨的情况下
00:10:06我带伞的概率
00:10:07如果这个参数是0
00:10:09我们可以看到
00:10:10基于我们对世界的直觉
00:10:12这可能不是一个很好的模型
00:10:15同样
00:10:16我个人经常丢伞
00:10:33实际上
00:10:33在这个教室里多次
00:10:35因此
00:10:36让它成为1也不太适合数据
00:10:42我们如何找到适合的参数
00:10:44我们将讨论两种不同的选择
00:10:49第一种是最大自然估计
00:11:08正如在之前的课程或讲座中
00:11:10我们寻找φ3
00:11:12即在给定这些参数下
00:11:14最大化我们观测数据概率的最佳参数
00:11:27对于将其扩展到贝叶斯网络
00:11:30我们只需对此做一个更改
00:11:34它还将给定我们的图结构G
00:11:36我们假设这是已知的
00:11:41在解决这个问题之前
00:11:43我们需要多一个符号
00:11:44即MIJK
00:11:46它表示
00:11:47在我们的观测数据中
00:11:49给定复节点实力化J
00:11:5111等于K的次数
00:12:15因此我们可以用这个成绩写出给定参数
00:12:19φ和结构G的整个数据集的概率
00:12:22它将是I从1到N的成绩
00:12:25J从1到G
00:12:26结点I的负结点实力化数量
00:12:29然后K从1到R
00:12:30结点φIJK的数量
00:12:33的φIJK的MIJK次方
00:12:35我将花点时间解释这个公式的来源
00:12:59因此我们假设数据集中的所有样本都是独立的
00:13:04那么如果我们想找到整个数据集的概率
00:13:07我们可以取每个样本概率的成绩
00:13:11正如我们之前展示的
00:13:13我们使用参数来表示给定结点
00:13:15直在负结点实力化下的可能性
00:13:22因此
00:13:22如果我们观察到
00:13:24x11出现两次
00:13:25那么在成绩中
00:13:27就会有两次
00:13:28θ值θ1111
00:13:37所以
00:13:37这将是二次方
00:13:38也就是我们在数据中观察到它的次数
00:13:41基本上
00:13:42这给了我们一种稍微更紧凑的方式来表示
00:13:46将代表每个数据点可能性的参数相乘
00:13:50如果我们对这个式子求导
00:13:52并找到概率最大的地方
00:13:54就能得到我们的最优参数
00:13:56θ hatIJ
00:13:57它是所有K的MIJK之和
00:14:11这里K便利节点
00:14:13I所有可能的取值
00:14:19所以
00:14:20如果我们使用最大自然估计
00:14:22这些就是我们的最佳参数
00:14:24但仅仅看这个公式
00:14:26有人能看出
00:14:28这种方法
00:14:29有什么潜在缺点吗
00:14:32提问
00:14:33那么
00:14:33J和K代表什么
00:14:37是的
00:14:38好问题
00:14:39嗯
00:14:39这是我学习材料时
00:14:41觉得最棘手的事情之一
00:14:44在整个讲座中
00:14:45我们将使用带有三个位置的索引
00:14:48第一个位置
00:14:49始终是我们正在引用的节点
00:14:52嗯
00:14:52所以
00:14:53如果我们看这个图
00:14:55并且我们有或者假设是M2
00:14:57那么我们有一个负节点
00:14:59这将指的是这里的这个节点
00:15:03第二个索引是哪个负节点实力化
00:15:06所以
00:15:07如果是M21
00:15:08这是第一个实力化
00:15:09并且
00:15:10由于我们只有一个负节点
00:15:12这将是负节点取其第一个值
00:15:14然后第三个索引指的是
00:15:17节点正在取的值
00:15:19所以
00:15:20M212
00:15:21将是节点X2的第一个负节点实力化
00:15:24和第二个节点实力化
00:15:29所以
00:15:29在这种情况下
00:15:31我们使用二进制编码
00:15:33这将是我在没有下雨时穿靴子的次数
00:15:36这里表示
00:15:37穿靴子
00:15:38且没有下雨
00:15:41然后
00:15:42这是我们在谈论的节点
00:15:47第一个负节点
00:15:48不一定是X1
00:15:50对吧
00:15:51所以
00:15:52如果有像X5
00:15:53X6这样的
00:15:54它会是
00:15:55嗯
00:15:55你是说
00:15:56有两个负节点
00:15:57所以
00:15:58如果我们有像X5这样的节点
00:16:00嗯
00:16:00我的意思是
00:16:01看起来好像
00:16:02哦
00:16:03我明白
00:16:04你的意思了
00:16:05是的
00:16:05所以
00:16:06因为这个图中
00:16:07只有一个负节点
00:16:09两个可能的负节点实力化
00:16:11也就是对于那个节点
00:16:13RI等于2
00:16:14会是1和2
00:16:15因为它是2元的
00:16:19嗯
00:16:20但让我想想能不能举一个
00:16:21不那么令人困惑的例子
00:16:23我们可以
00:16:24我想
00:16:30哦
00:16:30我明白
00:16:31你的意思了
00:16:31不
00:16:32所以
00:16:33如果有两个负节点
00:16:34X5和X6
00:16:36我们有像这样的东西
00:16:37那么
00:16:38当我们看所有可能的负节点实力化时
00:16:41我们是在看
00:16:42它们可能取值的成绩
00:16:44也就是迪卡尔基
00:16:47所以
00:16:48如果它们是2元的
00:16:49我们会有12122
00:16:53嗯
00:16:53正如我之前提到的
00:16:55你在那个表中排列它们的顺序并不重要
00:16:57你只需要保持一致即可
00:16:59那么首先就是这一行
00:17:01它们都是
00:17:08这就是我们如何通过最大自然估计得到参数的方法
00:17:13嗯
00:17:13是的
00:17:20是的
00:17:20当然
00:17:21还有就是
00:17:22对
00:17:25当你说每个数字的含义时
00:17:27你指的是这里的定义还是另一页上的
00:17:31不
00:17:32我们有一个带下标债的相同问题
00:17:36我想我有点迷糊了
00:17:38在那里很容易迷糊
00:17:39让我再写一遍
00:17:41所以
00:17:41M.I.J.我们这里有的是一节点
00:17:44带有这幅实力化和K.F.节点实力化
00:18:16所以
00:18:17这些索引表示我们当前在哪个节点
00:18:20它的负节点值是什么
00:18:21以及那个值是什么
00:18:24是的
00:18:24没问题
00:18:27我再回答一个问题就继续
00:18:29好的
00:18:30所以实力化
00:18:31清嗓子
00:18:32就是一组值
00:18:35是的
00:18:35对于节点本身
00:18:37它是一个单一值
00:18:38而对于负节点或负节点们
00:18:40它是一个集合
00:18:42如果没有负节点
00:18:44我们通常将其视为一个值
00:18:56看看这个带有M.I.J.K.的公式
00:18:59它来自我们观察到的数据集
00:19:04最大自然估计可能较弱的一个地方是
00:19:07世界上可能发生的一些事情
00:19:09我们在数据集中根本没有观察到
00:19:14例如
00:19:15假设我收集了一周下雨时的数据
00:19:17但那周我丢了雨伞
00:19:22所以我们将得到零技术
00:19:23表示下雨时我没有带伞
00:19:26在这里我们会发现参数化的最优方式是说下雨时我
00:19:29带伞的概率为0%
00:19:30但根据我们的先验知识
00:19:31直觉上我们知道这可能不是一个很好的模型
00:19:33因此我们可用的另一种方法
00:19:36可以解决其中一些限制
00:19:38是贝叶斯参数学习
00:20:08与MV不同
00:20:10我们寻找的试点估计
00:20:12即θ hat
00:20:13是给定θ下数据概率的最大值
00:20:30在贝叶斯参数学习中
00:20:32我们寻找的是给定数据及下参数θ的可能性
00:20:41因此我们实际上是在推断一个分布
00:20:44然后为了找到最佳参数
00:20:46我们称最优参数θ hat
00:20:49为给定数据及下这些参数的可能性
00:21:04我们也将此称为最大后焰估计或map估计
00:21:23当我们将其应用于贝叶斯网络时
00:21:26我们考虑的是给定某个图结构
00:21:29G下参数θ的可能性
00:21:31我们仍然假设G是已知的
00:21:39这里θ代表我们网络中的所有参数
00:21:42这只是书写上的简洁方式
00:21:53这个概率将是i等于1到n的乘积
00:22:00所以是针对所有节点
00:22:02以及g等于1到g
00:22:07所以是针对所有负节点的实力化
00:22:10p of θ j
00:22:11当我说θ j时
00:22:13我指的是这个向量
00:22:19所以θ j是θ j1到θ jn
00:22:28因此对于i节点和g-节点实力化
00:22:32我们在这个向量中为节点可以取得每个实力化有一个元
00:22:37素
00:22:41并且我们能够假设这个概率取自一个迪利克雷分布
00:23:03所以你会从上一讲中回忆起
00:23:06我们迪利克雷分布中的这些alpha式微技术
00:23:10实际上在继续之前
00:23:12我将简要回顾一下关于迪利克雷分布的更多内容
00:23:22哦 是的
00:23:37所以迪利克雷分布将β分布推广到任意数量的类
00:23:42别
00:23:45它由我们的alpha参数化
00:23:47这些alpha式微技术
00:23:50当我们观察到新数据时
00:23:52我们只需更新技术
00:24:07所以在我们将这些技术相加之后
00:24:09在我们的迪利克雷分布中
00:24:12参数的四冉
00:24:14接下来
00:24:15再来
00:24:17制作人
00:24:17不 noted
00:24:18感谢观看
00:24:47为了符号的简洁
00:24:49我将直接写φ从1到n给定α从1到n等于φ给
00:24:55定α的迪利克雷分布
00:25:06这将与所有n个参数φ的密次减1的乘积乘比例
00:25:26我说成比例而不是相等
00:25:28是因为我们缺少一个规矣化常数
00:25:31需要确保这些概率之和为1
00:25:36这只需要用到你们在上节课会回忆起来的γ函数
00:25:42所以这个常数会是这样的形式
00:25:45我们有γ函数α0除以从i等于1到n的γ函数
00:25:50αi的乘积
00:25:51然后就是这个规矣化常数乘以我们最初得到的成绩
00:26:06嗯
00:26:06我看到这边有个问题
00:26:09是的
00:26:09我只是好奇最后一个的计法会是什么样子
00:26:13看看某个节点11和负节点实力化绝
00:26:16然后对于节点可以取得每个实力化
00:26:19我们有一个参数
00:26:20θ
00:26:42而对于节点i有re种可能的实力化
00:26:47哦
00:26:47所以是mue sub
00:26:51是的
00:26:51就是r sub
00:26:54对
00:26:54嗯
00:26:55是的
00:26:56还有一个问题
00:27:00抱歉
00:27:01您能重复一遍吗
00:27:04是的
00:27:04那些是先验
00:27:05所以那些是
00:27:06正如之前
00:27:07清了清嗓子
00:27:09嗯
00:27:09伪技术越高
00:27:10我们就越有信心
00:27:19所以给定阶梯分布
00:27:21当我们根据我们的图取参数的四燃时
00:27:24我们看的是
00:27:25给定我们的伪技术alpha g的φ四燃
00:27:28那将是先验
00:27:30而mate是我们的数据集
00:27:32我们只是统计
00:27:33我们在数据中观察到事物的频率
00:27:36并且我们说
00:27:37对于节点i
00:27:38每个r sub
00:27:39或节点可以取得值
00:27:41都有一个参数
00:27:42并且有sub
00:27:44这样的值
00:27:44对于
00:28:21我将给你一个我们如何实际计算这些参数的例子
00:28:25因为它比我们看β10要复杂一些
00:28:29所以假设我们再次处理二元变量
00:28:32并且我们有这个图结构
00:28:38我们有x3和x4
00:28:40它们是x5的负解点
00:28:48现在每个节点的参数数量取决于节点实力化和负
00:28:53解点实力化的数量
00:28:55我们可以将参数存储在矩阵中
00:28:57所以首先我们将为x3做矩阵
00:29:01这将有q3行
00:29:05因此由于它没有负解点
00:29:08我们说它有一个负解点实力化
00:29:13然后它将有r3列
00:29:16因此
00:29:17节点实力化的数量
00:29:19节点可以取两个值
00:29:20我们将有一个相同形状的矩阵
00:29:23来保存x4的参数
00:29:26所以q4
00:29:27我们有一个负解点实力化
00:29:29因为我们有零个负解点
00:29:31而r4
00:29:32我们有两个可能的节点实力化
00:29:35因为它是二元的
00:29:36然后情况稍微复杂一点的是x5
00:29:44那么现在
00:29:45由于我们有两个二元负解点
00:29:47我们将有多少个负解点实力化
00:29:524个
00:29:53因此
00:29:53我们只是取r3型号r4作为q5
00:30:02所以这个矩阵将有四行
00:30:04然后再次
00:30:05节点本身是二元的
00:30:07所以
00:30:07r5是2
00:30:13你能像r3那样写下来吗
00:30:15r3等于1吗
00:30:17是的
00:30:17接着
00:30:18所以r3是2
00:30:19r4是2
00:30:20r5是2
00:30:23q3是1
00:30:25q4也是
00:30:26因为它们都没有负解点
00:30:28而q5是4
00:30:29因为我们有两个二进制负解点
00:30:33如果我们假设一个均匀纤艳
00:30:35我们可以用意填充所有这些矩阵
00:30:44然后我们将观察
00:30:45如果出现一些新数据会发生什么
00:30:49那么
00:30:50我们如何用观察到的技术
00:30:52来更新我们的伪技术呢
00:30:59假设我们在这个表格中做了这些观察
00:31:08我将从x3和x4开始
00:31:10因为它们更容易理解
00:31:12对于这里的x3
00:31:14我们观察到它取值为1的一次实力
00:31:18再次说明
00:31:18你可以按照任何对你有意义的方式来排列矩阵的裂合
00:31:21型
00:31:22你只需要保持一致性
00:31:24但我会这样排列
00:31:25第一列对应值1
00:31:27第二列对应节点2的实力化
00:31:35所以我们有x3等于1
00:31:38因此
00:31:38我们将第一列和第一行的技术增加1
00:31:44我们将对x4应用同样的操作
00:31:47只是我们观察到它取值为2
00:31:50所以
00:31:50我们增加第二列的技术
00:31:54事情变得稍微复杂一点的地方
00:31:56在于我们将如何处理x5
00:31:59我们观察到x5是1
00:32:01所以
00:32:01我们知道
00:32:03我们位于这第一列
00:32:05同样
00:32:06你可以选择按负实力化队形进行排序
00:32:09只要你觉得合理
00:32:11但我将展示我的做法
00:32:12因此
00:32:13当我们查看表格时
00:32:15我们有负实力化1
00:32:172
00:32:23这时我们位于第二行和第一列
00:32:27因此
00:32:27我们将该技术增加1
00:32:31我们可以做
00:32:32嗯
00:32:33是的
00:32:39嗯
00:32:39你是说我在
00:32:40是的
00:32:43以及你之前拥有的公式
00:32:45这个公式
00:32:48第四个
00:32:49就在这里
00:32:49是的
00:32:50是的
00:32:50好的
00:32:50当然
00:32:52那么
00:32:52嗯
00:32:53我们的θ这参数
00:32:55代表了一个结果上的分布
00:32:58我觉得
00:32:59把它想象成质头字
00:33:01对我来说更直观一些
00:33:04所以
00:33:04以质头字为例
00:33:06假设我们只有一个变量
00:33:08它代表一个头字
00:33:13头字有六个面
00:33:15所以
00:33:15它可能有六种不同的曲值
00:33:18这些曲值
00:33:19就是
00:33:191
00:33:192
00:33:203
00:33:204
00:33:215
00:33:226
00:33:25嗯
00:33:25清了清嗓子
00:33:26也许我们认为
00:33:27它很可能是一个公平的头字
00:33:29所以
00:33:29我们一开始
00:33:31让θ参数
00:33:32代表一个均匀分布
00:33:35所以
00:33:36这些参数都将为16
00:33:45然后根据我们的观察
00:33:46我们想推断
00:33:48这些参数的可能性有多大
00:33:51这样做的动机是
00:33:53在未来
00:33:54我们可以说
00:33:55这个θ
00:33:56是否是我们可能观察到的数据的良好模型
00:34:00比如
00:34:01如果你在赌这个头字的点数
00:34:02你会想要一个与之非常匹配的θ
00:34:05嗯
00:34:05所以我们
00:34:06可以从参数均匀分布的dith分布开始
00:34:12所以
00:34:13假设我们的α
00:34:14都设为2
00:34:15这代表了对投资公平性的弱智信度
00:34:27然后
00:34:28我们观察到一些数据
00:34:29所以
00:34:30如果我们仅仅基于这些数据
00:34:32计算θ的dith自然
00:34:34它可能会相当高
00:34:38不会是99%那么高
00:34:40因为我们不是非常确信
00:34:42但会相当高
00:34:43然后
00:34:43假设我这投资100次
00:34:45只得到一个1
00:34:48所以
00:34:49我将增加这个伪计数
00:34:51我们有α1加上m1
00:34:54现在我们的分布参数非常不同
00:34:59所以
00:35:00如果我们再次使用这些参数
00:35:02来计算θ的四然
00:35:04我们会发现
00:35:05θ
00:35:05准确表示数据的可能性
00:35:07要小得多
00:35:14好的
00:35:14是的
00:35:15没问题
00:35:17对
00:35:18所以
00:35:18当我们有2到20
00:35:20就像我们只制了一次头子
00:35:22对吧
00:35:25222是我们的鲜艳
00:35:27所以
00:35:27我们根本没有制头子
00:35:28我们可以根据我们相信的真相
00:35:31以及我们的信心程度
00:35:32以任何我们想要的方式
00:35:34设置这个鲜艳
00:35:35所以
00:35:36如果我们相信
00:35:37嗯
00:35:38我们可能比其他任何数字
00:35:40更有可能得到1
00:35:41我们可能会有一个像这样的鲜艳α
00:35:47也许我们有5个
00:35:48然后其他都是2
00:35:541
00:35:55如果我们制出1
00:35:56而第一个
00:35:58你必须加1
00:36:00然后
00:36:01我们就在那个基础上加1
00:36:03正是如此
00:36:04所以
00:36:05我们现在
00:36:06会有3个
00:36:0622
00:36:072个22
00:36:08因此
00:36:09我们可以看到
00:36:10尽管我们在数据中实际观察到的
00:36:13只是制出1
00:36:14它仍然会与我们拥有的那个均匀分布的θ
00:36:17相当吻合
00:36:19是的
00:36:20所以
00:36:21在这种情况下
00:36:22一个均匀鲜艳
00:36:23对于我们的所有情况来说
00:36:25只是边界
00:36:27好问题
00:36:29好的
00:36:29我认为
00:36:30关于德尔塔和贝塔分布最酷的事情之一是
00:36:33我们不仅可以表达我们预期的分布形状
00:36:36还可以表达置信度
00:36:41因此
00:36:42我们可以用一个具有任何置信水平的均匀分布来表示鲜
00:36:46艳
00:36:47嗯
00:36:47比如我们从这样一个分布开始
00:36:50我们的置信度是
00:36:52然后我们置了一次1
00:36:58所以
00:36:59现在我们这里有一个4
00:37:00这将比我们有一个强鲜艳
00:37:03其中所有值都是100
00:37:04然后置两次
00:37:06产生更大的影响
00:37:09所以
00:37:10你可以有很多均匀分布
00:37:12其鲜艳参数的大小表示
00:37:22好的
00:37:22这就是德尔分布
00:37:24我们稍后再进入结构学习时
00:37:27会再次看到它
00:37:32所以
00:37:32为了从我们的数据中学习结构
00:37:35我们需要一种方法来评估它们
00:37:43我们希望有一个合理的客观衡量标准
00:37:46让我们可以说
00:37:47某个图结构比另一个更适合数据
00:37:53让我们再看一遍我们的降雨例子
00:38:09所以
00:38:09我目前的结构是
00:38:11这些节点是完全不相连的
00:38:14这意味着
00:38:15它们彼此完全独立
00:38:18它们之间没有概率关系
00:38:22基于我们对雨
00:38:23雨伞和雨靴的鲜艳知识
00:38:24我们知道
00:38:25这可能不是一个很好的模型
00:38:27我们希望能够对它进行评分
00:38:30这样
00:38:30如果它得到我们寻找的东西的支持
00:38:33它就会更好
00:38:35换句话说
00:38:36我们寻找的是在给定观测数据集的情况
00:38:39下图的概率
00:38:47从贝叶斯规则来看
00:38:49我们可以看到
00:38:50这将雨图的概率乘以
00:38:52给定图的数据概率成正比
00:38:57使用全概率定律
00:38:58我们可以看到
00:39:00这等于对所有可能的θ进行积分
00:39:03嗯
00:39:03这应该在外面
00:39:08它等于图的概率乘以对θ的积分
00:39:12积分内容是θ的概率
00:39:14和给定图的θ的概率dθ
00:39:17所以
00:39:18我只是写出
00:39:19我们如何执行每一步
00:39:20贝叶斯规则
00:39:22全概率定律
00:39:23然后最后
00:39:24我们应用链式法则
00:39:26我们将得到图的概率
00:39:27乘以对θ的积分
00:39:29积分内容
00:39:30是给定θ
00:39:31和我们的图结构的数据集的的概率
00:39:34乘以给定图结构的θ的
00:39:36肆然度dθ
00:39:37az 还有
00:40:07好的
00:40:12所以我们遵循与之前相同的假设
00:40:15即遵循迪克雷分布
00:40:17我们能够写出给定数据的图的概率
00:40:20是图的概率乘以这个i等于1到n
00:40:35所以这是对节点的求和
00:40:37然后j等于1到t对节点i的负节点实力化求和
00:40:41γ函数αj0除以γ函数αj0加μj0
00:40:47这些只是对所有i和a的α
00:40:49以及所有i和j的m的求和
00:41:15然后这将乘以从k等于1到re的γαjk加μj
00:41:20k除以γαjk的成绩
00:41:35现在为什么我们能这样写
00:41:38嗯
00:41:38答案是一个两页的推导
00:41:40你可以在教科书的参考文献中找到
00:41:42而且你不需要知道
00:41:45嗯
00:41:45但如果你好奇的话
00:41:46它确实存在
00:41:48而且确实有
00:41:53是的
00:41:54所以我正想说
00:41:55我们只需要再进行一步
00:41:57就能把它变成你在项目一中要使用的格式
00:42:00嗯
00:42:00不过别担心推导过程
00:42:02嗯
00:42:03是的
00:42:03好的
00:42:04这是个很简单的问题
00:42:05但b规则里还有一个关于d的概率的项
00:42:09这是否意味着
00:42:10假设一个正数据就变成1了
00:42:13不
00:42:13它不会变成1
00:42:15嗯
00:42:15这就是为什么我们说成正比而不是等于
00:42:19哦
00:42:20明白了
00:42:21所以
00:42:22它会是除以某个值
00:42:24是的
00:42:24所以
00:42:25如果我们只是用b规则把它写出来
00:42:28嗯
00:42:28我们会得到这个
00:42:40我们之所以可以接受使用于某个量成正比的东西
00:42:44是因为我们只关心最大化它
00:42:48所以
00:42:48如果我们知道左右两边是成正比的
00:42:51即使它们不相等
00:42:53最大化右边的项仍然会最大化左边的项
00:42:57所以
00:42:58我们在进行优化时
00:43:00只是省略了那个项
00:43:02但你说的对
00:43:03这确实会涉及到相率
00:43:08好的
00:43:09因此
00:43:10我们采取的最后一步是为了稳定性而应用对数技
00:43:14巧
00:43:15嗯
00:43:16如你所见
00:43:17我们开始将许多非常小的概率相成
00:43:20为了避免相成
00:43:21清了清嗓子
00:43:23我们将取对数
00:43:24这样就可以将它们相加
00:43:30因此
00:43:31我们得到了图的对数概率
00:43:33然后是对之前那些伽马函数比率的对数进行的大求
00:43:37和
00:43:58即伽马Alpha-J0除以伽马Alpha-J0加上M
00:44:02ate-Zero
00:44:05嗯
00:44:05关于产品项目
00:44:07我给你一个建议
00:44:08我强烈推荐你从实现评分开始
00:44:11我们给你一个例子
00:44:13让你可以检查你的评分实现是否正确
00:44:16这绝对是你开始的最佳位置
00:44:19然后你再继续搜索图结构以最大化评分
00:44:30哎呀
00:44:31我们在这里的计算速度有点快
00:44:33但这是相同的比率
00:44:35只是在一个求和内部
00:44:37关于这一点
00:44:38还有几点说明适用于你的项目
00:44:43通常我们并不知道什么样的图结构是最优的
00:44:47因此
00:44:47在这种情况下
00:44:49我们可以使用PFG Dropout
00:44:51而无需担心它
00:44:53有时存在这样的情况
00:44:55我们知道某条特定的边必须在图中
00:44:58或者永远不能在图中
00:45:00因此
00:45:01在这些情况下
00:45:02我们可以说
00:45:03如果我们得到一个包含这条概率为0的边的图
00:45:07那么
00:45:08所有其他图的概率将是均匀分布的
00:45:11在实际操作中
00:45:12另一种实现方式是
00:45:14你可以通过规定永远不添加被禁止的边
00:45:17或者总是添加并保留所需的边
00:45:20来强制执行约束
00:45:22这样你就不需要在复制时计算PG
00:45:25这就是你处理图自然信念的方法
00:45:30是的
00:45:30我看到在双求和之后是开放的
00:45:37那个括号就在那里闭合了
00:45:39好的
00:45:40对于作业
00:45:41务必小心谨慎
00:45:44好的
00:45:47说说对数函数
00:45:49哦
00:45:50呃
00:45:50关于对数干嘛函数
00:45:52有件事想说
00:45:57所以
00:45:57计算干嘛函数
00:45:59记得它是阶层
00:46:01我们不想
00:46:02计算那些阶层
00:46:03因为阶层增长极快
00:46:06但计算对数干嘛函数我们可以做到
00:46:09而且它是内置函数
00:46:12是的
00:46:12包括Juia语言
00:46:16所以请在你的项目中使用它
00:46:22现在
00:46:22当我们优化这个分数时
00:46:24发生了一件很酷的事情
00:46:26那就是它平衡了模型复杂度和数据量
00:46:30我要画一下图5.3
00:46:32你可以在书中找到
00:46:34但基本上我们看的是Y轴上的贝叶丝值
00:46:38及这里的这个量相对于真实的网络结构
00:47:01所以
00:47:01在这里我们有0
00:47:03如果贝叶丝分数相对于真实网络为0
00:47:06这意味着分数相同
00:47:08然后分数开始变为负值
00:47:11因此
00:47:12这里下方显示的是
00:47:14我们比真实结构的分数差多少
00:47:18而言Y轴是我们数据集中的样本数量
00:47:24所以是0
00:47:2515和20
00:47:33我将使用粉色来表示一个完全不连通的图
00:47:41因此
00:47:42因此我们会看到这条相对分数曲线是这样的
00:47:46所以在开始时
00:47:48当我们数据不多时
00:47:49一个完全不连通的图实际上比真实图得到更高的分
00:47:54数
00:47:55随着数据量的增加
00:47:57我们因没有建模任何东西而受到越来越重的惩罚
00:48:11这是完全不连通的
00:48:18然后我们也会看完全连通的
00:48:21如果我们的图是完全连通的
00:48:23一开始我们的表现会更差
00:48:26我们因为拥有比基于数据能建模的复杂度更高的结
00:48:30构而受到惩罚
00:48:32然后情况趋于平稳
00:48:35所以最终
00:48:36如果我们有足够的数据
00:48:38完全连通的图会优于完全不连通的图
00:48:41尽管我们当然希望找到尽可能接近真实结构的东西
00:48:48所以这两种都不是最优的
00:48:50前排的
00:48:51是的
00:48:52请讲
00:48:55好问题
00:48:56因为贝叶斯分数的工作方式
00:48:58如果我们没有很多数据
00:49:00意味着有很多参数
00:49:02我们没有足够的技术
00:49:04我们的很多MIJ都是零
00:49:06嗯
00:49:07它的表现就不好
00:49:10所以在小数据集中
00:49:12我们可能没有观察到真实结构所建模的所有关系
00:49:17所以在一定量的数据下
00:49:19我们通过建模为完全不连通的图表现会好一点
00:49:23然后一旦我们有更多数据
00:49:25表现又会下降
00:49:27是的
00:49:27嗯
00:49:28是的
00:49:29嗯
00:49:29我刚才问的是网络本身的结构
00:49:45所以当你说鲜艳分布时
00:49:46你指的是所有图上的鲜艳吗
00:49:49好的
00:49:49嗯
00:49:50那会是这个正在被舍弃的PFG项
00:50:06所以通常就在这里
00:50:08数学上它并没有被舍弃
00:50:10但如果你没有鲜艳
00:50:11在计算分数时可以直接忽略它
00:50:14一个希望不会太明显提示另一种处理方式的例子是
00:50:19正如我所说
00:50:20你可以强制某些边存在
00:50:23嗯
00:50:23对于这个项目
00:50:24第一个小图是关于基于多种因素的葡萄酒评分
00:50:28而我的父母是酿酒师
00:50:31所以我问了
00:50:32有没有什么你非常确信应该连接的东西
00:50:35然后我会说让那些每次都被连接
00:50:49所以底部的这个图
00:50:51我们没有根据数据更新图结构
00:50:54不
00:50:55我们完全没有更新它
00:50:56因此
00:50:57我们选取了两个可能并不完全适配我们数据的模型
00:51:00一个是完全连接的
00:51:02另一个是完全不连接的
00:51:03然后观察随着数据量的增加
00:51:05它们的评分如何变化
00:51:07所以这里的重要结论是
00:51:09使用这种评分指标
00:51:10当数据量较小时
00:51:12它会惩罚模型的高复杂度
00:51:14并鼓励仅构建数据所能支持的模型复杂度
00:51:19因此
00:51:20这为我们提供了更多的实证证据
00:51:23表明我们
00:51:24不会采取某种奇怪的奖励黑客策略
00:51:27比如永远不连接任何东西
00:51:29或者尽可能多地连接
00:51:32是的
00:51:32当你说完全连接时
00:51:34你的意思是每个节点都必须至少有一条箭头
00:51:38指向其他节点
00:51:39但这可能意味着它可以有任意数量的连接
00:51:44我认为这意味着每个节点都与其他所有节点相连
00:51:49且边的方向设置使得不会产生环路
00:51:53是的
00:51:54因此
00:51:54一个例子是
00:51:55如果我们有X1
00:51:57X2和X3
00:51:59我们可以构造像这样的结构
00:52:05所以没有环路
00:52:05但每个节点都与其他所有节点之间有一条边
00:52:09所以
00:52:10这是一个环路
00:52:11因为没有箭头指向
00:52:13完全正确
00:52:14嗯
00:52:14是的
00:52:15我的意思是
00:52:16这不是最数学化的方法
00:52:18但当涉及到循环时
00:52:20我会从一个节点开始
00:52:22追踪它的边
00:52:23看看是否能回到它
00:52:26好的
00:52:29所以
00:52:29循环的问题很重要
00:52:31因为现在
00:52:32我们有了一个可以应用于图的评分函数
00:52:35我们可以讨论如何找到最好的那些
00:52:40这就是结构学习
00:52:47所以
00:52:47我将给你两个不同的方法
00:52:49它们都适用于项目一
00:52:51我们首先要讨论的是
00:52:53K2算法
00:52:59所以
00:52:59这是多项式时间的
00:53:01并且不能保证
00:53:03找到全局最优解
00:53:04我将向你展示
00:53:06它是如何工作的
00:53:10在K2中
00:53:11我们从一个完全不连接的图开始
00:53:13即没有边
00:53:23所以
00:53:23可能看起来像这样
00:53:34然后按某种顺序
00:53:38在这种情况下
00:53:39我将选择一个非常简单的顺序
00:53:42我们将便利节点
00:53:54那么
00:53:55我选择X1
00:53:56X2
00:53:57然后是X3
00:54:01当我们便利节点时
00:54:02我们贪婪的添加负节点
00:54:04以最大化提高分数
00:54:23这意味着
00:54:24我们正在跟踪到目前为止的最佳分数
00:54:31由于我们完全不连接
00:54:33开始时
00:54:34可能不是一个惊人的最佳分数
00:54:37然后在我们的顺序中
00:54:38我们将尝试
00:54:40添加负节点
00:54:43如果我们添加该负节点时
00:54:45获得的分数
00:54:46大于我们目前的最佳分数
00:54:48那么
00:54:48我们将在图中保留该边
00:54:50所以
00:54:51从X1开始
00:54:52它前面没有节点
00:54:54因此
00:54:55我们无法为其添加任何负节点
00:54:56而K2强制执行此顺序
00:54:59然后在X2处
00:55:00X1在它之前
00:55:02所以
00:55:03我们将它视为一个潜在的负节点
00:55:05如果分数增加
00:55:06我们将添加从X1到X2的边
00:55:10然后在X3处
00:55:12我们将首先查看X1作为潜在负节点
00:55:15并观察添加该边
00:55:16是否会提升我们的最佳得分
00:55:19如果会
00:55:20我们就添加它
00:55:21然后在X2处采用相同的逻辑
00:55:23如果向X3添加
00:55:25该边能提升得分
00:55:26我们就将其加入图中
00:55:29因此实际上
00:55:30在这张图中
00:55:32我已经根据K2算法的约束
00:55:34添加了所有可能的边
00:55:37你会看到
00:55:38因为我们强制执行了这种排序
00:55:40我们永远不会创建环
00:55:41我们只能单向添加边
00:55:43并且永远不会反向
00:55:45这就是K2算法处理环问题的方式
00:55:48我看到这边有个问题
00:55:50是的
00:55:51我想你已经在最后提出了问题
00:55:53但我假设你
00:55:54哼了一声
00:55:55这里存在一个接近最大值
00:55:57而非深度的问题
00:55:58嗯
00:55:59是的
00:55:59完全正确
00:56:00如你所见
00:56:01我们处理这个问题的一种方式是
00:56:04由于我们最初选择的顺序
00:56:05我们能够添加的边是有限的
00:56:08你可以做的是
00:56:09尝试多种初始顺序
00:56:11随机生成一堆
00:56:13然后从所有这些顺序中
00:56:15选取最好的结构
00:56:17但确实
00:56:18这种方法容易出现这个问题
00:56:21因此
00:56:21你需要人为的扩展搜索空间
00:56:24对于这个项目
00:56:25你还需要注意的另一件事
00:56:27是强制执行负节点数量的最大值
00:56:29这是一个非常小的数字
00:56:31但我们需要的参数数量
00:56:33会随着负节点数量乘指数增长
00:56:36为了你的计算资源着想
00:56:38强烈建议设置一个限制
00:56:40你可以从一个非常低的数字开始
00:56:42比如
00:56:43只允许有两个负节点
00:56:45然后随着你的资源增加
00:56:46再提高这个限制
00:56:48所以总的来说
00:56:49对于这个算法
00:56:50你假设
00:56:51无论你从哪个节点开始迭代
00:56:53它都不必是负节点
00:56:55比如
00:56:56如果你改变顺序
00:56:57从X2开始
00:56:59那么你就假设X2
00:57:01是的
00:57:01所以
00:57:02我们完全受限于那个顺序
00:57:05如果你有一个数据集
00:57:07其中某个节点
00:57:08比如
00:57:09X1
00:57:10应该有很多负节点
00:57:11而你随机得到一个顺序
00:57:14其中
00:57:14X1排在第一位
00:57:16那么你就无法得到
00:57:17所有那些潜在的结构了
00:57:22这是在寻找该排序下的最大值吗
00:57:25也就是说
00:57:26这个策略在给定迷
00:57:28所做的附带假设下
00:57:29是否找到了最优解
00:57:31或者说
00:57:32在所有假设下
00:57:33这能找到最优解吗
00:57:36我认为不能
00:57:37因为我们是贪婪的添加的
00:57:39但嗯不
00:57:40这不能
00:57:42好的
00:57:42那么我们还有另一种处理方式
00:57:45那就是局部搜索
00:57:53局部搜索也容易陷入局部最优
00:57:56但在我描述完算法后
00:57:58我会告诉你们几种处理这个问题的方法
00:58:01因为有一些有趣的选项
00:58:04好的
00:58:04那么在局部搜索中
00:58:06与K2不同
00:58:07我们从某个初始图开始
00:58:09你可以从完全不连接的图开始
00:58:12但并非必须如此
00:58:14而在K2中
00:58:15你必须从没有边的图开始
00:58:22不过实际上
00:58:23正如我刚才所说
00:58:25对于K2
00:58:25如果你有一条想要强制执行的边
00:58:28你可以从那条边开始
00:58:30你只是想确保在你的排序中
00:58:32边不会倒退
00:58:33这样你就不会引入一个环
00:58:35好的
00:58:36对于局部搜索
00:58:38我们从一个初始图开始
00:58:43为了这个例子
00:58:44我将让它看起来像这样
00:58:46而我们称之为局部搜索的原因是
00:58:50我们将查看当前图领域中的所有图
00:59:01所以我将定义领域
00:59:04因此
00:59:05一个图的领域
00:59:06是所有与当前图
00:59:07仅相差一个基本图操作的图的集合
00:59:33有三种基本图操作
00:59:34有三种基本图操作
00:59:37首先
00:59:37我们可以添加一条边
00:59:40所以
00:59:40这将给我们
00:59:41我的意思是
00:59:43只要我们不引入环
00:59:44这里可以添加许多条边
00:59:46但一个例子是
00:59:48我们可以从
00:59:49X2
00:59:49添加一条
00:59:50边到
00:59:51X3
00:59:59下一个基本图操作
01:00:00是我们可以
01:00:01移除一条边
01:00:02在这种情况下
01:00:04由于我们最初只有一条边
01:00:06这将导致完全不连通
01:00:08最后
01:00:09我们可以反转一条边的方向
01:00:21所以
01:00:21在我们的初始图中
01:00:23我们只有一条边可供选择
01:00:25我们将翻转它
01:00:26使得现在
01:00:27X2
01:00:28有一条指向
01:00:29X1的边
01:00:39正如我一开始提到的
01:00:41我们可以添加的边
01:00:42不止一条
01:00:44所以
01:00:45我们的淋浴
01:00:46会比这个稍大一些
01:00:47但它只是所有距离
01:00:49一部基本图操作的图
01:00:51因此
01:00:52我们从某个初始图开始
01:00:53我们拥有其淋浴中的所有图
01:00:56然后在局部搜索中
01:00:58我们将对所有不引入环的邻居进行评分
01:01:01然后移动到得分最高的邻居
01:01:13所以
01:01:13现在得分最高的邻居
01:01:15就是我们当前的图
01:01:26我们不断重复这个过程
01:01:28直到达到一个点
01:01:29即对于当前图
01:01:31没有邻居的得分
01:01:32比它更高
01:01:37因此
01:01:38重复直到当前图
01:01:40没有更高得分的邻居
01:01:57正如我们在K2的前一个例子中看到的
01:02:00这也很容易陷入局部最优
01:02:04嗯
01:02:04我们有一些有趣的方法可以摆脱这种情况
01:02:08首先
01:02:08我们有随机重启
01:02:10所有这些方法都会在书中详细说明
01:02:19所以
01:02:19不必现在就记住他们
01:02:21但对于随机重启
01:02:23我们只需取一个未被选中的图
01:02:25即我们访问过的某个图的邻居
01:02:28然后从那里重新开始搜索
01:02:30除了随机重启
01:02:32我们还有模拟退火
01:02:42这是受野金学启发的
01:02:45在模拟退火中
01:02:47我们有一定百分比的时间
01:02:49选择一个适应度
01:02:50或得分低于最佳邻居的邻居
01:02:52然后
01:02:53我们将这个参数百分比设置为
01:02:56随着搜索的进行而降低
01:03:02所以
01:03:03也许我们开始时
01:03:04有百分之五十的时间
01:03:06不选择最适应的邻居
01:03:07然后这个比例逐渐下降
01:03:11最后
01:03:11嗯
01:03:12这里举个例子
01:03:13但不是你们可以选择的
01:03:15我们有遗传算法
01:03:24遗传算法
01:03:25是受生物学启发的
01:03:26它们从一个个体群体开始
01:03:31因此
01:03:31在这种情况下
01:03:33个体将对应不同的图结构
01:03:35我们将这个个体群体编码为一个二进制矩阵
01:03:41所以当DNA有T
01:03:42C和G时
01:03:44这个矩阵将包含0和1
01:03:46嗯
01:03:47我们从完全随机开始
01:03:49对于初始群体中的每个图
01:03:51我们使用贝叶斯分数来评估它们的适应度
01:03:57然后为了产生下一代
01:03:59我们随机选择两个亲本
01:04:01但选择概率由它们的适应度加权
01:04:06因此
01:04:06贝叶斯分数越高
01:04:08该结构繁殖的可能性就越大
01:04:10我们对它们进行重组
01:04:12从每个亲本中取一半的DNA或0和1
01:04:15并添加一些突变
01:04:17因此
01:04:18我们翻转一些在重组过程中得到的比特
01:04:20嗯
01:04:21然后我们继续繁殖我们的图结构
01:04:24直到满足某个停止标准
01:04:27这可以基于时间
01:04:28这可能是管理约束的最佳方式
01:04:31或者基于分数
01:04:32或者任何其他标准
01:04:36有典型的标准吗
01:04:39直到你用完时间
01:04:41直到你用完时间会是典型的做法
01:04:44嗯
01:04:44所以这是解决这个局部最优问题的另一种方法
01:04:49我看到几个问题
01:04:50是的
01:04:51嗯
01:04:51你如何强制执行
01:05:15所以
01:05:16假设我们有一个初始矩阵
01:05:18我将让它非常简单
01:05:23我们有
01:05:24清嗓子
01:05:25一个0105
01:05:26假设我们正在复制
01:05:28它需要是
01:05:29啊
01:05:29是的
01:05:30这是一个方阵
01:05:45如果它表示连接性
01:05:47那么每个图结构
01:05:48我们都会有一个矩阵
01:05:49对吧
01:05:50好的
01:05:50那么我们只选取
01:05:52两个可能的附带
01:05:56嗯
01:05:56为了节省时间
01:05:58第二个附带
01:05:59基本上将全部为0
01:06:05好的
01:06:06那么
01:06:07如果我们让这两个矩阵相互繁殖
01:06:10我们将从一个附带中
01:06:11随机选取50%的位置
01:06:14再从另一个附带中
01:06:15选取50%
01:06:18嗯
01:06:18为了让我自己更简单一点
01:06:20我不随机选取
01:06:22而是直接取第一个矩阵的前两行
01:06:25和第二个矩阵的最后两行
01:06:34这样就会产生一个像这样的子带
01:06:37嗯
01:06:38你可以想象
01:06:39你可以用多种方式
01:06:41从不同的矩阵中采样50%
01:06:44但这就是我做的方式
01:06:45你可以持续采样
01:06:47直到你得到一个没有循环的东西
01:06:50是的
01:06:50所以
01:06:51在这个矩阵中
01:06:52基本上每个矩阵中的每个参数
01:06:55都代表了某种缺失
01:06:56比如我
01:06:57嗯
01:06:58你像从1到n横跨列
01:07:07是的
01:07:07所以
01:07:08嗯
01:07:08这只是其中一种编码方式
01:07:11但在这里
01:07:12我们可以这样分配节点
01:07:19那么
01:07:20如果我们有
01:07:21嗯
01:07:21我们拿这个例子来说
01:07:25这意味着有一条边从x2指向x1
01:07:29你可以随意设定方向
01:07:33只要确保自洽即可
01:07:35那么
01:07:36这是否意味着默认情况下
01:07:38它们都必须是单位矩阵
01:07:41因为每个节点都连接到自身
01:07:43比如x1和x1
01:07:45x2和x2
01:07:48我认为实际上默认情况下
01:07:49节点不应该连接到自身
01:07:51因为从技术上讲
01:07:52这会形成一个环
01:07:54哦
01:07:54好的
01:07:56再补充一点
01:07:57你不能让一个节点
01:07:58有x1
01:07:59x2
01:08:00x2
01:08:00x1这样的连接
01:08:02你不能有
01:08:03除非是环形指示器
01:08:05是的
01:08:05你不能拥有那个
01:08:08是否有一个公式
01:08:09可以计算领域的大小
01:08:14那么
01:08:14有多少个图
01:08:17哦
01:08:18好问题
01:08:19我不知道
01:08:19有没有封闭形式的方程
01:08:22嗯
01:08:23你知道有吗
01:08:26啊
01:08:26这取决于你的图操作
01:08:29你可以添加一条边
01:08:30删除或翻转一条边
01:08:34是的
01:08:34所以
01:08:35对于删除或翻转
01:08:37这将基于你当前拥有的边数
01:08:40对于删除
01:08:41你总是可以删除一条边
01:08:43因为
01:08:43这永远不会引入环
01:08:45对于翻转操作
01:08:46你必须检查它
01:08:47不会引入环路
01:08:48同样的
01:08:49对于添加操作
01:08:50你也必须进行同样的检查
01:08:52嗯
01:08:53但在实践中
01:08:54你会便利所有边
01:08:55然后说
01:08:56好吧
01:08:57在所有我没有的边中
01:08:59如果我添加它
01:09:00并且它不形成环路
01:09:02它的分数是多少
01:09:03然后你会跟踪最佳结构
01:09:06和最佳分数
01:09:09我会说
01:09:09从渐进的角度来看
01:09:11它大约是变量数量的指数级
01:09:14是的
01:09:15嗯
01:09:15好的
01:09:16是的
01:09:18所以从技术上讲
01:09:19在图中
01:09:22是的
01:09:22我们会
01:09:24所以更一般的说
01:09:26这就是你定义节点结构
01:09:28或图结构的方式
01:09:30一种算法上检查环路的方法
01:09:33是检查任何给定元素的直接对角线元素
01:09:36是否不应等于它
01:09:37就像在
01:09:38这将是检查简单环路的一种方式
01:09:46但我们可以有更复杂的环路
01:09:48比如我们可以说
01:09:50我们有
01:09:50嗯
01:09:51我们可以有一个看起来像这样的环路
01:09:53对吧
01:09:58嗯
01:09:59我相信我们已经提供了检查循环的代码
01:10:02所以不必太担心如何实现这一点
01:10:04关于实现的另一个注意事项是
01:10:07为了通过项目中的所有测试
01:10:09你不需要对局部搜索进行任何这些修改
01:10:13如果你关注的是最右排行榜
01:10:16这些修改会更有意义
01:10:24那么
01:10:24我们只剩下一个话题要讨论
01:10:27那就是马尔可夫等价
01:10:29我们说两个图是马尔可夫等价的
01:10:32如果他们编码了相同的条件独立性假设
01:10:59这听起来相当复杂
01:11:01但实际上我们只需要检查两点
01:11:04首先我们需要检查
01:11:06它们是否有相同的五项边
01:11:18所以我将给出几个结构来说明这一点
01:11:21假设我们有X1
01:11:22X2和X3
01:11:40所以
01:11:40这些确实有相同的五项边
01:11:42对吧
01:11:46因为我们有X1
01:11:47X3
01:11:48X2
01:11:48X3
01:11:49两者都有
01:11:50然后
01:11:50它们还需要具有相同的不道德V结构
01:12:01所以
01:12:02你会从之前的讲座中
01:12:03回忆起V结构
01:12:05这将是其中一个例子
01:12:08嗯
01:12:08当我说
01:12:09V结构是不道德的时
01:12:11我的意思是
01:12:12嗯
01:12:12这不是我的定义
01:12:14即父母节点之间没有连接
01:12:17所以
01:12:17如果我们想把这个
01:12:19变成一个道德的重结构
01:12:21我们可以那样做
01:12:26嗯
01:12:26或者我们可以那样做
01:12:29但就这个例子而言
01:12:31这是一个不道德的V结构
01:12:34因此
01:12:35由于第二个标准
01:12:36我们会说
01:12:37这两个图不是马尔可夫等价的
01:12:40因为在这个图中
01:12:41我们这里有一个不道德的V结构
01:12:46而在这里
01:12:46我们实际上没有不道德的V结构
01:12:49所以
01:12:50它们不是马尔可夫等价的图
01:12:54完全相同的结构
01:12:55完全相同的V形结构
01:12:57是的
01:12:57那么让我画一个例子
01:13:08好的
01:13:09所以
01:13:10好吧
01:13:15想一个例子
01:13:16有点难
01:13:17实际上
01:13:18我意识到
01:13:19你最终会创建多少个V形结构
01:13:21也许我直接展示
01:13:23为什么这样
01:13:27所以
01:13:27我们有这样的图
01:13:29我们可以说
01:13:30那里有什么
01:13:37嗯
01:13:37实际上
01:13:38我觉得这个可行
01:13:41我们一起讨论一下
01:13:42这将是一个很好的例子
01:13:44所以
01:13:44肯定有相同的无相边
01:13:47然后
01:13:48当我们观察不到德V时
01:13:50我们在两个图中
01:13:51都有这个
01:13:56这里
01:13:57我们有一个链
01:13:58这里
01:13:58我们有一个叉子
01:14:00你是这么叫它的吗
01:14:01一个叉子
01:14:02嗯
01:14:03所以
01:14:03它们有相同的边和相同的不道德V结构
01:14:07所以
01:14:07我们会说
01:14:08这两个图
01:14:09是马尔可夫等价的
01:14:11我们关心
01:14:11马尔可夫等价的原因是
01:14:13马尔可夫等价类的空间
01:14:15比所有图的空间
01:14:17要小得多
01:14:21所以
01:14:21一个选择是搜索这些马尔可夫等价类
01:14:24而不是搜索所有图的空间
01:14:26这在计算上
01:14:27要容易得多
01:14:28我们认为
01:14:29这样做是足够安全的
01:14:31因为它们编码了相同的条件独立性假设
01:14:36嗯
01:14:36但需要指出的是
01:14:38统一马尔可夫等价组中的两个图
01:14:41可能具有不同的分数
01:14:42除非在组内可以有不同的分数
01:14:45呃
01:14:46这是一个卡帕值
01:15:02这在书中是清楚的
01:15:03但那样是不行的
01:15:03这是一个卡帕值
01:15:05嗯
01:15:05除非我们有卡帕值
01:15:07它是对阶求和
01:15:09再对k求和
01:15:10我们先验中的α值
01:15:12αijk是针对所有i的
01:15:21我想说这是一个相当小的注释
01:15:23但值得指出的是
01:15:24马尔可夫等价并不意味着相同的分数
01:15:27但我们假设它是足够接近的
01:15:29因为它编码了相同的独立性假设
01:15:32所以我们可以在这些组上进行搜索
01:15:35而不是在所有图上搜索
01:15:37嗯
01:15:37我看到一个问题
01:15:39是的
01:15:40所以相同的
01:15:41恶不
01:15:41他们是
01:15:44所以
01:15:45马尔可夫等价当且
01:15:47仅当这两个成立
01:15:54所以通过说
01:15:55哦
01:15:56两者都是不道德的
01:15:57或者两者都是
01:16:03所以
01:16:04如果我们观察两个图A和B
01:16:06如果A中存在一个不道德的V结构
01:16:09那么为了使A和B马尔可夫等价
01:16:12这个不道德的V结构
01:16:14也必须存在于B中
01:16:18同样的
01:16:19如果B中存在一个不道德的V结构
01:16:21那么
01:16:22这个不道德的V结构
01:16:23也必须存在于A中
01:16:25因此
01:16:26要使两个图马尔可夫等价
01:16:28每个图中不道德的V结构集合
01:16:30必须相同
01:16:32他们具有相同的道德化
01:16:34哦
01:16:34如果他们具有相同的道德化
01:16:36如果道德化的V结构不同
01:16:37那我们就不关心了
01:16:38嗯
01:16:39让我们看另一个例子
01:16:44假设好的
01:16:59所以
01:16:59他们具有相同的
01:17:01然后如果我们以不同的方式连接附结点
01:17:04我们甚至不需要看N式的
01:17:06我们可以以不同的方式连接附结点
01:17:09这样也可以
01:17:25所以对于道德化的V结构
01:17:27他们可以不同
01:17:28但对于不道德的V结构
01:17:29他们必须完全相同
01:17:31因此
01:17:32如果我们在一个图中连接了附结点
01:17:34而在另一个图中没有连接
01:17:35那么
01:17:36他们就不会是马尔可夫等价的
01:17:38因为这里
01:17:38我们有一个不道德的V结构
01:17:40而另一个图中没有
01:17:41没问题
01:17:43是的
01:17:43关于那个分数
01:17:44当我们推导它时
01:17:46那是从使用映射定义
01:17:48还是MLA中得出的
01:17:50那是从使用
01:17:51搭分布的映射定义中得出的
01:17:56嗯
01:17:57所以你提到
01:17:58我们应该在马尔可夫等价类和图中搜索
01:18:01因为他们在某种程度上相似
01:18:03但我感觉这有点反直较
01:18:06我本想搜索哦
01:18:07是的
01:18:07抱歉
01:18:08我就是这个意思
01:18:15所以问题是
01:18:16我说我们可以在马尔可夫等价类上搜索
01:18:20因为他们编码了相同的条件独立性假设
01:18:24因此
01:18:25我们的搜索空间将是所有不同的等价类
01:18:28而不是不同的图
01:18:30所以我们说
01:18:31实际上
01:18:32我们不需要
01:18:33查看一个马尔可夫等价组内的两个图
01:18:36因为他们编码了相同的条件独立性假设
01:18:41嗯
01:18:41我认为在等价类上搜索
01:18:44可能有点难以实现
01:18:45尽管你绝对应该尝试一下
01:18:48但为了项目目的
01:18:49我没有这样做
01:18:50而且
01:18:51这已经足够了
01:18:52在图空间中
01:18:53还有很多优化可以做
01:18:56嗯
01:18:57注意时间
01:18:58我想
01:18:59我们只能再回答一个问题了
01:19:08或者是针对所有
01:19:09还是只是硬式的
01:19:16所以这是针对组内的图
01:19:18嗯
01:19:19我相当确定
01:19:20如果让α值都为1
01:19:22就可以实现这一点
01:19:24因为他们都会有相同的边
01:19:28哦
01:19:28实际上他们不一定有相同数量的负解点
01:19:31是的
01:19:31你需要组内的总和是恒定的
01:19:34嗯
01:19:35书里给出了一些例子
01:19:37是的
01:19:38书里给出了一些例子
01:19:40好的
01:19:40嗯
01:19:41我想我们时间到了
01:19:42如果还有更多问题
01:19:43我们很乐意在办公室间提供帮助
01:19:45非常感谢大家
01:19:47请不吝点赞
01:19:48请不吝点赞
01:19:48感谢观看
评论