2025年度总结

例行总结过去一年，还是和去年一样，从实习，学业以及生活三个方面来写点流水账。

实习

在西门子实习到了今年年初的四月份，由于我自己不想干了，同时毕业设计也即将ddl，顺便享受一下剩下的大学生活，就离职了。实习的主要工作就是做了一个基于 self-supervised 的方法来检测西门子自己PCB的缺陷的工作。我大概是把所有的代码给跑通了，有了一个初步的结果。

对于输入的图片，上面会有8块相同的PCB板子。对于这些PCB板子，首先采用传统CV图像识别的方式，根据模版图片识别出具体八块PCB。由于我们使用的是4K的摄像头，因此每一块PCB的分辨率非常的高，直接输入给模型做推理或者训练的话会非常的大。

想到一张方法就是先对模型进行分块处理，对于每一个输入的PCB板子，在训练阶段，把它分成128*128的小块，同时生成对应缺陷位置的二进制掩码，以及会记录每个方块对应的位置，方便后续加入位置编码，然后打乱交给后续的图像编码器；在推理阶段，顺序的把PCB板子每一块给切割成对应的小块，同时记录位置。

得到128*128的小块之后，采用利用经过预训练的图像Encoder得到图像的编码，这里有多种选择方式，例如 ResNet, SwinUnet, SwinTransformer 等等模型可以选择。在经过图像Encoder的编码之后，交给两个不同类别的Decoder来进行解码，其中重建图像解码器是尝试来恢复重建图像的，缺陷掩码解码器是用来尝试从原始图像确定到缺陷的位置。那么这样得到的两个不同的输出，就可以分别来计算两个loss来更新我们的Decoder。

在推理重建的过程中，我们采取了区域重叠切分策略（ROPS）来防止由于切分边缘的缺陷被切断而导致重建效果不好的情况，采用重叠的方式进行切分能够有效的避免这种现象发生。

在得到的重建后的图像后，我们会对原始输入图像进行Diff操作，得到差异图像，从而能够得知是哪里出现了缺陷。

整体算法流程图

本质上这个课题是由于在工业PCB领域没有这样的工作，把过去视觉方面的工作给迁移到这个领域上了，因为也是可以预料的会被审稿人喷novelty的问题。我做到了四月份差不多就离职了，让我的继任实习生去继续完成了论文部分的工作。这篇论文也是辗转投了很多个会议也没有中，我其实觉得这样的工业化课题应该投一篇期刊比较好，但是由于我不是第一单位也不是第一作者也不做评价。

西门子实习

在西门子的实习结束之后，我在想以后再也不搞科研了，我要天天去实习了，又有米赚作息还比上学搞科研正常，爽之爽之。结果在写下这篇总结的时候，被🐯拉去做了一个与神经科学有关的科研项目。

这个项目中心思想就是利用一篇PNAS上的数据集，来探索目前市面上大部分的VideoLLM（e.g Gemini 3 pro, Doubao Seed 2.0 pro, Qwen3.5等等）在视觉感知方面是否能够达到人类的水准。做实验的结论和我们预期的结论也是差不多，因为大部分videollm的输入也就是把视频逐帧切片，然后附加一些时序信息交给视觉编码器来进行处理。既然是这样的话，具体对注意力如何在场景中移动的统计规律，视觉模型应该不会有和人类一样的内在认知的。那么如果这些VLM都没有办法很好的get到人类的注意力分布规律，用这些VLM来尝试理解人类世界是否也是有失偏驳的呢？

初步实验的结果和我们的猜测结果是差不多一致的，猜测模型需要经过垂域上的微调才能够实现一个与人类相当的水平。具体后续的话等到做完再说吧，这里鸽了。

学业

去年在学业上唯一的成果应该就是在电子科大顺利的毕业了，在科大开启的研究生一年级第一学期没挂科，全都是80多分飘过，已经很棒了。感觉研究生阶段再去卷无意义的GPA也没有什么必要，有这时间不如多享受一下生活，毕竟也没多少的在校时间了。

理论上来说，我一共需要修10门课研究生学分就足够了。我选择在研一上学期直接修了七门课，这样下学期的课就比较轻松了。研究生课程和本科生课程感觉设计上也没什么区别，都是水课。抛开政治课和英语课，上学期修的比较计算机的课就只有算法，机器学习和数据库了。

生活

TBD

写在最后

TBD