0%

2025年度总结

例行总结过去一年,还是和去年一样,从实习,学业以及生活三个方面来写点流水账。

实习

在西门子实习到了今年年初的四月份,由于我自己不想干了,同时毕业设计也即将ddl,顺便享受一下剩下的大学生活,就离职了。实习的主要工作就是做了一个基于 self-supervised 的方法来检测 西门子自己PCB的缺陷的工作。我大概是把所有的代码给跑通了,有了一个初步的结果。

对于输入的图片,上面会有8块相同的PCB板子。对于这些PCB板子,首先采用传统CV图像识别的方式,根据模版图片识别出具体八块PCB。由于我们使用的是4K的摄像头,因此每一块PCB的分辨率非常的高,直接输入给模型做推理或者训练的话会非常的大。

想到一张方法就是先对模型进行分块处理,对于每一个输入的PCB板子,在训练阶段,把它分成128*128的小块,同时生成对应缺陷位置的二进制掩码,以及会记录每个方块对应的位置,方便后续加入位置编码,然后打乱交给后续的图像编码器;在推理阶段,顺序的把PCB板子每一块给切割成对应的小块,同时记录位置。

得到128*128的小块之后,采用利用经过预训练的图像Encoder得到图像的编码,这里有多种选择方式,例如 ResNet, SwinUnet, SwinTransformer 等等模型可以选择。在经过图像Encoder的编码之后,交给两个不同类别的Decoder来进行解码,其中重建图像解码器是尝试来恢复重建图像的,缺陷掩码解码器是用来尝试从原始图像确定到缺陷的位置。那么这样得到的两个不同的输出,就可以分别来计算两个loss来更新我们的Decoder。

在推理重建的过程中,我们采取了区域重叠切分策略(ROPS)来防止由于切分边缘的缺陷被切断而导致重建效果不好的情况,采用重叠的方式进行切分能够有效的避免这种现象发生。

在得到的重建后的图像后,我们会对原始输入图像进行Diff操作,得到差异图像,从而能够得知是哪里出现了缺陷。

算法流程图

整体算法流程图

本质上这个课题是由于在工业PCB领域没有这样的工作,把过去视觉方面的工作给迁移到这个领域上了,因为也是可以预料的会被审稿人喷novelty的问题。我做到了四月份差不多就离职了,让我的继任实习生去继续完成了论文部分的工作。这篇论文也是辗转投了很多个会议也没有中,我其实觉得这样的工业化课题应该投一篇期刊比较好,但是由于我不是第一单位也不是第一作者也不做评价。

西门子实习

西门子实习

在西门子的实习结束之后,我在想以后再也不搞科研了,我要天天去实习了,又有米赚作息还比上学搞科研正常,爽之爽之。结果在写下这篇总结的时候,被🐯拉去做了一个与神经科学有关的科研项目。

这个项目中心思想就是利用一篇PNAS上的数据集,来探索目前市面上大部分的VideoLLM(e.g Gemini 3 pro, Doubao Seed 2.0 pro, Qwen3.5等等)在视觉感知方面是否能够达到人类的水准。做实验的结论和我们预期的结论也是差不多,因为大部分videollm的输入也就是把视频逐帧切片,然后附加一些时序信息交给视觉编码器来进行处理。既然是这样的话,具体对注意力如何在场景中移动的统计规律,视觉模型应该不会有和人类一样的内在认知的。那么如果这些VLM都没有办法很好的get到人类的注意力分布规律,用这些VLM来尝试理解人类世界是否也是有失偏驳的呢?

初步实验的结果和我们的猜测结果是差不多一致的,猜测模型需要经过垂域上的微调才能够实现一个与人类相当的水平。具体后续的话等到做完再说吧,这里鸽了。

学业

去年在学业上唯一的成果应该就是在电子科大顺利的毕业了,在科大开启的研究生一年级第一学期没挂科,全都是80多分飘过,已经很棒了。感觉研究生阶段再去卷无意义的GPA也没有什么必要,有这时间不如多享受一下生活,毕竟也没多少的在校时间了。

理论上来说,我一共需要修10门课研究生学分就足够了。我选择在研一上学期直接修了七门课,这样下学期的课就比较轻松了。研究生课程和本科生课程感觉设计上也没什么区别,都是水课。抛开政治课和英语课,上学期修的比较计算机的课就只有算法,机器学习和数据库了。

生活

TBD

写在最后

TBD