数据先行,学完分子处理再进入深度学习
每个模块均可独立选修,但建议至少完成模块一后再学习其他模块。
五个模块,每个模块都有清晰阶段与产出
从零开始,让电脑听懂你的化学指令
课程定位:面向完全零基础的化学专业学生,用化学实验中的类比讲解编程概念,不背语法、不考理论,目标是让学员“能看懂代码、能改代码、能自己写小脚本”。
破冰与装备:告别环境配置劝退(1课时)
- 安装 Anaconda 全家桶;
- 了解 Jupyter Notebook 像实验记录本一样写代码;
- 第一行代码:打印 "Hello, My Lab!";
- 安装常用科学计算库(numpy, pandas, matplotlib)。
变量与计算:你的第一个“化学计算器”(1课时)
- 变量 = 贴了标签的试剂瓶(如 mw_water = 18.015);
- 用 Python 计算分子量、摩尔浓度、投料比;
- 字符串处理:格式化化学式输出(如 "C6H12O6")。
数据结构:样品架与标签柜(1课时)
- 列表(List):存储一组反应温度 [25, 60, 80, 100];
- 字典(Dict):存储反应条件 {"溶剂": "THF", "温度": 60, "时间": "2h"};
- 元组与集合:不可变数据与去重(去除重复的 CAS 号)。
流程控制:让代码替你“做决定”(1课时)
- for 循环:批量处理 96 孔板数据;
- if/elif/else:根据熔点范围判断化合物状态;
- 函数:把常用的计算封装成“小工具”(如 def 计算产率())。
本模块全程使用化学场景示例,不讲计算机原理,只讲“怎么在实验室用起来”。
告别 Excel 手动操作,用代码处理实验数据
课程定位:化学实验中产生大量表格数据(HPLC、GC-MS、UV-Vis、电化学工作站导出的 CSV/Excel),本模块教会学员用 Pandas 和 Matplotlib 高效处理、清洗、分析、可视化数据。
Pandas 入门:实验数据的“电子表格”(1课时)
- Series 和 DataFrame:理解“行是样品,列是变量”;
- 读取 CSV/Excel:将 HPLC、GC-MS 导出数据导入 Python;
- 查看数据概览:.head(), .info(), .describe()。
数据清洗:实验室数据的“提纯”(1课时)
- 处理缺失值:某个反应没做怎么办(dropna / fillna);
- 剔除离群值:产率 200% 的数据点怎么处理;
- 数据类型转换:把 "25°C" 变成数值 25。
数据操作与分析:一键搞定重复劳动(1课时)
- 筛选与切片:选出所有温度 > 80°C 的反应;
- 分组与聚合:按催化剂分组计算平均产率;
- 合并多个表格:把 30 个反应数据文件合并成一个 Master Table;
- 实战:计算平均值、标准差、置信区间。
数据可视化:画出导师挑不出毛病的图(1课时)
- Matplotlib 基础:折线图(动力学曲线)、散点图(催化剂筛选);
- Seaborn 美化:一键调整颜色、主题、字体;
- 论文级图表配置:DPI=300、字体大小、图例位置;
- 实战:绘制紫外-可见吸收光谱图或循环伏安图。
所有案例数据均来自真实化学实验场景,学完就能在课题组里“降维打击”Excel 手动党。
让计算机“看懂”分子结构
课程定位:化学信息学是 AI+化学的“基础设施”。本模块教会学员用 RDKit 处理分子结构、计算化学描述符、进行分子相似性搜索和虚拟筛选,为后续深度学习建模提供“原材料”。
分子表示:计算机眼中的化学语言(1课时)
- SMILES 是什么?CCO = 乙醇,c1ccccc1 = 苯(像化学简式一样简单);
- SMILES 的编写规则:分枝、环、芳香键;
- InChI 与分子指纹:类似化合物的“身份证”和“指纹图谱”;
- RDKit 入门:从 SMILES 生成 2D 分子结构图。
分子描述符:把结构变成“数字”(1课时)
- 用 RDKit 计算常见描述符:分子量、LogP、HBD/HBA、TPSA、可旋转键数;
- 批量计算:导入 1000 个化合物 SMILES,批量计算全部描述符;
- 理解“描述符空间”:每个分子是高维空间中的一个点;
- 导出为 CSV:给后续深度学习模型准备特征矩阵。
分子相似性与虚拟筛选(1课时)
- 分子指纹(Morgan Fingerprints):把分子结构编码成 0/1 向量;
- Tanimoto 系数:量化“两个分子有多像”(0~1 之间的数值);
- 相似性搜索:给定一个已知活性分子,在化合物库中找到最相似的分子;
- 虚拟筛选:用 Lipinski 五规则(Rule of Five)筛选类药分子。
化学数据库与数据获取(1课时)
- PubChem、ChEMBL、ZINC 等化学数据库介绍;
- 用 Python 调用 PubChem API 批量获取化合物数据;
- 从文献 PDF 或网站中提取结构数据;
- 搭建自己的“小分子数据库”:SQLite 存储化合物信息。
RDKit 是所有化学信息学操作的“瑞士军刀”,本模块重点培养“用代码批量处理分子”的能力。
不写数学公式,也能让神经网络“看懂”化学数据
课程定位:跳过复杂的数学推导,用“乐高积木”的方式理解神经网络。通过 PyTorch 框架,从最简单的线性模型一步步搭建到多层神经网络,并用化学中的回归和分类问题作为实战案例。
深度学习“黑话”破解(1课时)
- 神经元 = 一个简单的“阀门”(输入→计算→输出);
- 层 = 流水线上的工位;
- 激活函数 = 质检员(决定要不要通过);
- 训练 = 反复实验找到最佳条件(梯度下降 = 调节 pH 值找到最佳点);
- 用 PyTorch 实现一个“神经元”:输入 x → 输出 y = wx + b。
从线性回归到神经网络:预测化合物性质(1课时)
- 用单层网络做线性回归:根据分子量预测沸点;
- 引入激活函数让模型“学会拐弯”:ReLU、Sigmoid;
- 搭建多层神经网络(MLP):输入 RDKit 计算的分子描述符预测性质;
- 训练与评估:损失函数、训练轮数、过拟合的判断。
分类任务:让模型判断“有没有活性”(1课时)
- 二分类问题:预测化合物是否有抗菌活性(有/无);
- 多分类问题:预测反应属于 SN1、SN2 还是 E2 机理;
- 数据集划分:训练集 / 验证集 / 测试集(像实验中的平行样);
- 评估指标:准确率、精确率、召回率(不用背公式,会用代码算就行)。
实战:搭建一个完整的化学预测项目(1课时)
- 从 RDKit 提取特征 → 模型搭建 → 训练 → 评估的全流程打通;
- 模型保存与加载:训练好的模型像“试剂盒”一样可以随时调用;
- 用训练好的模型对新化合物做预测;
- 学习如何“调参”:像优化反应条件一样优化模型。
整合所学,完成一个完整的 AI 化学研究项目
课程定位:本模块是整套课程的“收官之作”——将前四个模块的知识串联成一个完整的科研项目,以化学信息学提取的分子特征为输入,用深度学习模型进行预测,串联成“从结构到性质预测”的完整链条。
项目一:AI 辅助的化合物性质预测平台(1课时)
- 需求:给定一个化合物 SMILES,自动计算其物理化学性质并预测生物活性;
- 全流程整合:SMILES → RDKit 计算描述符 → 加载预训练模型 → 输出预测结果;
- 用 Gradio 搭建简单的 Web 交互界面:输入 SMILES,输出预测;
- 学会保存和复用自己的模型。
项目二:高通量实验数据分析流水线(1课时)
- 需求:实验室一次跑完 384 孔板,需要自动分析数据;
- 自动化脚本设计:读数据 → 清洗 → 计算 IC50 → 绘制剂量-响应曲线;
- 批量生成报告:为每个化合物自动生成分析图表并保存;
- 封装成可复用的函数/脚本,下次实验直接用。
AI 编码助教:学会让 AI 替你写代码(1课时)
- Prompt 工程:S.O.P. 法则(场景→目标→计划)——给出清晰的编程需求;
- Debug 神技:把报错信息扔给 AI,让它帮你修 bug;
- 代码解读:让 AI 逐行解释别人写的代码;
- 重构优化:让 AI 把“能跑”的代码变成“跑得快”的代码;
- 核心技能:学会提问,比学会写代码更重要。
毕业设计:自选课题实战 + 展示(1课时)
- 学员从以下方向中选择一个完成:A. 分子生成:用自编码器(VAE)生成新分子 SMILES;
- B. 反应产率预测:基于反应条件预测反应产率;
- C. 光谱预测:用深度学习预测 NMR 化学位移;
- D. 自选题:学员可结合自己的研究方向自定义题目;
- 完成项目文档 + 代码,进行课堂展示。
学完后,留下能复用的科研资产
科研脚本
溶液配制、产率计算、批量数据处理等可复用 Python 小工具。
分子处理流程
SMILES 可视化、描述符计算、相似性搜索、虚拟筛选脚本。
AI 建模实战
从结构到性质预测的端到端模型,以及可展示的毕业项目。
扫码咨询课程安排
贾经理 15866847540