LoRA 原理与实战

在深度学习微调大模型时,LoRA(Low-Rank Adaptation) 提供了一种高效、轻量的微调方法。本文讲述了LoRA的原理,同时结合一个小型 MNIST 实验做了验证。 1. LoRA 的核心思路在训练大模型时,通常模型参数量巨大,直接微调...

深度学习

RhoFold (2024):使用基于语言模型的深度学习方法进行精确的RNA 3D结构预测

模型架构RhoFold+是一个全可微分的端到端框架,从RNA序列输入直接输出全原子3D结构。架构分为几个关键模块: 输入处理和特征提取: RNA-FM:一个12层Transformer模型,预训练于~23.7百万未标注RNA序列(来自~80万种物...

科研 / 论文研读

CNN 网络中的参数计算

卷积层(Convolutional Layer, CONV-K-N)功能:提取局部特征。 符号含义: $K$ — 滤波器尺寸(Kernel size):卷积滤波器的宽度和高度,通常为正方形,表示为 $K \times K$。 $N$ — 滤波器个数...

深度学习

使用Numpy实现全连接神经网络

一、数据集的下载和处理下载数据直接调用官方库 12train_dataset = datasets.MNIST(root='./data', train=True, download=True)test_dataset = dat...

深度学习