TechBlog

发表于2026-03-11

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo ...

大模型预训练完全指南：从架构原理到工程实践

发表于2024-02-20|大模型深度学习

引言大语言模型（Large Language Models, LLMs）的预训练是当今人工智能领域最引人注目的技术突破之一。从GPT系列到LLaMA、Claude，这些模型展现了惊人的语言理解和生成能力。本文将从架构原理到工程实践，全面解析大模型预训练的完整流程。大模型预训练的意义预训练使模型能够从海量文本数据中学习通用的语言表示，这些知识可以迁移到各种下游任务中。预训练的意义体现在：知识获取：模型学习到丰富的世界知识和语言模式迁移学习：预训练权重可作为各种任务的初始化涌现能力：规模足够大时，模型展现出意想不到的新能力 1. Transformer架构深度解析Transfo...

PyTorch Loss函数深度解析

发表于2024-01-15|深度学习PyTorch

引言损失函数（Loss Function）是深度学习中至关重要的组成部分，它衡量模型预测值与真实值之间的差异，指导模型参数的优化方向。PyTorch提供了丰富的损失函数库，本文将深入解析12种常用损失函数的数学原理、应用场景和代码实践。 1. nn.MSELoss - 均方误差损失数学公式均方误差损失（Mean Squared Error Loss）计算预测值与真实值之间差的平方的均值： $$\text{MSE}(x, y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - y_i)^2$$ 在PyTorch中，还可以设置reduction参数...