是一个超参数,用于调整辅助 Loss 的权重。论文中选择了 ,这个值足够大,可以确保负载均衡,同时又足够小,不会压倒主要的交叉熵目标(即主要的训练损失)。论文实验了从 到 的 值范围,发现 的值可以快速平衡负载,同时不会干扰训练损失。 Targeting cookies These cookies are grup on our site by our advertising partners. They may be used by relevant companies to build your interests profile and show r... https://www.blogger.com/u/2/profile/01972721458409429591
En Index Sırları
Internet 6 hours ago christianf049cpg8Web Directory Categories
Web Directory Search
New Site Listings