Upload folder using huggingface_hub

6c82a5f verified 5 months ago

240 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.999179655455291,
	"eval_steps": 500,
	"global_step": 1371,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0021875854525567405,
	"grad_norm": 0.017111310735344887,
	"learning_rate": 2.173913043478261e-05,
	"loss": 1.059,
	"step": 1
	},
	{
	"epoch": 0.004375170905113481,
	"grad_norm": 0.018623707816004753,
	"learning_rate": 4.347826086956522e-05,
	"loss": 1.315,
	"step": 2
	},
	{
	"epoch": 0.006562756357670222,
	"grad_norm": 0.018533790484070778,
	"learning_rate": 6.521739130434782e-05,
	"loss": 0.9224,
	"step": 3
	},
	{
	"epoch": 0.008750341810226962,
	"grad_norm": 0.015920396894216537,
	"learning_rate": 8.695652173913044e-05,
	"loss": 0.9201,
	"step": 4
	},
	{
	"epoch": 0.010937927262783703,
	"grad_norm": 0.01558469608426094,
	"learning_rate": 0.00010869565217391305,
	"loss": 0.8457,
	"step": 5
	},
	{
	"epoch": 0.013125512715340444,
	"grad_norm": 0.023962153121829033,
	"learning_rate": 0.00013043478260869564,
	"loss": 0.9347,
	"step": 6
	},
	{
	"epoch": 0.015313098167897183,
	"grad_norm": 0.029316680505871773,
	"learning_rate": 0.00015217391304347827,
	"loss": 0.8043,
	"step": 7
	},
	{
	"epoch": 0.017500683620453924,
	"grad_norm": 0.028927722945809364,
	"learning_rate": 0.00017391304347826088,
	"loss": 0.9963,
	"step": 8
	},
	{
	"epoch": 0.019688269073010665,
	"grad_norm": 0.025050047785043716,
	"learning_rate": 0.0001956521739130435,
	"loss": 0.7861,
	"step": 9
	},
	{
	"epoch": 0.021875854525567406,
	"grad_norm": 0.04486666992306709,
	"learning_rate": 0.0002173913043478261,
	"loss": 1.0884,
	"step": 10
	},
	{
	"epoch": 0.024063439978124147,
	"grad_norm": 0.035062652081251144,
	"learning_rate": 0.00023913043478260867,
	"loss": 0.9876,
	"step": 11
	},
	{
	"epoch": 0.026251025430680888,
	"grad_norm": 0.033111147582530975,
	"learning_rate": 0.0002608695652173913,
	"loss": 0.8838,
	"step": 12
	},
	{
	"epoch": 0.028438610883237625,
	"grad_norm": 0.04362301528453827,
	"learning_rate": 0.00028260869565217394,
	"loss": 0.8189,
	"step": 13
	},
	{
	"epoch": 0.030626196335794366,
	"grad_norm": 0.04369740933179855,
	"learning_rate": 0.00030434782608695655,
	"loss": 0.9065,
	"step": 14
	},
	{
	"epoch": 0.03281378178835111,
	"grad_norm": 0.04280918091535568,
	"learning_rate": 0.0003260869565217391,
	"loss": 0.8706,
	"step": 15
	},
	{
	"epoch": 0.03500136724090785,
	"grad_norm": 0.06369622051715851,
	"learning_rate": 0.00034782608695652176,
	"loss": 1.0769,
	"step": 16
	},
	{
	"epoch": 0.03718895269346459,
	"grad_norm": 0.04528605565428734,
	"learning_rate": 0.00036956521739130437,
	"loss": 0.9662,
	"step": 17
	},
	{
	"epoch": 0.03937653814602133,
	"grad_norm": 0.045731619000434875,
	"learning_rate": 0.000391304347826087,
	"loss": 0.7727,
	"step": 18
	},
	{
	"epoch": 0.04156412359857807,
	"grad_norm": 0.03585459291934967,
	"learning_rate": 0.0004130434782608696,
	"loss": 0.7813,
	"step": 19
	},
	{
	"epoch": 0.04375170905113481,
	"grad_norm": 0.07666835933923721,
	"learning_rate": 0.0004347826086956522,
	"loss": 1.1307,
	"step": 20
	},
	{
	"epoch": 0.04593929450369155,
	"grad_norm": 0.02985576167702675,
	"learning_rate": 0.0004565217391304348,
	"loss": 0.785,
	"step": 21
	},
	{
	"epoch": 0.04812687995624829,
	"grad_norm": 0.02983052283525467,
	"learning_rate": 0.00047826086956521735,
	"loss": 0.8323,
	"step": 22
	},
	{
	"epoch": 0.050314465408805034,
	"grad_norm": 0.09363115578889847,
	"learning_rate": 0.0005,
	"loss": 0.6885,
	"step": 23
	},
	{
	"epoch": 0.052502050861361775,
	"grad_norm": 0.47768905758857727,
	"learning_rate": 0.0005217391304347826,
	"loss": 1.0143,
	"step": 24
	},
	{
	"epoch": 0.05468963631391851,
	"grad_norm": 0.1065075695514679,
	"learning_rate": 0.0005434782608695652,
	"loss": 0.8331,
	"step": 25
	},
	{
	"epoch": 0.05687722176647525,
	"grad_norm": 0.023991186171770096,
	"learning_rate": 0.0005652173913043479,
	"loss": 0.837,
	"step": 26
	},
	{
	"epoch": 0.05906480721903199,
	"grad_norm": 0.020501986145973206,
	"learning_rate": 0.0005869565217391304,
	"loss": 0.7117,
	"step": 27
	},
	{
	"epoch": 0.06125239267158873,
	"grad_norm": 0.052776217460632324,
	"learning_rate": 0.0006086956521739131,
	"loss": 0.9429,
	"step": 28
	},
	{
	"epoch": 0.06343997812414548,
	"grad_norm": 0.0542248971760273,
	"learning_rate": 0.0006304347826086957,
	"loss": 0.7759,
	"step": 29
	},
	{
	"epoch": 0.06562756357670221,
	"grad_norm": 0.061998218297958374,
	"learning_rate": 0.0006521739130434782,
	"loss": 0.7904,
	"step": 30
	},
	{
	"epoch": 0.06781514902925896,
	"grad_norm": 0.03401396796107292,
	"learning_rate": 0.0006739130434782609,
	"loss": 0.7386,
	"step": 31
	},
	{
	"epoch": 0.0700027344818157,
	"grad_norm": 0.027073826640844345,
	"learning_rate": 0.0006956521739130435,
	"loss": 0.6702,
	"step": 32
	},
	{
	"epoch": 0.07219031993437244,
	"grad_norm": 0.0468217171728611,
	"learning_rate": 0.0007173913043478261,
	"loss": 0.9944,
	"step": 33
	},
	{
	"epoch": 0.07437790538692918,
	"grad_norm": 0.1130312904715538,
	"learning_rate": 0.0007391304347826087,
	"loss": 0.8396,
	"step": 34
	},
	{
	"epoch": 0.07656549083948591,
	"grad_norm": 0.05662137269973755,
	"learning_rate": 0.0007608695652173914,
	"loss": 0.918,
	"step": 35
	},
	{
	"epoch": 0.07875307629204266,
	"grad_norm": 0.030792295932769775,
	"learning_rate": 0.000782608695652174,
	"loss": 1.0882,
	"step": 36
	},
	{
	"epoch": 0.0809406617445994,
	"grad_norm": 0.02346004731953144,
	"learning_rate": 0.0008043478260869566,
	"loss": 0.9276,
	"step": 37
	},
	{
	"epoch": 0.08312824719715614,
	"grad_norm": 0.0640161782503128,
	"learning_rate": 0.0008260869565217392,
	"loss": 0.9607,
	"step": 38
	},
	{
	"epoch": 0.08531583264971287,
	"grad_norm": 0.01127663068473339,
	"learning_rate": 0.0008478260869565217,
	"loss": 0.7476,
	"step": 39
	},
	{
	"epoch": 0.08750341810226962,
	"grad_norm": 0.020388390868902206,
	"learning_rate": 0.0008695652173913044,
	"loss": 0.9294,
	"step": 40
	},
	{
	"epoch": 0.08969100355482636,
	"grad_norm": 0.011159627698361874,
	"learning_rate": 0.0008913043478260869,
	"loss": 0.7403,
	"step": 41
	},
	{
	"epoch": 0.0918785890073831,
	"grad_norm": 0.01922360621392727,
	"learning_rate": 0.0009130434782608696,
	"loss": 0.9901,
	"step": 42
	},
	{
	"epoch": 0.09406617445993984,
	"grad_norm": 0.022499792277812958,
	"learning_rate": 0.0009347826086956521,
	"loss": 0.8491,
	"step": 43
	},
	{
	"epoch": 0.09625375991249659,
	"grad_norm": 0.019557347521185875,
	"learning_rate": 0.0009565217391304347,
	"loss": 0.8855,
	"step": 44
	},
	{
	"epoch": 0.09844134536505332,
	"grad_norm": 0.023644007742404938,
	"learning_rate": 0.0009782608695652175,
	"loss": 0.6828,
	"step": 45
	},
	{
	"epoch": 0.10062893081761007,
	"grad_norm": 0.0180030707269907,
	"learning_rate": 0.001,
	"loss": 1.0325,
	"step": 46
	},
	{
	"epoch": 0.1028165162701668,
	"grad_norm": 0.026917221024632454,
	"learning_rate": 0.0010217391304347826,
	"loss": 1.0596,
	"step": 47
	},
	{
	"epoch": 0.10500410172272355,
	"grad_norm": 0.016843197867274284,
	"learning_rate": 0.0010434782608695651,
	"loss": 0.6183,
	"step": 48
	},
	{
	"epoch": 0.10719168717528028,
	"grad_norm": 0.0393221415579319,
	"learning_rate": 0.001065217391304348,
	"loss": 0.9009,
	"step": 49
	},
	{
	"epoch": 0.10937927262783702,
	"grad_norm": 0.025003232061862946,
	"learning_rate": 0.0010869565217391304,
	"loss": 0.9701,
	"step": 50
	},
	{
	"epoch": 0.11156685808039377,
	"grad_norm": 0.029358206316828728,
	"learning_rate": 0.001108695652173913,
	"loss": 0.8351,
	"step": 51
	},
	{
	"epoch": 0.1137544435329505,
	"grad_norm": 0.02484138496220112,
	"learning_rate": 0.0011304347826086958,
	"loss": 0.906,
	"step": 52
	},
	{
	"epoch": 0.11594202898550725,
	"grad_norm": 0.012963383458554745,
	"learning_rate": 0.0011521739130434783,
	"loss": 1.098,
	"step": 53
	},
	{
	"epoch": 0.11812961443806398,
	"grad_norm": 0.022173907607793808,
	"learning_rate": 0.0011739130434782609,
	"loss": 0.9086,
	"step": 54
	},
	{
	"epoch": 0.12031719989062073,
	"grad_norm": 0.018844394013285637,
	"learning_rate": 0.0011956521739130434,
	"loss": 0.8087,
	"step": 55
	},
	{
	"epoch": 0.12250478534317746,
	"grad_norm": 0.01081649400293827,
	"learning_rate": 0.0012173913043478262,
	"loss": 0.6714,
	"step": 56
	},
	{
	"epoch": 0.12469237079573421,
	"grad_norm": 0.012590788304805756,
	"learning_rate": 0.0012391304347826087,
	"loss": 0.8224,
	"step": 57
	},
	{
	"epoch": 0.12687995624829096,
	"grad_norm": 0.007173096761107445,
	"learning_rate": 0.0012608695652173913,
	"loss": 0.9208,
	"step": 58
	},
	{
	"epoch": 0.1290675417008477,
	"grad_norm": 0.023659205064177513,
	"learning_rate": 0.001282608695652174,
	"loss": 0.8385,
	"step": 59
	},
	{
	"epoch": 0.13125512715340443,
	"grad_norm": 0.016100220382213593,
	"learning_rate": 0.0013043478260869564,
	"loss": 0.6562,
	"step": 60
	},
	{
	"epoch": 0.13344271260596116,
	"grad_norm": 0.01680757850408554,
	"learning_rate": 0.0013260869565217392,
	"loss": 0.8996,
	"step": 61
	},
	{
	"epoch": 0.13563029805851792,
	"grad_norm": 0.02230382151901722,
	"learning_rate": 0.0013478260869565217,
	"loss": 0.7927,
	"step": 62
	},
	{
	"epoch": 0.13781788351107466,
	"grad_norm": 0.03682897984981537,
	"learning_rate": 0.0013695652173913043,
	"loss": 0.8507,
	"step": 63
	},
	{
	"epoch": 0.1400054689636314,
	"grad_norm": 0.02873164229094982,
	"learning_rate": 0.001391304347826087,
	"loss": 0.7379,
	"step": 64
	},
	{
	"epoch": 0.14219305441618812,
	"grad_norm": 0.08291471749544144,
	"learning_rate": 0.0014130434782608696,
	"loss": 0.9686,
	"step": 65
	},
	{
	"epoch": 0.1443806398687449,
	"grad_norm": 0.005648148711770773,
	"learning_rate": 0.0014347826086956522,
	"loss": 0.9365,
	"step": 66
	},
	{
	"epoch": 0.14656822532130162,
	"grad_norm": 0.010281619615852833,
	"learning_rate": 0.0014565217391304347,
	"loss": 0.7989,
	"step": 67
	},
	{
	"epoch": 0.14875581077385835,
	"grad_norm": 0.010221214964985847,
	"learning_rate": 0.0014782608695652175,
	"loss": 0.7567,
	"step": 68
	},
	{
	"epoch": 0.1509433962264151,
	"grad_norm": 0.008735002018511295,
	"learning_rate": 0.0015,
	"loss": 0.9644,
	"step": 69
	},
	{
	"epoch": 0.15313098167897182,
	"grad_norm": 0.021798064932227135,
	"learning_rate": 0.0015217391304347828,
	"loss": 0.8451,
	"step": 70
	},
	{
	"epoch": 0.15531856713152858,
	"grad_norm": 0.011285695247352123,
	"learning_rate": 0.0015434782608695651,
	"loss": 0.9334,
	"step": 71
	},
	{
	"epoch": 0.15750615258408532,
	"grad_norm": 0.005321874748915434,
	"learning_rate": 0.001565217391304348,
	"loss": 0.9424,
	"step": 72
	},
	{
	"epoch": 0.15969373803664205,
	"grad_norm": 0.010020822286605835,
	"learning_rate": 0.0015869565217391305,
	"loss": 0.7219,
	"step": 73
	},
	{
	"epoch": 0.1618813234891988,
	"grad_norm": 0.008384345099329948,
	"learning_rate": 0.0016086956521739132,
	"loss": 0.8169,
	"step": 74
	},
	{
	"epoch": 0.16406890894175555,
	"grad_norm": 0.010866906493902206,
	"learning_rate": 0.0016304347826086956,
	"loss": 0.7556,
	"step": 75
	},
	{
	"epoch": 0.16625649439431228,
	"grad_norm": 0.01588907279074192,
	"learning_rate": 0.0016521739130434783,
	"loss": 0.766,
	"step": 76
	},
	{
	"epoch": 0.16844407984686902,
	"grad_norm": 0.018410617485642433,
	"learning_rate": 0.001673913043478261,
	"loss": 0.8201,
	"step": 77
	},
	{
	"epoch": 0.17063166529942575,
	"grad_norm": 0.01711914874613285,
	"learning_rate": 0.0016956521739130434,
	"loss": 1.0454,
	"step": 78
	},
	{
	"epoch": 0.1728192507519825,
	"grad_norm": 0.040495071560144424,
	"learning_rate": 0.001717391304347826,
	"loss": 0.9048,
	"step": 79
	},
	{
	"epoch": 0.17500683620453925,
	"grad_norm": 0.008844586089253426,
	"learning_rate": 0.0017391304347826088,
	"loss": 0.9716,
	"step": 80
	},
	{
	"epoch": 0.17719442165709598,
	"grad_norm": 0.020504243671894073,
	"learning_rate": 0.0017608695652173915,
	"loss": 0.706,
	"step": 81
	},
	{
	"epoch": 0.1793820071096527,
	"grad_norm": 0.005656155291944742,
	"learning_rate": 0.0017826086956521739,
	"loss": 0.8948,
	"step": 82
	},
	{
	"epoch": 0.18156959256220945,
	"grad_norm": 0.011604691855609417,
	"learning_rate": 0.0018043478260869566,
	"loss": 0.9465,
	"step": 83
	},
	{
	"epoch": 0.1837571780147662,
	"grad_norm": 0.004078141879290342,
	"learning_rate": 0.0018260869565217392,
	"loss": 0.9462,
	"step": 84
	},
	{
	"epoch": 0.18594476346732294,
	"grad_norm": 0.008594767190515995,
	"learning_rate": 0.0018478260869565217,
	"loss": 0.9287,
	"step": 85
	},
	{
	"epoch": 0.18813234891987968,
	"grad_norm": 0.008353278040885925,
	"learning_rate": 0.0018695652173913043,
	"loss": 0.8743,
	"step": 86
	},
	{
	"epoch": 0.1903199343724364,
	"grad_norm": 0.010675789788365364,
	"learning_rate": 0.001891304347826087,
	"loss": 0.7836,
	"step": 87
	},
	{
	"epoch": 0.19250751982499317,
	"grad_norm": 0.004695142153650522,
	"learning_rate": 0.0019130434782608694,
	"loss": 0.7587,
	"step": 88
	},
	{
	"epoch": 0.1946951052775499,
	"grad_norm": 0.005462712608277798,
	"learning_rate": 0.0019347826086956522,
	"loss": 0.9685,
	"step": 89
	},
	{
	"epoch": 0.19688269073010664,
	"grad_norm": 0.005652555730193853,
	"learning_rate": 0.001956521739130435,
	"loss": 0.7821,
	"step": 90
	},
	{
	"epoch": 0.19907027618266337,
	"grad_norm": 0.0058873966336250305,
	"learning_rate": 0.0019782608695652175,
	"loss": 0.8027,
	"step": 91
	},
	{
	"epoch": 0.20125786163522014,
	"grad_norm": 0.004672915209084749,
	"learning_rate": 0.002,
	"loss": 0.8367,
	"step": 92
	},
	{
	"epoch": 0.20344544708777687,
	"grad_norm": 0.004535092506557703,
	"learning_rate": 0.0020217391304347826,
	"loss": 0.7124,
	"step": 93
	},
	{
	"epoch": 0.2056330325403336,
	"grad_norm": 0.003576159942895174,
	"learning_rate": 0.002043478260869565,
	"loss": 0.8596,
	"step": 94
	},
	{
	"epoch": 0.20782061799289034,
	"grad_norm": 0.005423200782388449,
	"learning_rate": 0.0020652173913043477,
	"loss": 0.8582,
	"step": 95
	},
	{
	"epoch": 0.2100082034454471,
	"grad_norm": 0.00573402363806963,
	"learning_rate": 0.0020869565217391303,
	"loss": 0.6699,
	"step": 96
	},
	{
	"epoch": 0.21219578889800383,
	"grad_norm": 0.004158989991992712,
	"learning_rate": 0.0021086956521739132,
	"loss": 0.9819,
	"step": 97
	},
	{
	"epoch": 0.21438337435056057,
	"grad_norm": 0.009630310349166393,
	"learning_rate": 0.002130434782608696,
	"loss": 1.0568,
	"step": 98
	},
	{
	"epoch": 0.2165709598031173,
	"grad_norm": 0.006703687831759453,
	"learning_rate": 0.0021521739130434783,
	"loss": 0.7342,
	"step": 99
	},
	{
	"epoch": 0.21875854525567404,
	"grad_norm": 0.008040892891585827,
	"learning_rate": 0.002173913043478261,
	"loss": 0.8339,
	"step": 100
	},
	{
	"epoch": 0.2209461307082308,
	"grad_norm": 0.00757247768342495,
	"learning_rate": 0.0021956521739130434,
	"loss": 0.934,
	"step": 101
	},
	{
	"epoch": 0.22313371616078753,
	"grad_norm": 0.009981849230825901,
	"learning_rate": 0.002217391304347826,
	"loss": 0.9303,
	"step": 102
	},
	{
	"epoch": 0.22532130161334427,
	"grad_norm": 0.007599060423672199,
	"learning_rate": 0.0022391304347826086,
	"loss": 0.7928,
	"step": 103
	},
	{
	"epoch": 0.227508887065901,
	"grad_norm": 0.010048196651041508,
	"learning_rate": 0.0022608695652173915,
	"loss": 0.8811,
	"step": 104
	},
	{
	"epoch": 0.22969647251845776,
	"grad_norm": 0.008185365237295628,
	"learning_rate": 0.002282608695652174,
	"loss": 0.8586,
	"step": 105
	},
	{
	"epoch": 0.2318840579710145,
	"grad_norm": 0.02917146123945713,
	"learning_rate": 0.0023043478260869566,
	"loss": 0.8296,
	"step": 106
	},
	{
	"epoch": 0.23407164342357123,
	"grad_norm": 0.03497055917978287,
	"learning_rate": 0.002326086956521739,
	"loss": 0.9071,
	"step": 107
	},
	{
	"epoch": 0.23625922887612796,
	"grad_norm": 0.0127785699442029,
	"learning_rate": 0.0023478260869565218,
	"loss": 0.8497,
	"step": 108
	},
	{
	"epoch": 0.23844681432868473,
	"grad_norm": 0.007704317104071379,
	"learning_rate": 0.0023695652173913043,
	"loss": 0.836,
	"step": 109
	},
	{
	"epoch": 0.24063439978124146,
	"grad_norm": 0.007215225137770176,
	"learning_rate": 0.002391304347826087,
	"loss": 0.9434,
	"step": 110
	},
	{
	"epoch": 0.2428219852337982,
	"grad_norm": 0.008061757311224937,
	"learning_rate": 0.00241304347826087,
	"loss": 0.9648,
	"step": 111
	},
	{
	"epoch": 0.24500957068635493,
	"grad_norm": 0.007565490435808897,
	"learning_rate": 0.0024347826086956524,
	"loss": 0.9409,
	"step": 112
	},
	{
	"epoch": 0.2471971561389117,
	"grad_norm": 0.00492995698004961,
	"learning_rate": 0.002456521739130435,
	"loss": 0.8753,
	"step": 113
	},
	{
	"epoch": 0.24938474159146842,
	"grad_norm": 0.005053890403360128,
	"learning_rate": 0.0024782608695652175,
	"loss": 0.8239,
	"step": 114
	},
	{
	"epoch": 0.25157232704402516,
	"grad_norm": 0.009602397680282593,
	"learning_rate": 0.0025,
	"loss": 0.7825,
	"step": 115
	},
	{
	"epoch": 0.2537599124965819,
	"grad_norm": 0.004248041659593582,
	"learning_rate": 0.0025217391304347826,
	"loss": 0.7295,
	"step": 116
	},
	{
	"epoch": 0.2559474979491386,
	"grad_norm": 0.009284190833568573,
	"learning_rate": 0.002543478260869565,
	"loss": 0.9205,
	"step": 117
	},
	{
	"epoch": 0.2581350834016954,
	"grad_norm": 0.00780320493504405,
	"learning_rate": 0.002565217391304348,
	"loss": 0.8928,
	"step": 118
	},
	{
	"epoch": 0.2603226688542521,
	"grad_norm": 0.014100235886871815,
	"learning_rate": 0.0025869565217391307,
	"loss": 1.0,
	"step": 119
	},
	{
	"epoch": 0.26251025430680885,
	"grad_norm": 0.0031979018822312355,
	"learning_rate": 0.002608695652173913,
	"loss": 0.8661,
	"step": 120
	},
	{
	"epoch": 0.2646978397593656,
	"grad_norm": 0.010853100568056107,
	"learning_rate": 0.002630434782608696,
	"loss": 0.7197,
	"step": 121
	},
	{
	"epoch": 0.2668854252119223,
	"grad_norm": 0.00902815256267786,
	"learning_rate": 0.0026521739130434784,
	"loss": 0.8987,
	"step": 122
	},
	{
	"epoch": 0.2690730106644791,
	"grad_norm": 0.006882428657263517,
	"learning_rate": 0.002673913043478261,
	"loss": 0.7676,
	"step": 123
	},
	{
	"epoch": 0.27126059611703585,
	"grad_norm": 0.014947020448744297,
	"learning_rate": 0.0026956521739130435,
	"loss": 0.8857,
	"step": 124
	},
	{
	"epoch": 0.27344818156959255,
	"grad_norm": 0.005454353056848049,
	"learning_rate": 0.002717391304347826,
	"loss": 0.7277,
	"step": 125
	},
	{
	"epoch": 0.2756357670221493,
	"grad_norm": 0.0050047156400978565,
	"learning_rate": 0.0027391304347826086,
	"loss": 0.9257,
	"step": 126
	},
	{
	"epoch": 0.277823352474706,
	"grad_norm": 0.008737878873944283,
	"learning_rate": 0.002760869565217391,
	"loss": 0.8598,
	"step": 127
	},
	{
	"epoch": 0.2800109379272628,
	"grad_norm": 0.008086539804935455,
	"learning_rate": 0.002782608695652174,
	"loss": 0.9844,
	"step": 128
	},
	{
	"epoch": 0.28219852337981954,
	"grad_norm": 0.01979847252368927,
	"learning_rate": 0.0028043478260869567,
	"loss": 0.9718,
	"step": 129
	},
	{
	"epoch": 0.28438610883237625,
	"grad_norm": 0.016869032755494118,
	"learning_rate": 0.002826086956521739,
	"loss": 0.8311,
	"step": 130
	},
	{
	"epoch": 0.286573694284933,
	"grad_norm": 0.008929664269089699,
	"learning_rate": 0.0028478260869565218,
	"loss": 0.6482,
	"step": 131
	},
	{
	"epoch": 0.2887612797374898,
	"grad_norm": 0.013361562974750996,
	"learning_rate": 0.0028695652173913043,
	"loss": 0.991,
	"step": 132
	},
	{
	"epoch": 0.2909488651900465,
	"grad_norm": 0.0223986953496933,
	"learning_rate": 0.002891304347826087,
	"loss": 0.8566,
	"step": 133
	},
	{
	"epoch": 0.29313645064260324,
	"grad_norm": 0.00690645445138216,
	"learning_rate": 0.0029130434782608694,
	"loss": 0.7706,
	"step": 134
	},
	{
	"epoch": 0.29532403609515995,
	"grad_norm": 0.007177585270255804,
	"learning_rate": 0.0029347826086956524,
	"loss": 0.7896,
	"step": 135
	},
	{
	"epoch": 0.2975116215477167,
	"grad_norm": 0.024162376299500465,
	"learning_rate": 0.002956521739130435,
	"loss": 0.8316,
	"step": 136
	},
	{
	"epoch": 0.29969920700027347,
	"grad_norm": 0.009236878715455532,
	"learning_rate": 0.0029782608695652175,
	"loss": 0.7563,
	"step": 137
	},
	{
	"epoch": 0.3018867924528302,
	"grad_norm": 0.008098084479570389,
	"learning_rate": 0.003,
	"loss": 0.9313,
	"step": 138
	},
	{
	"epoch": 0.30407437790538694,
	"grad_norm": 0.01629616692662239,
	"learning_rate": 0.002997566909975669,
	"loss": 0.7942,
	"step": 139
	},
	{
	"epoch": 0.30626196335794365,
	"grad_norm": 0.013256334699690342,
	"learning_rate": 0.0029951338199513382,
	"loss": 0.819,
	"step": 140
	},
	{
	"epoch": 0.3084495488105004,
	"grad_norm": 0.016614550724625587,
	"learning_rate": 0.0029927007299270073,
	"loss": 0.823,
	"step": 141
	},
	{
	"epoch": 0.31063713426305717,
	"grad_norm": 0.015185157768428326,
	"learning_rate": 0.0029902676399026764,
	"loss": 0.8534,
	"step": 142
	},
	{
	"epoch": 0.3128247197156139,
	"grad_norm": 0.012511268258094788,
	"learning_rate": 0.0029878345498783455,
	"loss": 1.0021,
	"step": 143
	},
	{
	"epoch": 0.31501230516817064,
	"grad_norm": 0.03368072584271431,
	"learning_rate": 0.0029854014598540146,
	"loss": 0.9333,
	"step": 144
	},
	{
	"epoch": 0.3171998906207274,
	"grad_norm": 0.014194028452038765,
	"learning_rate": 0.0029829683698296837,
	"loss": 0.7353,
	"step": 145
	},
	{
	"epoch": 0.3193874760732841,
	"grad_norm": 0.022817425429821014,
	"learning_rate": 0.002980535279805353,
	"loss": 0.8653,
	"step": 146
	},
	{
	"epoch": 0.32157506152584087,
	"grad_norm": 0.034395311027765274,
	"learning_rate": 0.002978102189781022,
	"loss": 0.7872,
	"step": 147
	},
	{
	"epoch": 0.3237626469783976,
	"grad_norm": 0.04415661096572876,
	"learning_rate": 0.002975669099756691,
	"loss": 0.8668,
	"step": 148
	},
	{
	"epoch": 0.32595023243095433,
	"grad_norm": 0.013315894640982151,
	"learning_rate": 0.0029732360097323605,
	"loss": 0.7012,
	"step": 149
	},
	{
	"epoch": 0.3281378178835111,
	"grad_norm": 0.01931261457502842,
	"learning_rate": 0.002970802919708029,
	"loss": 0.6949,
	"step": 150
	},
	{
	"epoch": 0.3303254033360678,
	"grad_norm": 0.01766936294734478,
	"learning_rate": 0.0029683698296836983,
	"loss": 1.0637,
	"step": 151
	},
	{
	"epoch": 0.33251298878862456,
	"grad_norm": 0.04097762331366539,
	"learning_rate": 0.002965936739659368,
	"loss": 0.6945,
	"step": 152
	},
	{
	"epoch": 0.33470057424118127,
	"grad_norm": 0.019335204735398293,
	"learning_rate": 0.0029635036496350364,
	"loss": 0.9677,
	"step": 153
	},
	{
	"epoch": 0.33688815969373803,
	"grad_norm": 0.02775772474706173,
	"learning_rate": 0.0029610705596107055,
	"loss": 0.9445,
	"step": 154
	},
	{
	"epoch": 0.3390757451462948,
	"grad_norm": 0.012738276273012161,
	"learning_rate": 0.002958637469586375,
	"loss": 0.7254,
	"step": 155
	},
	{
	"epoch": 0.3412633305988515,
	"grad_norm": 0.025990145280957222,
	"learning_rate": 0.0029562043795620437,
	"loss": 0.7296,
	"step": 156
	},
	{
	"epoch": 0.34345091605140826,
	"grad_norm": 0.08288227766752243,
	"learning_rate": 0.002953771289537713,
	"loss": 0.8595,
	"step": 157
	},
	{
	"epoch": 0.345638501503965,
	"grad_norm": 0.05340643599629402,
	"learning_rate": 0.002951338199513382,
	"loss": 0.7425,
	"step": 158
	},
	{
	"epoch": 0.34782608695652173,
	"grad_norm": 0.030417539179325104,
	"learning_rate": 0.0029489051094890514,
	"loss": 0.7976,
	"step": 159
	},
	{
	"epoch": 0.3500136724090785,
	"grad_norm": 0.04232973977923393,
	"learning_rate": 0.00294647201946472,
	"loss": 0.8764,
	"step": 160
	},
	{
	"epoch": 0.3522012578616352,
	"grad_norm": 0.025519737973809242,
	"learning_rate": 0.002944038929440389,
	"loss": 0.8247,
	"step": 161
	},
	{
	"epoch": 0.35438884331419196,
	"grad_norm": 0.046103380620479584,
	"learning_rate": 0.0029416058394160587,
	"loss": 0.8432,
	"step": 162
	},
	{
	"epoch": 0.3565764287667487,
	"grad_norm": 0.01843344047665596,
	"learning_rate": 0.0029391727493917274,
	"loss": 0.8721,
	"step": 163
	},
	{
	"epoch": 0.3587640142193054,
	"grad_norm": 0.029839089140295982,
	"learning_rate": 0.0029367396593673965,
	"loss": 0.7955,
	"step": 164
	},
	{
	"epoch": 0.3609515996718622,
	"grad_norm": 0.023799125105142593,
	"learning_rate": 0.002934306569343066,
	"loss": 0.8929,
	"step": 165
	},
	{
	"epoch": 0.3631391851244189,
	"grad_norm": 0.01695132628083229,
	"learning_rate": 0.0029318734793187346,
	"loss": 0.8149,
	"step": 166
	},
	{
	"epoch": 0.36532677057697566,
	"grad_norm": 0.01710570976138115,
	"learning_rate": 0.0029294403892944037,
	"loss": 0.9953,
	"step": 167
	},
	{
	"epoch": 0.3675143560295324,
	"grad_norm": 0.008958813734352589,
	"learning_rate": 0.0029270072992700733,
	"loss": 0.6486,
	"step": 168
	},
	{
	"epoch": 0.3697019414820891,
	"grad_norm": 0.02033080905675888,
	"learning_rate": 0.002924574209245742,
	"loss": 0.7759,
	"step": 169
	},
	{
	"epoch": 0.3718895269346459,
	"grad_norm": 0.01737876608967781,
	"learning_rate": 0.002922141119221411,
	"loss": 0.7998,
	"step": 170
	},
	{
	"epoch": 0.37407711238720265,
	"grad_norm": 0.011925026774406433,
	"learning_rate": 0.0029197080291970805,
	"loss": 0.6405,
	"step": 171
	},
	{
	"epoch": 0.37626469783975935,
	"grad_norm": 0.010621492750942707,
	"learning_rate": 0.0029172749391727496,
	"loss": 0.735,
	"step": 172
	},
	{
	"epoch": 0.3784522832923161,
	"grad_norm": 0.02744341269135475,
	"learning_rate": 0.0029148418491484183,
	"loss": 0.9386,
	"step": 173
	},
	{
	"epoch": 0.3806398687448728,
	"grad_norm": 0.010641987435519695,
	"learning_rate": 0.002912408759124088,
	"loss": 0.6368,
	"step": 174
	},
	{
	"epoch": 0.3828274541974296,
	"grad_norm": 0.016506191343069077,
	"learning_rate": 0.002909975669099757,
	"loss": 0.7212,
	"step": 175
	},
	{
	"epoch": 0.38501503964998635,
	"grad_norm": 0.029457593336701393,
	"learning_rate": 0.0029075425790754256,
	"loss": 0.8386,
	"step": 176
	},
	{
	"epoch": 0.38720262510254305,
	"grad_norm": 0.008680049329996109,
	"learning_rate": 0.002905109489051095,
	"loss": 0.8827,
	"step": 177
	},
	{
	"epoch": 0.3893902105550998,
	"grad_norm": 0.029479682445526123,
	"learning_rate": 0.002902676399026764,
	"loss": 0.797,
	"step": 178
	},
	{
	"epoch": 0.3915777960076566,
	"grad_norm": 0.01670117862522602,
	"learning_rate": 0.002900243309002433,
	"loss": 0.7164,
	"step": 179
	},
	{
	"epoch": 0.3937653814602133,
	"grad_norm": 0.019070839509367943,
	"learning_rate": 0.0028978102189781024,
	"loss": 0.7425,
	"step": 180
	},
	{
	"epoch": 0.39595296691277004,
	"grad_norm": 0.010363463312387466,
	"learning_rate": 0.0028953771289537715,
	"loss": 0.9502,
	"step": 181
	},
	{
	"epoch": 0.39814055236532675,
	"grad_norm": 0.02518656477332115,
	"learning_rate": 0.0028929440389294406,
	"loss": 0.7689,
	"step": 182
	},
	{
	"epoch": 0.4003281378178835,
	"grad_norm": 0.014663388952612877,
	"learning_rate": 0.0028905109489051097,
	"loss": 0.8839,
	"step": 183
	},
	{
	"epoch": 0.4025157232704403,
	"grad_norm": 0.009784224443137646,
	"learning_rate": 0.0028880778588807787,
	"loss": 0.82,
	"step": 184
	},
	{
	"epoch": 0.404703308722997,
	"grad_norm": 0.02763255313038826,
	"learning_rate": 0.002885644768856448,
	"loss": 0.8051,
	"step": 185
	},
	{
	"epoch": 0.40689089417555374,
	"grad_norm": 0.023367729038000107,
	"learning_rate": 0.002883211678832117,
	"loss": 0.7191,
	"step": 186
	},
	{
	"epoch": 0.40907847962811045,
	"grad_norm": 0.025467796251177788,
	"learning_rate": 0.002880778588807786,
	"loss": 0.7385,
	"step": 187
	},
	{
	"epoch": 0.4112660650806672,
	"grad_norm": 0.03302817419171333,
	"learning_rate": 0.002878345498783455,
	"loss": 0.6099,
	"step": 188
	},
	{
	"epoch": 0.41345365053322397,
	"grad_norm": 0.016808858141303062,
	"learning_rate": 0.002875912408759124,
	"loss": 0.687,
	"step": 189
	},
	{
	"epoch": 0.4156412359857807,
	"grad_norm": 0.030584512278437614,
	"learning_rate": 0.0028734793187347933,
	"loss": 0.7922,
	"step": 190
	},
	{
	"epoch": 0.41782882143833744,
	"grad_norm": 0.05187975615262985,
	"learning_rate": 0.0028710462287104624,
	"loss": 0.8282,
	"step": 191
	},
	{
	"epoch": 0.4200164068908942,
	"grad_norm": 0.03264329209923744,
	"learning_rate": 0.0028686131386861315,
	"loss": 0.542,
	"step": 192
	},
	{
	"epoch": 0.4222039923434509,
	"grad_norm": 0.08889129012823105,
	"learning_rate": 0.0028661800486618006,
	"loss": 0.7642,
	"step": 193
	},
	{
	"epoch": 0.42439157779600767,
	"grad_norm": 0.017528299242258072,
	"learning_rate": 0.0028637469586374697,
	"loss": 1.0019,
	"step": 194
	},
	{
	"epoch": 0.4265791632485644,
	"grad_norm": 0.042831018567085266,
	"learning_rate": 0.0028613138686131388,
	"loss": 0.7849,
	"step": 195
	},
	{
	"epoch": 0.42876674870112114,
	"grad_norm": 0.06844168901443481,
	"learning_rate": 0.002858880778588808,
	"loss": 0.8431,
	"step": 196
	},
	{
	"epoch": 0.4309543341536779,
	"grad_norm": 0.056285906583070755,
	"learning_rate": 0.002856447688564477,
	"loss": 0.766,
	"step": 197
	},
	{
	"epoch": 0.4331419196062346,
	"grad_norm": 0.03165756165981293,
	"learning_rate": 0.002854014598540146,
	"loss": 0.526,
	"step": 198
	},
	{
	"epoch": 0.43532950505879137,
	"grad_norm": 0.01906641758978367,
	"learning_rate": 0.002851581508515815,
	"loss": 0.634,
	"step": 199
	},
	{
	"epoch": 0.4375170905113481,
	"grad_norm": 0.03528127446770668,
	"learning_rate": 0.0028491484184914842,
	"loss": 0.7152,
	"step": 200
	},
	{
	"epoch": 0.43970467596390483,
	"grad_norm": 0.03441726043820381,
	"learning_rate": 0.0028467153284671533,
	"loss": 0.807,
	"step": 201
	},
	{
	"epoch": 0.4418922614164616,
	"grad_norm": 0.07585262507200241,
	"learning_rate": 0.0028442822384428224,
	"loss": 0.8068,
	"step": 202
	},
	{
	"epoch": 0.4440798468690183,
	"grad_norm": 0.04637427628040314,
	"learning_rate": 0.0028418491484184915,
	"loss": 0.6726,
	"step": 203
	},
	{
	"epoch": 0.44626743232157506,
	"grad_norm": 0.014708532020449638,
	"learning_rate": 0.0028394160583941606,
	"loss": 0.7633,
	"step": 204
	},
	{
	"epoch": 0.4484550177741318,
	"grad_norm": 0.06609700620174408,
	"learning_rate": 0.0028369829683698297,
	"loss": 0.9395,
	"step": 205
	},
	{
	"epoch": 0.45064260322668853,
	"grad_norm": 0.014884551987051964,
	"learning_rate": 0.0028345498783454988,
	"loss": 0.7629,
	"step": 206
	},
	{
	"epoch": 0.4528301886792453,
	"grad_norm": 0.02310200408101082,
	"learning_rate": 0.002832116788321168,
	"loss": 0.6696,
	"step": 207
	},
	{
	"epoch": 0.455017774131802,
	"grad_norm": 0.020516803488135338,
	"learning_rate": 0.002829683698296837,
	"loss": 0.6966,
	"step": 208
	},
	{
	"epoch": 0.45720535958435876,
	"grad_norm": 0.018198775127530098,
	"learning_rate": 0.002827250608272506,
	"loss": 0.936,
	"step": 209
	},
	{
	"epoch": 0.4593929450369155,
	"grad_norm": 0.032083529978990555,
	"learning_rate": 0.002824817518248175,
	"loss": 0.853,
	"step": 210
	},
	{
	"epoch": 0.46158053048947223,
	"grad_norm": 0.01605304516851902,
	"learning_rate": 0.0028223844282238442,
	"loss": 0.8602,
	"step": 211
	},
	{
	"epoch": 0.463768115942029,
	"grad_norm": 0.024932844564318657,
	"learning_rate": 0.0028199513381995133,
	"loss": 0.9888,
	"step": 212
	},
	{
	"epoch": 0.46595570139458575,
	"grad_norm": 0.04917526990175247,
	"learning_rate": 0.0028175182481751824,
	"loss": 0.7155,
	"step": 213
	},
	{
	"epoch": 0.46814328684714246,
	"grad_norm": 0.017666855826973915,
	"learning_rate": 0.002815085158150852,
	"loss": 0.7597,
	"step": 214
	},
	{
	"epoch": 0.4703308722996992,
	"grad_norm": 0.06158105283975601,
	"learning_rate": 0.0028126520681265206,
	"loss": 0.808,
	"step": 215
	},
	{
	"epoch": 0.4725184577522559,
	"grad_norm": 0.028100378811359406,
	"learning_rate": 0.0028102189781021897,
	"loss": 0.8217,
	"step": 216
	},
	{
	"epoch": 0.4747060432048127,
	"grad_norm": 0.02049509435892105,
	"learning_rate": 0.0028077858880778592,
	"loss": 0.8441,
	"step": 217
	},
	{
	"epoch": 0.47689362865736945,
	"grad_norm": 0.018524937331676483,
	"learning_rate": 0.002805352798053528,
	"loss": 0.7565,
	"step": 218
	},
	{
	"epoch": 0.47908121410992616,
	"grad_norm": 0.017941996455192566,
	"learning_rate": 0.002802919708029197,
	"loss": 0.7098,
	"step": 219
	},
	{
	"epoch": 0.4812687995624829,
	"grad_norm": 0.042154472321271896,
	"learning_rate": 0.0028004866180048665,
	"loss": 0.8742,
	"step": 220
	},
	{
	"epoch": 0.4834563850150396,
	"grad_norm": 0.026872573420405388,
	"learning_rate": 0.002798053527980535,
	"loss": 0.7273,
	"step": 221
	},
	{
	"epoch": 0.4856439704675964,
	"grad_norm": 0.02051514759659767,
	"learning_rate": 0.0027956204379562043,
	"loss": 0.795,
	"step": 222
	},
	{
	"epoch": 0.48783155592015315,
	"grad_norm": 0.02145540714263916,
	"learning_rate": 0.0027931873479318738,
	"loss": 0.8192,
	"step": 223
	},
	{
	"epoch": 0.49001914137270985,
	"grad_norm": 0.04769520461559296,
	"learning_rate": 0.002790754257907543,
	"loss": 0.8592,
	"step": 224
	},
	{
	"epoch": 0.4922067268252666,
	"grad_norm": 0.01415792852640152,
	"learning_rate": 0.0027883211678832115,
	"loss": 0.7553,
	"step": 225
	},
	{
	"epoch": 0.4943943122778234,
	"grad_norm": 0.012172535061836243,
	"learning_rate": 0.002785888077858881,
	"loss": 0.739,
	"step": 226
	},
	{
	"epoch": 0.4965818977303801,
	"grad_norm": 0.055700596421957016,
	"learning_rate": 0.00278345498783455,
	"loss": 0.9405,
	"step": 227
	},
	{
	"epoch": 0.49876948318293685,
	"grad_norm": 0.025790488347411156,
	"learning_rate": 0.002781021897810219,
	"loss": 0.6641,
	"step": 228
	},
	{
	"epoch": 0.5009570686354936,
	"grad_norm": 0.013937574811279774,
	"learning_rate": 0.0027785888077858883,
	"loss": 0.7727,
	"step": 229
	},
	{
	"epoch": 0.5031446540880503,
	"grad_norm": 0.03238683566451073,
	"learning_rate": 0.0027761557177615574,
	"loss": 0.8109,
	"step": 230
	},
	{
	"epoch": 0.505332239540607,
	"grad_norm": 0.06841892749071121,
	"learning_rate": 0.002773722627737226,
	"loss": 0.7827,
	"step": 231
	},
	{
	"epoch": 0.5075198249931638,
	"grad_norm": 0.05782823637127876,
	"learning_rate": 0.002771289537712895,
	"loss": 0.9616,
	"step": 232
	},
	{
	"epoch": 0.5097074104457205,
	"grad_norm": 0.1389644742012024,
	"learning_rate": 0.0027688564476885647,
	"loss": 0.7447,
	"step": 233
	},
	{
	"epoch": 0.5118949958982772,
	"grad_norm": 0.07213829457759857,
	"learning_rate": 0.002766423357664234,
	"loss": 0.8738,
	"step": 234
	},
	{
	"epoch": 0.5140825813508341,
	"grad_norm": 0.03161882609128952,
	"learning_rate": 0.0027639902676399025,
	"loss": 0.5307,
	"step": 235
	},
	{
	"epoch": 0.5162701668033908,
	"grad_norm": 0.03051130659878254,
	"learning_rate": 0.002761557177615572,
	"loss": 0.7123,
	"step": 236
	},
	{
	"epoch": 0.5184577522559475,
	"grad_norm": 0.02562803030014038,
	"learning_rate": 0.002759124087591241,
	"loss": 0.8167,
	"step": 237
	},
	{
	"epoch": 0.5206453377085042,
	"grad_norm": 0.03016614355146885,
	"learning_rate": 0.0027566909975669097,
	"loss": 0.6904,
	"step": 238
	},
	{
	"epoch": 0.522832923161061,
	"grad_norm": 0.01147315464913845,
	"learning_rate": 0.0027542579075425793,
	"loss": 0.7007,
	"step": 239
	},
	{
	"epoch": 0.5250205086136177,
	"grad_norm": 0.017779918387532234,
	"learning_rate": 0.0027518248175182483,
	"loss": 0.9054,
	"step": 240
	},
	{
	"epoch": 0.5272080940661744,
	"grad_norm": 0.03238027170300484,
	"learning_rate": 0.002749391727493917,
	"loss": 0.7599,
	"step": 241
	},
	{
	"epoch": 0.5293956795187312,
	"grad_norm": 0.007716326508671045,
	"learning_rate": 0.0027469586374695865,
	"loss": 0.7561,
	"step": 242
	},
	{
	"epoch": 0.5315832649712879,
	"grad_norm": 0.028708985075354576,
	"learning_rate": 0.0027445255474452556,
	"loss": 0.6842,
	"step": 243
	},
	{
	"epoch": 0.5337708504238446,
	"grad_norm": 0.021554840728640556,
	"learning_rate": 0.0027420924574209247,
	"loss": 0.9046,
	"step": 244
	},
	{
	"epoch": 0.5359584358764015,
	"grad_norm": 0.010056296363472939,
	"learning_rate": 0.002739659367396594,
	"loss": 0.7747,
	"step": 245
	},
	{
	"epoch": 0.5381460213289582,
	"grad_norm": 0.014583374373614788,
	"learning_rate": 0.002737226277372263,
	"loss": 0.8104,
	"step": 246
	},
	{
	"epoch": 0.5403336067815149,
	"grad_norm": 0.10760743170976639,
	"learning_rate": 0.002734793187347932,
	"loss": 1.0181,
	"step": 247
	},
	{
	"epoch": 0.5425211922340717,
	"grad_norm": 0.030982421711087227,
	"learning_rate": 0.002732360097323601,
	"loss": 0.7125,
	"step": 248
	},
	{
	"epoch": 0.5447087776866284,
	"grad_norm": 0.017710238695144653,
	"learning_rate": 0.00272992700729927,
	"loss": 0.9256,
	"step": 249
	},
	{
	"epoch": 0.5468963631391851,
	"grad_norm": 0.027831239625811577,
	"learning_rate": 0.0027274939172749393,
	"loss": 0.7537,
	"step": 250
	},
	{
	"epoch": 0.5490839485917418,
	"grad_norm": 0.019798962399363518,
	"learning_rate": 0.0027250608272506084,
	"loss": 0.6165,
	"step": 251
	},
	{
	"epoch": 0.5512715340442986,
	"grad_norm": 0.00836907234042883,
	"learning_rate": 0.0027226277372262775,
	"loss": 0.7968,
	"step": 252
	},
	{
	"epoch": 0.5534591194968553,
	"grad_norm": 0.018117599189281464,
	"learning_rate": 0.0027201946472019465,
	"loss": 0.6087,
	"step": 253
	},
	{
	"epoch": 0.555646704949412,
	"grad_norm": 0.017056763172149658,
	"learning_rate": 0.0027177615571776156,
	"loss": 0.7837,
	"step": 254
	},
	{
	"epoch": 0.5578342904019689,
	"grad_norm": 0.009035620838403702,
	"learning_rate": 0.0027153284671532847,
	"loss": 0.6376,
	"step": 255
	},
	{
	"epoch": 0.5600218758545256,
	"grad_norm": 0.015250611118972301,
	"learning_rate": 0.002712895377128954,
	"loss": 0.7869,
	"step": 256
	},
	{
	"epoch": 0.5622094613070823,
	"grad_norm": 0.014554915949702263,
	"learning_rate": 0.002710462287104623,
	"loss": 0.9046,
	"step": 257
	},
	{
	"epoch": 0.5643970467596391,
	"grad_norm": 0.011779931373894215,
	"learning_rate": 0.002708029197080292,
	"loss": 0.8662,
	"step": 258
	},
	{
	"epoch": 0.5665846322121958,
	"grad_norm": 0.012663912028074265,
	"learning_rate": 0.002705596107055961,
	"loss": 1.3081,
	"step": 259
	},
	{
	"epoch": 0.5687722176647525,
	"grad_norm": 0.0059722489677369595,
	"learning_rate": 0.00270316301703163,
	"loss": 0.6796,
	"step": 260
	},
	{
	"epoch": 0.5709598031173093,
	"grad_norm": 0.03664208948612213,
	"learning_rate": 0.0027007299270072993,
	"loss": 0.9093,
	"step": 261
	},
	{
	"epoch": 0.573147388569866,
	"grad_norm": 0.042986199259757996,
	"learning_rate": 0.0026982968369829684,
	"loss": 0.9444,
	"step": 262
	},
	{
	"epoch": 0.5753349740224227,
	"grad_norm": 0.012048511765897274,
	"learning_rate": 0.0026958637469586375,
	"loss": 0.8134,
	"step": 263
	},
	{
	"epoch": 0.5775225594749795,
	"grad_norm": 0.012062503024935722,
	"learning_rate": 0.0026934306569343066,
	"loss": 0.7274,
	"step": 264
	},
	{
	"epoch": 0.5797101449275363,
	"grad_norm": 0.02607789821922779,
	"learning_rate": 0.0026909975669099757,
	"loss": 0.6531,
	"step": 265
	},
	{
	"epoch": 0.581897730380093,
	"grad_norm": 0.014329343102872372,
	"learning_rate": 0.002688564476885645,
	"loss": 0.6966,
	"step": 266
	},
	{
	"epoch": 0.5840853158326497,
	"grad_norm": 0.013629244640469551,
	"learning_rate": 0.002686131386861314,
	"loss": 0.7831,
	"step": 267
	},
	{
	"epoch": 0.5862729012852065,
	"grad_norm": 0.009315542876720428,
	"learning_rate": 0.002683698296836983,
	"loss": 0.6297,
	"step": 268
	},
	{
	"epoch": 0.5884604867377632,
	"grad_norm": 0.051916949450969696,
	"learning_rate": 0.002681265206812652,
	"loss": 0.7651,
	"step": 269
	},
	{
	"epoch": 0.5906480721903199,
	"grad_norm": 0.012272450141608715,
	"learning_rate": 0.002678832116788321,
	"loss": 0.6713,
	"step": 270
	},
	{
	"epoch": 0.5928356576428767,
	"grad_norm": 0.011517216451466084,
	"learning_rate": 0.00267639902676399,
	"loss": 0.6117,
	"step": 271
	},
	{
	"epoch": 0.5950232430954334,
	"grad_norm": 0.010973330587148666,
	"learning_rate": 0.0026739659367396593,
	"loss": 0.7631,
	"step": 272
	},
	{
	"epoch": 0.5972108285479901,
	"grad_norm": 0.06580788642168045,
	"learning_rate": 0.0026715328467153284,
	"loss": 0.9153,
	"step": 273
	},
	{
	"epoch": 0.5993984140005469,
	"grad_norm": 0.011350773274898529,
	"learning_rate": 0.0026690997566909975,
	"loss": 0.8094,
	"step": 274
	},
	{
	"epoch": 0.6015859994531036,
	"grad_norm": 0.019090717658400536,
	"learning_rate": 0.0026666666666666666,
	"loss": 0.9304,
	"step": 275
	},
	{
	"epoch": 0.6037735849056604,
	"grad_norm": 0.015177314169704914,
	"learning_rate": 0.002664233576642336,
	"loss": 0.6859,
	"step": 276
	},
	{
	"epoch": 0.6059611703582172,
	"grad_norm": 0.020254317671060562,
	"learning_rate": 0.0026618004866180048,
	"loss": 0.8386,
	"step": 277
	},
	{
	"epoch": 0.6081487558107739,
	"grad_norm": 0.014171348884701729,
	"learning_rate": 0.002659367396593674,
	"loss": 0.8112,
	"step": 278
	},
	{
	"epoch": 0.6103363412633306,
	"grad_norm": 0.00894536729902029,
	"learning_rate": 0.0026569343065693434,
	"loss": 0.6877,
	"step": 279
	},
	{
	"epoch": 0.6125239267158873,
	"grad_norm": 0.011850811541080475,
	"learning_rate": 0.002654501216545012,
	"loss": 0.8639,
	"step": 280
	},
	{
	"epoch": 0.6147115121684441,
	"grad_norm": 0.012202342972159386,
	"learning_rate": 0.002652068126520681,
	"loss": 0.7851,
	"step": 281
	},
	{
	"epoch": 0.6168990976210008,
	"grad_norm": 0.014019378460943699,
	"learning_rate": 0.0026496350364963507,
	"loss": 0.945,
	"step": 282
	},
	{
	"epoch": 0.6190866830735575,
	"grad_norm": 0.013264323584735394,
	"learning_rate": 0.0026472019464720193,
	"loss": 0.6363,
	"step": 283
	},
	{
	"epoch": 0.6212742685261143,
	"grad_norm": 0.010803530924022198,
	"learning_rate": 0.0026447688564476884,
	"loss": 0.7855,
	"step": 284
	},
	{
	"epoch": 0.623461853978671,
	"grad_norm": 0.015852496027946472,
	"learning_rate": 0.002642335766423358,
	"loss": 0.6334,
	"step": 285
	},
	{
	"epoch": 0.6256494394312277,
	"grad_norm": 0.023904947564005852,
	"learning_rate": 0.002639902676399027,
	"loss": 0.5551,
	"step": 286
	},
	{
	"epoch": 0.6278370248837846,
	"grad_norm": 0.00868566520512104,
	"learning_rate": 0.0026374695863746957,
	"loss": 0.9256,
	"step": 287
	},
	{
	"epoch": 0.6300246103363413,
	"grad_norm": 0.011297028511762619,
	"learning_rate": 0.002635036496350365,
	"loss": 0.7896,
	"step": 288
	},
	{
	"epoch": 0.632212195788898,
	"grad_norm": 0.01018528826534748,
	"learning_rate": 0.0026326034063260343,
	"loss": 0.8198,
	"step": 289
	},
	{
	"epoch": 0.6343997812414548,
	"grad_norm": 0.015003956854343414,
	"learning_rate": 0.002630170316301703,
	"loss": 0.7424,
	"step": 290
	},
	{
	"epoch": 0.6365873666940115,
	"grad_norm": 0.007440235000103712,
	"learning_rate": 0.0026277372262773725,
	"loss": 0.6904,
	"step": 291
	},
	{
	"epoch": 0.6387749521465682,
	"grad_norm": 0.014310602098703384,
	"learning_rate": 0.0026253041362530416,
	"loss": 0.7179,
	"step": 292
	},
	{
	"epoch": 0.6409625375991249,
	"grad_norm": 0.008294426836073399,
	"learning_rate": 0.0026228710462287102,
	"loss": 0.827,
	"step": 293
	},
	{
	"epoch": 0.6431501230516817,
	"grad_norm": 0.006840107962489128,
	"learning_rate": 0.0026204379562043798,
	"loss": 0.6749,
	"step": 294
	},
	{
	"epoch": 0.6453377085042384,
	"grad_norm": 0.008538591675460339,
	"learning_rate": 0.002618004866180049,
	"loss": 0.7467,
	"step": 295
	},
	{
	"epoch": 0.6475252939567951,
	"grad_norm": 0.007157974410802126,
	"learning_rate": 0.0026155717761557175,
	"loss": 0.7233,
	"step": 296
	},
	{
	"epoch": 0.649712879409352,
	"grad_norm": 0.030327659100294113,
	"learning_rate": 0.002613138686131387,
	"loss": 0.6642,
	"step": 297
	},
	{
	"epoch": 0.6519004648619087,
	"grad_norm": 0.012880248948931694,
	"learning_rate": 0.002610705596107056,
	"loss": 0.9694,
	"step": 298
	},
	{
	"epoch": 0.6540880503144654,
	"grad_norm": 0.014233557507395744,
	"learning_rate": 0.0026082725060827252,
	"loss": 0.7686,
	"step": 299
	},
	{
	"epoch": 0.6562756357670222,
	"grad_norm": 0.008432603441178799,
	"learning_rate": 0.0026058394160583943,
	"loss": 0.9355,
	"step": 300
	},
	{
	"epoch": 0.6584632212195789,
	"grad_norm": 0.009492720477283001,
	"learning_rate": 0.0026034063260340634,
	"loss": 0.7637,
	"step": 301
	},
	{
	"epoch": 0.6606508066721356,
	"grad_norm": 0.008224152028560638,
	"learning_rate": 0.0026009732360097325,
	"loss": 0.7609,
	"step": 302
	},
	{
	"epoch": 0.6628383921246924,
	"grad_norm": 0.011647099629044533,
	"learning_rate": 0.0025985401459854016,
	"loss": 0.6565,
	"step": 303
	},
	{
	"epoch": 0.6650259775772491,
	"grad_norm": 0.0120640117675066,
	"learning_rate": 0.0025961070559610707,
	"loss": 0.6751,
	"step": 304
	},
	{
	"epoch": 0.6672135630298058,
	"grad_norm": 0.014007077552378178,
	"learning_rate": 0.0025936739659367398,
	"loss": 0.8132,
	"step": 305
	},
	{
	"epoch": 0.6694011484823625,
	"grad_norm": 0.014167044311761856,
	"learning_rate": 0.002591240875912409,
	"loss": 0.8102,
	"step": 306
	},
	{
	"epoch": 0.6715887339349194,
	"grad_norm": 0.016142327338457108,
	"learning_rate": 0.002588807785888078,
	"loss": 0.8004,
	"step": 307
	},
	{
	"epoch": 0.6737763193874761,
	"grad_norm": 0.007279639132320881,
	"learning_rate": 0.002586374695863747,
	"loss": 0.732,
	"step": 308
	},
	{
	"epoch": 0.6759639048400328,
	"grad_norm": 0.011619196273386478,
	"learning_rate": 0.002583941605839416,
	"loss": 0.603,
	"step": 309
	},
	{
	"epoch": 0.6781514902925896,
	"grad_norm": 0.011564897373318672,
	"learning_rate": 0.0025815085158150852,
	"loss": 0.9163,
	"step": 310
	},
	{
	"epoch": 0.6803390757451463,
	"grad_norm": 0.010117938742041588,
	"learning_rate": 0.0025790754257907543,
	"loss": 0.8683,
	"step": 311
	},
	{
	"epoch": 0.682526661197703,
	"grad_norm": 0.017769185826182365,
	"learning_rate": 0.0025766423357664234,
	"loss": 0.6244,
	"step": 312
	},
	{
	"epoch": 0.6847142466502598,
	"grad_norm": 0.012199788354337215,
	"learning_rate": 0.0025742092457420925,
	"loss": 0.7076,
	"step": 313
	},
	{
	"epoch": 0.6869018321028165,
	"grad_norm": 0.008083075284957886,
	"learning_rate": 0.0025717761557177616,
	"loss": 0.8658,
	"step": 314
	},
	{
	"epoch": 0.6890894175553732,
	"grad_norm": 0.01086794026196003,
	"learning_rate": 0.0025693430656934307,
	"loss": 0.6941,
	"step": 315
	},
	{
	"epoch": 0.69127700300793,
	"grad_norm": 0.010161925107240677,
	"learning_rate": 0.0025669099756691,
	"loss": 0.6715,
	"step": 316
	},
	{
	"epoch": 0.6934645884604868,
	"grad_norm": 0.008891239762306213,
	"learning_rate": 0.002564476885644769,
	"loss": 0.8093,
	"step": 317
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 0.018787039443850517,
	"learning_rate": 0.002562043795620438,
	"loss": 0.8482,
	"step": 318
	},
	{
	"epoch": 0.6978397593656002,
	"grad_norm": 0.02541973814368248,
	"learning_rate": 0.002559610705596107,
	"loss": 0.76,
	"step": 319
	},
	{
	"epoch": 0.700027344818157,
	"grad_norm": 0.011948470957577229,
	"learning_rate": 0.002557177615571776,
	"loss": 0.7625,
	"step": 320
	},
	{
	"epoch": 0.7022149302707137,
	"grad_norm": 0.009559310041368008,
	"learning_rate": 0.0025547445255474453,
	"loss": 0.7354,
	"step": 321
	},
	{
	"epoch": 0.7044025157232704,
	"grad_norm": 0.008267502300441265,
	"learning_rate": 0.0025523114355231144,
	"loss": 0.7065,
	"step": 322
	},
	{
	"epoch": 0.7065901011758272,
	"grad_norm": 0.010692731477320194,
	"learning_rate": 0.0025498783454987834,
	"loss": 0.983,
	"step": 323
	},
	{
	"epoch": 0.7087776866283839,
	"grad_norm": 0.0124723045155406,
	"learning_rate": 0.0025474452554744525,
	"loss": 0.6154,
	"step": 324
	},
	{
	"epoch": 0.7109652720809406,
	"grad_norm": 0.015448692254722118,
	"learning_rate": 0.0025450121654501216,
	"loss": 0.6129,
	"step": 325
	},
	{
	"epoch": 0.7131528575334974,
	"grad_norm": 0.013601388782262802,
	"learning_rate": 0.0025425790754257907,
	"loss": 0.7214,
	"step": 326
	},
	{
	"epoch": 0.7153404429860541,
	"grad_norm": 0.012070258148014545,
	"learning_rate": 0.00254014598540146,
	"loss": 0.7077,
	"step": 327
	},
	{
	"epoch": 0.7175280284386109,
	"grad_norm": 0.05267300084233284,
	"learning_rate": 0.0025377128953771293,
	"loss": 0.7714,
	"step": 328
	},
	{
	"epoch": 0.7197156138911677,
	"grad_norm": 0.012087949551641941,
	"learning_rate": 0.002535279805352798,
	"loss": 0.9047,
	"step": 329
	},
	{
	"epoch": 0.7219031993437244,
	"grad_norm": 0.01940520666539669,
	"learning_rate": 0.002532846715328467,
	"loss": 0.7804,
	"step": 330
	},
	{
	"epoch": 0.7240907847962811,
	"grad_norm": 0.011884646490216255,
	"learning_rate": 0.0025304136253041366,
	"loss": 0.6859,
	"step": 331
	},
	{
	"epoch": 0.7262783702488378,
	"grad_norm": 0.02514353021979332,
	"learning_rate": 0.0025279805352798053,
	"loss": 0.7764,
	"step": 332
	},
	{
	"epoch": 0.7284659557013946,
	"grad_norm": 0.015074629336595535,
	"learning_rate": 0.0025255474452554744,
	"loss": 0.6756,
	"step": 333
	},
	{
	"epoch": 0.7306535411539513,
	"grad_norm": 0.036420077085494995,
	"learning_rate": 0.002523114355231144,
	"loss": 0.7407,
	"step": 334
	},
	{
	"epoch": 0.732841126606508,
	"grad_norm": 0.015621097758412361,
	"learning_rate": 0.0025206812652068126,
	"loss": 0.8072,
	"step": 335
	},
	{
	"epoch": 0.7350287120590648,
	"grad_norm": 0.010994632728397846,
	"learning_rate": 0.0025182481751824816,
	"loss": 0.9436,
	"step": 336
	},
	{
	"epoch": 0.7372162975116215,
	"grad_norm": 0.017064619809389114,
	"learning_rate": 0.002515815085158151,
	"loss": 0.9386,
	"step": 337
	},
	{
	"epoch": 0.7394038829641782,
	"grad_norm": 0.023198846727609634,
	"learning_rate": 0.00251338199513382,
	"loss": 0.7892,
	"step": 338
	},
	{
	"epoch": 0.7415914684167351,
	"grad_norm": 0.005636582616716623,
	"learning_rate": 0.002510948905109489,
	"loss": 0.8005,
	"step": 339
	},
	{
	"epoch": 0.7437790538692918,
	"grad_norm": 0.008022590540349483,
	"learning_rate": 0.0025085158150851584,
	"loss": 0.9142,
	"step": 340
	},
	{
	"epoch": 0.7459666393218485,
	"grad_norm": 0.013106726109981537,
	"learning_rate": 0.0025060827250608275,
	"loss": 0.6845,
	"step": 341
	},
	{
	"epoch": 0.7481542247744053,
	"grad_norm": 0.015878600999712944,
	"learning_rate": 0.002503649635036496,
	"loss": 0.8528,
	"step": 342
	},
	{
	"epoch": 0.750341810226962,
	"grad_norm": 0.013783195056021214,
	"learning_rate": 0.0025012165450121657,
	"loss": 0.8487,
	"step": 343
	},
	{
	"epoch": 0.7525293956795187,
	"grad_norm": 0.05050954222679138,
	"learning_rate": 0.002498783454987835,
	"loss": 0.9014,
	"step": 344
	},
	{
	"epoch": 0.7547169811320755,
	"grad_norm": 0.009747706353664398,
	"learning_rate": 0.0024963503649635035,
	"loss": 0.8331,
	"step": 345
	},
	{
	"epoch": 0.7569045665846322,
	"grad_norm": 0.27641791105270386,
	"learning_rate": 0.0024939172749391726,
	"loss": 0.8328,
	"step": 346
	},
	{
	"epoch": 0.7590921520371889,
	"grad_norm": 0.022615063935518265,
	"learning_rate": 0.002491484184914842,
	"loss": 1.025,
	"step": 347
	},
	{
	"epoch": 0.7612797374897456,
	"grad_norm": 0.018037477508187294,
	"learning_rate": 0.0024890510948905108,
	"loss": 0.8058,
	"step": 348
	},
	{
	"epoch": 0.7634673229423025,
	"grad_norm": 0.03229966387152672,
	"learning_rate": 0.00248661800486618,
	"loss": 0.8224,
	"step": 349
	},
	{
	"epoch": 0.7656549083948592,
	"grad_norm": 0.03468572720885277,
	"learning_rate": 0.0024841849148418494,
	"loss": 0.6558,
	"step": 350
	},
	{
	"epoch": 0.7678424938474159,
	"grad_norm": 0.04352645203471184,
	"learning_rate": 0.0024817518248175185,
	"loss": 0.7869,
	"step": 351
	},
	{
	"epoch": 0.7700300792999727,
	"grad_norm": 0.0520501509308815,
	"learning_rate": 0.002479318734793187,
	"loss": 0.8318,
	"step": 352
	},
	{
	"epoch": 0.7722176647525294,
	"grad_norm": 0.025180073454976082,
	"learning_rate": 0.0024768856447688566,
	"loss": 0.8454,
	"step": 353
	},
	{
	"epoch": 0.7744052502050861,
	"grad_norm": 0.013843162916600704,
	"learning_rate": 0.0024744525547445257,
	"loss": 0.979,
	"step": 354
	},
	{
	"epoch": 0.7765928356576429,
	"grad_norm": 0.026960408315062523,
	"learning_rate": 0.0024720194647201944,
	"loss": 0.7692,
	"step": 355
	},
	{
	"epoch": 0.7787804211101996,
	"grad_norm": 0.02509387582540512,
	"learning_rate": 0.002469586374695864,
	"loss": 0.7471,
	"step": 356
	},
	{
	"epoch": 0.7809680065627563,
	"grad_norm": 0.014011479914188385,
	"learning_rate": 0.002467153284671533,
	"loss": 0.7752,
	"step": 357
	},
	{
	"epoch": 0.7831555920153132,
	"grad_norm": 0.01862008310854435,
	"learning_rate": 0.0024647201946472017,
	"loss": 0.9891,
	"step": 358
	},
	{
	"epoch": 0.7853431774678699,
	"grad_norm": 0.01249686349183321,
	"learning_rate": 0.002462287104622871,
	"loss": 0.9046,
	"step": 359
	},
	{
	"epoch": 0.7875307629204266,
	"grad_norm": 0.018710242584347725,
	"learning_rate": 0.0024598540145985403,
	"loss": 0.7926,
	"step": 360
	},
	{
	"epoch": 0.7897183483729833,
	"grad_norm": 0.015550883486866951,
	"learning_rate": 0.0024574209245742094,
	"loss": 0.9209,
	"step": 361
	},
	{
	"epoch": 0.7919059338255401,
	"grad_norm": 0.011178571730852127,
	"learning_rate": 0.0024549878345498785,
	"loss": 0.7962,
	"step": 362
	},
	{
	"epoch": 0.7940935192780968,
	"grad_norm": 0.017678866162896156,
	"learning_rate": 0.0024525547445255476,
	"loss": 0.9532,
	"step": 363
	},
	{
	"epoch": 0.7962811047306535,
	"grad_norm": 0.021445617079734802,
	"learning_rate": 0.0024501216545012167,
	"loss": 0.8302,
	"step": 364
	},
	{
	"epoch": 0.7984686901832103,
	"grad_norm": 0.015537573955953121,
	"learning_rate": 0.0024476885644768858,
	"loss": 0.7665,
	"step": 365
	},
	{
	"epoch": 0.800656275635767,
	"grad_norm": 0.015302474610507488,
	"learning_rate": 0.002445255474452555,
	"loss": 0.7161,
	"step": 366
	},
	{
	"epoch": 0.8028438610883237,
	"grad_norm": 0.013649791479110718,
	"learning_rate": 0.002442822384428224,
	"loss": 0.6766,
	"step": 367
	},
	{
	"epoch": 0.8050314465408805,
	"grad_norm": 0.01138269528746605,
	"learning_rate": 0.002440389294403893,
	"loss": 0.7797,
	"step": 368
	},
	{
	"epoch": 0.8072190319934373,
	"grad_norm": 0.014025691896677017,
	"learning_rate": 0.002437956204379562,
	"loss": 0.779,
	"step": 369
	},
	{
	"epoch": 0.809406617445994,
	"grad_norm": 0.011000445112586021,
	"learning_rate": 0.002435523114355231,
	"loss": 0.8064,
	"step": 370
	},
	{
	"epoch": 0.8115942028985508,
	"grad_norm": 0.010309292934834957,
	"learning_rate": 0.0024330900243309003,
	"loss": 0.7252,
	"step": 371
	},
	{
	"epoch": 0.8137817883511075,
	"grad_norm": 0.007664249278604984,
	"learning_rate": 0.0024306569343065694,
	"loss": 0.7081,
	"step": 372
	},
	{
	"epoch": 0.8159693738036642,
	"grad_norm": 0.015154222957789898,
	"learning_rate": 0.0024282238442822385,
	"loss": 0.7869,
	"step": 373
	},
	{
	"epoch": 0.8181569592562209,
	"grad_norm": 0.01371028833091259,
	"learning_rate": 0.0024257907542579076,
	"loss": 0.7423,
	"step": 374
	},
	{
	"epoch": 0.8203445447087777,
	"grad_norm": 0.012794865295290947,
	"learning_rate": 0.0024233576642335767,
	"loss": 0.9341,
	"step": 375
	},
	{
	"epoch": 0.8225321301613344,
	"grad_norm": 0.011340939439833164,
	"learning_rate": 0.0024209245742092458,
	"loss": 1.0406,
	"step": 376
	},
	{
	"epoch": 0.8247197156138911,
	"grad_norm": 0.013491635210812092,
	"learning_rate": 0.002418491484184915,
	"loss": 0.763,
	"step": 377
	},
	{
	"epoch": 0.8269073010664479,
	"grad_norm": 0.008016029372811317,
	"learning_rate": 0.002416058394160584,
	"loss": 0.7132,
	"step": 378
	},
	{
	"epoch": 0.8290948865190046,
	"grad_norm": 0.011460046283900738,
	"learning_rate": 0.002413625304136253,
	"loss": 0.6306,
	"step": 379
	},
	{
	"epoch": 0.8312824719715614,
	"grad_norm": 0.0110190873965621,
	"learning_rate": 0.002411192214111922,
	"loss": 0.6944,
	"step": 380
	},
	{
	"epoch": 0.8334700574241182,
	"grad_norm": 0.008347691036760807,
	"learning_rate": 0.0024087591240875912,
	"loss": 0.8926,
	"step": 381
	},
	{
	"epoch": 0.8356576428766749,
	"grad_norm": 0.007940311916172504,
	"learning_rate": 0.0024063260340632603,
	"loss": 0.8666,
	"step": 382
	},
	{
	"epoch": 0.8378452283292316,
	"grad_norm": 0.011534546501934528,
	"learning_rate": 0.0024038929440389294,
	"loss": 0.9077,
	"step": 383
	},
	{
	"epoch": 0.8400328137817884,
	"grad_norm": 0.010218126699328423,
	"learning_rate": 0.0024014598540145985,
	"loss": 0.8393,
	"step": 384
	},
	{
	"epoch": 0.8422203992343451,
	"grad_norm": 0.01117737777531147,
	"learning_rate": 0.0023990267639902676,
	"loss": 0.8401,
	"step": 385
	},
	{
	"epoch": 0.8444079846869018,
	"grad_norm": 0.01495604682713747,
	"learning_rate": 0.0023965936739659367,
	"loss": 0.6524,
	"step": 386
	},
	{
	"epoch": 0.8465955701394585,
	"grad_norm": 0.01132154744118452,
	"learning_rate": 0.002394160583941606,
	"loss": 0.6973,
	"step": 387
	},
	{
	"epoch": 0.8487831555920153,
	"grad_norm": 0.016704557463526726,
	"learning_rate": 0.002391727493917275,
	"loss": 0.8638,
	"step": 388
	},
	{
	"epoch": 0.850970741044572,
	"grad_norm": 0.03163198381662369,
	"learning_rate": 0.002389294403892944,
	"loss": 0.6569,
	"step": 389
	},
	{
	"epoch": 0.8531583264971287,
	"grad_norm": 0.009892611764371395,
	"learning_rate": 0.002386861313868613,
	"loss": 0.8507,
	"step": 390
	},
	{
	"epoch": 0.8553459119496856,
	"grad_norm": 0.009704566560685635,
	"learning_rate": 0.002384428223844282,
	"loss": 0.7567,
	"step": 391
	},
	{
	"epoch": 0.8575334974022423,
	"grad_norm": 0.011233623139560223,
	"learning_rate": 0.0023819951338199512,
	"loss": 0.9072,
	"step": 392
	},
	{
	"epoch": 0.859721082854799,
	"grad_norm": 0.017818894237279892,
	"learning_rate": 0.0023795620437956208,
	"loss": 0.6716,
	"step": 393
	},
	{
	"epoch": 0.8619086683073558,
	"grad_norm": 0.009800358675420284,
	"learning_rate": 0.0023771289537712894,
	"loss": 0.6331,
	"step": 394
	},
	{
	"epoch": 0.8640962537599125,
	"grad_norm": 0.00855625793337822,
	"learning_rate": 0.0023746958637469585,
	"loss": 0.8208,
	"step": 395
	},
	{
	"epoch": 0.8662838392124692,
	"grad_norm": 0.007912772707641125,
	"learning_rate": 0.002372262773722628,
	"loss": 0.6897,
	"step": 396
	},
	{
	"epoch": 0.868471424665026,
	"grad_norm": 0.015991948544979095,
	"learning_rate": 0.0023698296836982967,
	"loss": 0.5838,
	"step": 397
	},
	{
	"epoch": 0.8706590101175827,
	"grad_norm": 0.013330014422535896,
	"learning_rate": 0.002367396593673966,
	"loss": 0.7765,
	"step": 398
	},
	{
	"epoch": 0.8728465955701394,
	"grad_norm": 0.0108262337744236,
	"learning_rate": 0.0023649635036496353,
	"loss": 0.8259,
	"step": 399
	},
	{
	"epoch": 0.8750341810226961,
	"grad_norm": 0.01277016382664442,
	"learning_rate": 0.002362530413625304,
	"loss": 0.5084,
	"step": 400
	},
	{
	"epoch": 0.877221766475253,
	"grad_norm": 0.00825558416545391,
	"learning_rate": 0.002360097323600973,
	"loss": 0.8388,
	"step": 401
	},
	{
	"epoch": 0.8794093519278097,
	"grad_norm": 0.008703862316906452,
	"learning_rate": 0.0023576642335766426,
	"loss": 0.889,
	"step": 402
	},
	{
	"epoch": 0.8815969373803664,
	"grad_norm": 0.009978721849620342,
	"learning_rate": 0.0023552311435523117,
	"loss": 0.7724,
	"step": 403
	},
	{
	"epoch": 0.8837845228329232,
	"grad_norm": 0.009193633683025837,
	"learning_rate": 0.0023527980535279804,
	"loss": 0.9257,
	"step": 404
	},
	{
	"epoch": 0.8859721082854799,
	"grad_norm": 0.009905806742608547,
	"learning_rate": 0.00235036496350365,
	"loss": 0.9046,
	"step": 405
	},
	{
	"epoch": 0.8881596937380366,
	"grad_norm": 0.0108295027166605,
	"learning_rate": 0.002347931873479319,
	"loss": 0.6427,
	"step": 406
	},
	{
	"epoch": 0.8903472791905934,
	"grad_norm": 0.010898306965827942,
	"learning_rate": 0.0023454987834549876,
	"loss": 0.6888,
	"step": 407
	},
	{
	"epoch": 0.8925348646431501,
	"grad_norm": 0.013794617727398872,
	"learning_rate": 0.002343065693430657,
	"loss": 0.8544,
	"step": 408
	},
	{
	"epoch": 0.8947224500957068,
	"grad_norm": 0.014423336833715439,
	"learning_rate": 0.0023406326034063262,
	"loss": 0.7525,
	"step": 409
	},
	{
	"epoch": 0.8969100355482637,
	"grad_norm": 0.010249799117445946,
	"learning_rate": 0.002338199513381995,
	"loss": 0.7588,
	"step": 410
	},
	{
	"epoch": 0.8990976210008204,
	"grad_norm": 0.014359788969159126,
	"learning_rate": 0.0023357664233576644,
	"loss": 0.8303,
	"step": 411
	},
	{
	"epoch": 0.9012852064533771,
	"grad_norm": 0.007848945446312428,
	"learning_rate": 0.0023333333333333335,
	"loss": 0.7478,
	"step": 412
	},
	{
	"epoch": 0.9034727919059339,
	"grad_norm": 0.010217231698334217,
	"learning_rate": 0.0023309002433090026,
	"loss": 0.8758,
	"step": 413
	},
	{
	"epoch": 0.9056603773584906,
	"grad_norm": 0.008166585117578506,
	"learning_rate": 0.0023284671532846717,
	"loss": 0.8669,
	"step": 414
	},
	{
	"epoch": 0.9078479628110473,
	"grad_norm": 0.08122234046459198,
	"learning_rate": 0.002326034063260341,
	"loss": 0.8672,
	"step": 415
	},
	{
	"epoch": 0.910035548263604,
	"grad_norm": 0.026630746200680733,
	"learning_rate": 0.00232360097323601,
	"loss": 0.8429,
	"step": 416
	},
	{
	"epoch": 0.9122231337161608,
	"grad_norm": 0.011199391447007656,
	"learning_rate": 0.002321167883211679,
	"loss": 0.7394,
	"step": 417
	},
	{
	"epoch": 0.9144107191687175,
	"grad_norm": 0.034359946846961975,
	"learning_rate": 0.002318734793187348,
	"loss": 0.757,
	"step": 418
	},
	{
	"epoch": 0.9165983046212742,
	"grad_norm": 0.007310883607715368,
	"learning_rate": 0.002316301703163017,
	"loss": 0.8614,
	"step": 419
	},
	{
	"epoch": 0.918785890073831,
	"grad_norm": 0.017180046066641808,
	"learning_rate": 0.002313868613138686,
	"loss": 0.7018,
	"step": 420
	},
	{
	"epoch": 0.9209734755263878,
	"grad_norm": 0.010772480629384518,
	"learning_rate": 0.0023114355231143554,
	"loss": 1.0247,
	"step": 421
	},
	{
	"epoch": 0.9231610609789445,
	"grad_norm": 0.013757293112576008,
	"learning_rate": 0.0023090024330900244,
	"loss": 0.7243,
	"step": 422
	},
	{
	"epoch": 0.9253486464315013,
	"grad_norm": 0.010658146813511848,
	"learning_rate": 0.0023065693430656935,
	"loss": 0.8289,
	"step": 423
	},
	{
	"epoch": 0.927536231884058,
	"grad_norm": 0.013902239501476288,
	"learning_rate": 0.0023041362530413626,
	"loss": 0.7706,
	"step": 424
	},
	{
	"epoch": 0.9297238173366147,
	"grad_norm": 0.011173736304044724,
	"learning_rate": 0.0023017031630170317,
	"loss": 0.8055,
	"step": 425
	},
	{
	"epoch": 0.9319114027891715,
	"grad_norm": 0.011386138387024403,
	"learning_rate": 0.002299270072992701,
	"loss": 0.6273,
	"step": 426
	},
	{
	"epoch": 0.9340989882417282,
	"grad_norm": 0.008862471207976341,
	"learning_rate": 0.00229683698296837,
	"loss": 0.7032,
	"step": 427
	},
	{
	"epoch": 0.9362865736942849,
	"grad_norm": 0.02106628008186817,
	"learning_rate": 0.002294403892944039,
	"loss": 0.7835,
	"step": 428
	},
	{
	"epoch": 0.9384741591468416,
	"grad_norm": 0.010091581381857395,
	"learning_rate": 0.002291970802919708,
	"loss": 0.6805,
	"step": 429
	},
	{
	"epoch": 0.9406617445993984,
	"grad_norm": 0.012447184883058071,
	"learning_rate": 0.002289537712895377,
	"loss": 0.7323,
	"step": 430
	},
	{
	"epoch": 0.9428493300519551,
	"grad_norm": 0.015980314463377,
	"learning_rate": 0.0022871046228710463,
	"loss": 0.8842,
	"step": 431
	},
	{
	"epoch": 0.9450369155045119,
	"grad_norm": 0.007705094758421183,
	"learning_rate": 0.0022846715328467154,
	"loss": 0.8907,
	"step": 432
	},
	{
	"epoch": 0.9472245009570687,
	"grad_norm": 0.00878717191517353,
	"learning_rate": 0.0022822384428223845,
	"loss": 0.7455,
	"step": 433
	},
	{
	"epoch": 0.9494120864096254,
	"grad_norm": 0.026101326569914818,
	"learning_rate": 0.0022798053527980536,
	"loss": 0.6827,
	"step": 434
	},
	{
	"epoch": 0.9515996718621821,
	"grad_norm": 0.008718657307326794,
	"learning_rate": 0.0022773722627737226,
	"loss": 0.9253,
	"step": 435
	},
	{
	"epoch": 0.9537872573147389,
	"grad_norm": 0.009151890873908997,
	"learning_rate": 0.0022749391727493917,
	"loss": 0.8735,
	"step": 436
	},
	{
	"epoch": 0.9559748427672956,
	"grad_norm": 0.012189007364213467,
	"learning_rate": 0.002272506082725061,
	"loss": 0.94,
	"step": 437
	},
	{
	"epoch": 0.9581624282198523,
	"grad_norm": 0.00890439935028553,
	"learning_rate": 0.00227007299270073,
	"loss": 0.7572,
	"step": 438
	},
	{
	"epoch": 0.9603500136724091,
	"grad_norm": 0.013200386427342892,
	"learning_rate": 0.002267639902676399,
	"loss": 0.7361,
	"step": 439
	},
	{
	"epoch": 0.9625375991249658,
	"grad_norm": 0.011736634187400341,
	"learning_rate": 0.002265206812652068,
	"loss": 0.6326,
	"step": 440
	},
	{
	"epoch": 0.9647251845775225,
	"grad_norm": 0.006781425327062607,
	"learning_rate": 0.002262773722627737,
	"loss": 0.7254,
	"step": 441
	},
	{
	"epoch": 0.9669127700300792,
	"grad_norm": 0.008296315558254719,
	"learning_rate": 0.0022603406326034063,
	"loss": 0.6898,
	"step": 442
	},
	{
	"epoch": 0.9691003554826361,
	"grad_norm": 0.008293522521853447,
	"learning_rate": 0.0022579075425790754,
	"loss": 0.7953,
	"step": 443
	},
	{
	"epoch": 0.9712879409351928,
	"grad_norm": 0.00848364643752575,
	"learning_rate": 0.0022554744525547445,
	"loss": 0.8203,
	"step": 444
	},
	{
	"epoch": 0.9734755263877495,
	"grad_norm": 0.012193895876407623,
	"learning_rate": 0.002253041362530414,
	"loss": 0.6794,
	"step": 445
	},
	{
	"epoch": 0.9756631118403063,
	"grad_norm": 0.018784867599606514,
	"learning_rate": 0.0022506082725060827,
	"loss": 0.5793,
	"step": 446
	},
	{
	"epoch": 0.977850697292863,
	"grad_norm": 0.008517356589436531,
	"learning_rate": 0.0022481751824817518,
	"loss": 0.4866,
	"step": 447
	},
	{
	"epoch": 0.9800382827454197,
	"grad_norm": 0.017300793901085854,
	"learning_rate": 0.0022457420924574213,
	"loss": 0.8304,
	"step": 448
	},
	{
	"epoch": 0.9822258681979765,
	"grad_norm": 0.010441828519105911,
	"learning_rate": 0.00224330900243309,
	"loss": 0.9823,
	"step": 449
	},
	{
	"epoch": 0.9844134536505332,
	"grad_norm": 0.013992452062666416,
	"learning_rate": 0.002240875912408759,
	"loss": 0.7828,
	"step": 450
	},
	{
	"epoch": 0.9866010391030899,
	"grad_norm": 0.006943755783140659,
	"learning_rate": 0.0022384428223844286,
	"loss": 0.6205,
	"step": 451
	},
	{
	"epoch": 0.9887886245556468,
	"grad_norm": 0.0063702561892569065,
	"learning_rate": 0.0022360097323600972,
	"loss": 1.0355,
	"step": 452
	},
	{
	"epoch": 0.9909762100082035,
	"grad_norm": 0.007510766386985779,
	"learning_rate": 0.0022335766423357663,
	"loss": 0.7581,
	"step": 453
	},
	{
	"epoch": 0.9931637954607602,
	"grad_norm": 0.010165141895413399,
	"learning_rate": 0.002231143552311436,
	"loss": 0.8831,
	"step": 454
	},
	{
	"epoch": 0.9953513809133169,
	"grad_norm": 0.012972669675946236,
	"learning_rate": 0.002228710462287105,
	"loss": 0.6523,
	"step": 455
	},
	{
	"epoch": 0.9975389663658737,
	"grad_norm": 0.007454239297658205,
	"learning_rate": 0.0022262773722627736,
	"loss": 0.8721,
	"step": 456
	},
	{
	"epoch": 0.9997265518184304,
	"grad_norm": 0.007078221533447504,
	"learning_rate": 0.0022238442822384427,
	"loss": 0.6737,
	"step": 457
	},
	{
	"epoch": 1.0019141372709872,
	"grad_norm": 0.021942665800452232,
	"learning_rate": 0.002221411192214112,
	"loss": 0.8231,
	"step": 458
	},
	{
	"epoch": 1.0041017227235438,
	"grad_norm": 0.019108066335320473,
	"learning_rate": 0.002218978102189781,
	"loss": 0.6809,
	"step": 459
	},
	{
	"epoch": 1.0062893081761006,
	"grad_norm": 0.013495873659849167,
	"learning_rate": 0.00221654501216545,
	"loss": 0.7663,
	"step": 460
	},
	{
	"epoch": 1.0084768936286574,
	"grad_norm": 0.009844646789133549,
	"learning_rate": 0.0022141119221411195,
	"loss": 0.8189,
	"step": 461
	},
	{
	"epoch": 1.010664479081214,
	"grad_norm": 0.008135687559843063,
	"learning_rate": 0.002211678832116788,
	"loss": 0.7935,
	"step": 462
	},
	{
	"epoch": 1.0128520645337709,
	"grad_norm": 0.01022945623844862,
	"learning_rate": 0.0022092457420924572,
	"loss": 0.7855,
	"step": 463
	},
	{
	"epoch": 1.0150396499863277,
	"grad_norm": 0.011145783588290215,
	"learning_rate": 0.0022068126520681268,
	"loss": 0.9334,
	"step": 464
	},
	{
	"epoch": 1.0172272354388843,
	"grad_norm": 0.014914394356310368,
	"learning_rate": 0.002204379562043796,
	"loss": 0.8769,
	"step": 465
	},
	{
	"epoch": 1.019414820891441,
	"grad_norm": 0.010317330248653889,
	"learning_rate": 0.0022019464720194645,
	"loss": 0.9083,
	"step": 466
	},
	{
	"epoch": 1.021602406343998,
	"grad_norm": 0.012516210786998272,
	"learning_rate": 0.002199513381995134,
	"loss": 0.7169,
	"step": 467
	},
	{
	"epoch": 1.0237899917965545,
	"grad_norm": 0.015528671443462372,
	"learning_rate": 0.002197080291970803,
	"loss": 0.6738,
	"step": 468
	},
	{
	"epoch": 1.0259775772491113,
	"grad_norm": 0.007066753227263689,
	"learning_rate": 0.002194647201946472,
	"loss": 0.5918,
	"step": 469
	},
	{
	"epoch": 1.0281651627016681,
	"grad_norm": 0.007939637638628483,
	"learning_rate": 0.0021922141119221413,
	"loss": 0.6588,
	"step": 470
	},
	{
	"epoch": 1.0303527481542247,
	"grad_norm": 0.007144363131374121,
	"learning_rate": 0.0021897810218978104,
	"loss": 0.4427,
	"step": 471
	},
	{
	"epoch": 1.0325403336067815,
	"grad_norm": 0.007886086590588093,
	"learning_rate": 0.002187347931873479,
	"loss": 0.7392,
	"step": 472
	},
	{
	"epoch": 1.0347279190593381,
	"grad_norm": 0.007826312445104122,
	"learning_rate": 0.0021849148418491486,
	"loss": 0.743,
	"step": 473
	},
	{
	"epoch": 1.036915504511895,
	"grad_norm": 0.007945370860397816,
	"learning_rate": 0.0021824817518248177,
	"loss": 0.6567,
	"step": 474
	},
	{
	"epoch": 1.0391030899644518,
	"grad_norm": 0.009234143421053886,
	"learning_rate": 0.0021800486618004863,
	"loss": 0.8079,
	"step": 475
	},
	{
	"epoch": 1.0412906754170084,
	"grad_norm": 0.011828969232738018,
	"learning_rate": 0.002177615571776156,
	"loss": 0.7132,
	"step": 476
	},
	{
	"epoch": 1.0434782608695652,
	"grad_norm": 0.008681892417371273,
	"learning_rate": 0.002175182481751825,
	"loss": 0.8417,
	"step": 477
	},
	{
	"epoch": 1.045665846322122,
	"grad_norm": 0.008761374279856682,
	"learning_rate": 0.002172749391727494,
	"loss": 0.7446,
	"step": 478
	},
	{
	"epoch": 1.0478534317746786,
	"grad_norm": 0.014171335846185684,
	"learning_rate": 0.002170316301703163,
	"loss": 0.739,
	"step": 479
	},
	{
	"epoch": 1.0500410172272354,
	"grad_norm": 0.011624401435256004,
	"learning_rate": 0.0021678832116788322,
	"loss": 0.8935,
	"step": 480
	},
	{
	"epoch": 1.0522286026797922,
	"grad_norm": 0.019760416820645332,
	"learning_rate": 0.0021654501216545013,
	"loss": 0.9159,
	"step": 481
	},
	{
	"epoch": 1.0544161881323488,
	"grad_norm": 0.0076353419572114944,
	"learning_rate": 0.0021630170316301704,
	"loss": 0.8153,
	"step": 482
	},
	{
	"epoch": 1.0566037735849056,
	"grad_norm": 0.009698878973722458,
	"learning_rate": 0.0021605839416058395,
	"loss": 0.8043,
	"step": 483
	},
	{
	"epoch": 1.0587913590374625,
	"grad_norm": 0.007674135267734528,
	"learning_rate": 0.0021581508515815086,
	"loss": 0.6816,
	"step": 484
	},
	{
	"epoch": 1.060978944490019,
	"grad_norm": 0.01642732322216034,
	"learning_rate": 0.0021557177615571777,
	"loss": 0.9525,
	"step": 485
	},
	{
	"epoch": 1.0631665299425759,
	"grad_norm": 0.016669275239109993,
	"learning_rate": 0.002153284671532847,
	"loss": 0.5482,
	"step": 486
	},
	{
	"epoch": 1.0653541153951327,
	"grad_norm": 0.012565388344228268,
	"learning_rate": 0.002150851581508516,
	"loss": 0.6211,
	"step": 487
	},
	{
	"epoch": 1.0675417008476893,
	"grad_norm": 0.01363010797649622,
	"learning_rate": 0.002148418491484185,
	"loss": 0.5152,
	"step": 488
	},
	{
	"epoch": 1.069729286300246,
	"grad_norm": 0.020599598065018654,
	"learning_rate": 0.002145985401459854,
	"loss": 0.8035,
	"step": 489
	},
	{
	"epoch": 1.071916871752803,
	"grad_norm": 0.013294585980474949,
	"learning_rate": 0.002143552311435523,
	"loss": 0.8999,
	"step": 490
	},
	{
	"epoch": 1.0741044572053595,
	"grad_norm": 0.038667161017656326,
	"learning_rate": 0.0021411192214111923,
	"loss": 0.7514,
	"step": 491
	},
	{
	"epoch": 1.0762920426579163,
	"grad_norm": 0.010547326877713203,
	"learning_rate": 0.0021386861313868613,
	"loss": 0.6819,
	"step": 492
	},
	{
	"epoch": 1.0784796281104732,
	"grad_norm": 0.009484006091952324,
	"learning_rate": 0.0021362530413625304,
	"loss": 0.6253,
	"step": 493
	},
	{
	"epoch": 1.0806672135630297,
	"grad_norm": 0.009657086804509163,
	"learning_rate": 0.0021338199513381995,
	"loss": 0.7112,
	"step": 494
	},
	{
	"epoch": 1.0828547990155866,
	"grad_norm": 0.01714419014751911,
	"learning_rate": 0.0021313868613138686,
	"loss": 0.9098,
	"step": 495
	},
	{
	"epoch": 1.0850423844681434,
	"grad_norm": 0.01343261357396841,
	"learning_rate": 0.0021289537712895377,
	"loss": 0.7902,
	"step": 496
	},
	{
	"epoch": 1.0872299699207,
	"grad_norm": 0.00883649941533804,
	"learning_rate": 0.002126520681265207,
	"loss": 0.9971,
	"step": 497
	},
	{
	"epoch": 1.0894175553732568,
	"grad_norm": 0.00613701157271862,
	"learning_rate": 0.002124087591240876,
	"loss": 0.7527,
	"step": 498
	},
	{
	"epoch": 1.0916051408258136,
	"grad_norm": 0.009846502915024757,
	"learning_rate": 0.002121654501216545,
	"loss": 0.7402,
	"step": 499
	},
	{
	"epoch": 1.0937927262783702,
	"grad_norm": 0.010731893591582775,
	"learning_rate": 0.002119221411192214,
	"loss": 0.7848,
	"step": 500
	},
	{
	"epoch": 1.095980311730927,
	"grad_norm": 0.011895066127181053,
	"learning_rate": 0.002116788321167883,
	"loss": 0.7164,
	"step": 501
	},
	{
	"epoch": 1.0981678971834836,
	"grad_norm": 0.007519803941249847,
	"learning_rate": 0.0021143552311435523,
	"loss": 0.9606,
	"step": 502
	},
	{
	"epoch": 1.1003554826360404,
	"grad_norm": 0.009692378342151642,
	"learning_rate": 0.0021119221411192214,
	"loss": 0.7633,
	"step": 503
	},
	{
	"epoch": 1.1025430680885973,
	"grad_norm": 0.011364142410457134,
	"learning_rate": 0.0021094890510948905,
	"loss": 0.6945,
	"step": 504
	},
	{
	"epoch": 1.1047306535411539,
	"grad_norm": 0.007994066923856735,
	"learning_rate": 0.0021070559610705595,
	"loss": 0.6423,
	"step": 505
	},
	{
	"epoch": 1.1069182389937107,
	"grad_norm": 0.02612650953233242,
	"learning_rate": 0.0021046228710462286,
	"loss": 0.8676,
	"step": 506
	},
	{
	"epoch": 1.1091058244462675,
	"grad_norm": 0.007825646549463272,
	"learning_rate": 0.002102189781021898,
	"loss": 0.5687,
	"step": 507
	},
	{
	"epoch": 1.111293409898824,
	"grad_norm": 0.008077848702669144,
	"learning_rate": 0.002099756690997567,
	"loss": 0.7509,
	"step": 508
	},
	{
	"epoch": 1.113480995351381,
	"grad_norm": 0.009620738215744495,
	"learning_rate": 0.002097323600973236,
	"loss": 0.5996,
	"step": 509
	},
	{
	"epoch": 1.1156685808039377,
	"grad_norm": 0.0255615022033453,
	"learning_rate": 0.0020948905109489054,
	"loss": 0.6696,
	"step": 510
	},
	{
	"epoch": 1.1178561662564943,
	"grad_norm": 0.010550931096076965,
	"learning_rate": 0.002092457420924574,
	"loss": 0.7019,
	"step": 511
	},
	{
	"epoch": 1.1200437517090511,
	"grad_norm": 0.028004566207528114,
	"learning_rate": 0.002090024330900243,
	"loss": 0.8809,
	"step": 512
	},
	{
	"epoch": 1.122231337161608,
	"grad_norm": 0.013075259514153004,
	"learning_rate": 0.0020875912408759127,
	"loss": 0.6108,
	"step": 513
	},
	{
	"epoch": 1.1244189226141645,
	"grad_norm": 0.015426448546350002,
	"learning_rate": 0.0020851581508515814,
	"loss": 0.7146,
	"step": 514
	},
	{
	"epoch": 1.1266065080667214,
	"grad_norm": 0.007735779043287039,
	"learning_rate": 0.0020827250608272505,
	"loss": 0.8517,
	"step": 515
	},
	{
	"epoch": 1.1287940935192782,
	"grad_norm": 0.012412245385348797,
	"learning_rate": 0.00208029197080292,
	"loss": 0.6694,
	"step": 516
	},
	{
	"epoch": 1.1309816789718348,
	"grad_norm": 0.009669258259236813,
	"learning_rate": 0.0020778588807785887,
	"loss": 0.612,
	"step": 517
	},
	{
	"epoch": 1.1331692644243916,
	"grad_norm": 0.010346516966819763,
	"learning_rate": 0.0020754257907542577,
	"loss": 0.7956,
	"step": 518
	},
	{
	"epoch": 1.1353568498769484,
	"grad_norm": 0.008683484978973866,
	"learning_rate": 0.0020729927007299273,
	"loss": 0.7012,
	"step": 519
	},
	{
	"epoch": 1.137544435329505,
	"grad_norm": 0.009093291126191616,
	"learning_rate": 0.0020705596107055964,
	"loss": 0.6406,
	"step": 520
	},
	{
	"epoch": 1.1397320207820618,
	"grad_norm": 0.019143717363476753,
	"learning_rate": 0.002068126520681265,
	"loss": 0.6632,
	"step": 521
	},
	{
	"epoch": 1.1419196062346186,
	"grad_norm": 0.008810199797153473,
	"learning_rate": 0.0020656934306569345,
	"loss": 0.6248,
	"step": 522
	},
	{
	"epoch": 1.1441071916871752,
	"grad_norm": 0.009826627559959888,
	"learning_rate": 0.0020632603406326036,
	"loss": 0.7367,
	"step": 523
	},
	{
	"epoch": 1.146294777139732,
	"grad_norm": 0.007178613916039467,
	"learning_rate": 0.0020608272506082723,
	"loss": 0.6688,
	"step": 524
	},
	{
	"epoch": 1.1484823625922886,
	"grad_norm": 0.00853504054248333,
	"learning_rate": 0.002058394160583942,
	"loss": 0.6802,
	"step": 525
	},
	{
	"epoch": 1.1506699480448455,
	"grad_norm": 0.011418921872973442,
	"learning_rate": 0.002055961070559611,
	"loss": 0.5832,
	"step": 526
	},
	{
	"epoch": 1.1528575334974023,
	"grad_norm": 0.015032613649964333,
	"learning_rate": 0.0020535279805352796,
	"loss": 0.6841,
	"step": 527
	},
	{
	"epoch": 1.155045118949959,
	"grad_norm": 0.008302520960569382,
	"learning_rate": 0.002051094890510949,
	"loss": 0.7869,
	"step": 528
	},
	{
	"epoch": 1.1572327044025157,
	"grad_norm": 0.006403745152056217,
	"learning_rate": 0.002048661800486618,
	"loss": 0.7054,
	"step": 529
	},
	{
	"epoch": 1.1594202898550725,
	"grad_norm": 0.00577664515003562,
	"learning_rate": 0.0020462287104622873,
	"loss": 0.8063,
	"step": 530
	},
	{
	"epoch": 1.161607875307629,
	"grad_norm": 0.011647713370621204,
	"learning_rate": 0.002043795620437956,
	"loss": 0.7921,
	"step": 531
	},
	{
	"epoch": 1.163795460760186,
	"grad_norm": 0.011479120701551437,
	"learning_rate": 0.0020413625304136255,
	"loss": 0.9256,
	"step": 532
	},
	{
	"epoch": 1.1659830462127427,
	"grad_norm": 0.007622700184583664,
	"learning_rate": 0.0020389294403892946,
	"loss": 0.722,
	"step": 533
	},
	{
	"epoch": 1.1681706316652993,
	"grad_norm": 0.0064216419123113155,
	"learning_rate": 0.0020364963503649632,
	"loss": 0.6979,
	"step": 534
	},
	{
	"epoch": 1.1703582171178561,
	"grad_norm": 0.007917587645351887,
	"learning_rate": 0.0020340632603406327,
	"loss": 0.8049,
	"step": 535
	},
	{
	"epoch": 1.172545802570413,
	"grad_norm": 0.0061738938093185425,
	"learning_rate": 0.002031630170316302,
	"loss": 0.7057,
	"step": 536
	},
	{
	"epoch": 1.1747333880229696,
	"grad_norm": 0.0060928682796657085,
	"learning_rate": 0.0020291970802919705,
	"loss": 0.8,
	"step": 537
	},
	{
	"epoch": 1.1769209734755264,
	"grad_norm": 0.00664818799123168,
	"learning_rate": 0.00202676399026764,
	"loss": 0.7944,
	"step": 538
	},
	{
	"epoch": 1.1791085589280832,
	"grad_norm": 0.027486886829137802,
	"learning_rate": 0.002024330900243309,
	"loss": 0.8446,
	"step": 539
	},
	{
	"epoch": 1.1812961443806398,
	"grad_norm": 0.01736626587808132,
	"learning_rate": 0.002021897810218978,
	"loss": 0.8303,
	"step": 540
	},
	{
	"epoch": 1.1834837298331966,
	"grad_norm": 0.0084115294739604,
	"learning_rate": 0.0020194647201946473,
	"loss": 0.7323,
	"step": 541
	},
	{
	"epoch": 1.1856713152857534,
	"grad_norm": 0.01464123371988535,
	"learning_rate": 0.0020170316301703164,
	"loss": 0.8395,
	"step": 542
	},
	{
	"epoch": 1.18785890073831,
	"grad_norm": 0.007480619940906763,
	"learning_rate": 0.0020145985401459855,
	"loss": 0.7309,
	"step": 543
	},
	{
	"epoch": 1.1900464861908668,
	"grad_norm": 0.014315255917608738,
	"learning_rate": 0.0020121654501216546,
	"loss": 0.6468,
	"step": 544
	},
	{
	"epoch": 1.1922340716434237,
	"grad_norm": 0.009927434846758842,
	"learning_rate": 0.0020097323600973237,
	"loss": 0.7544,
	"step": 545
	},
	{
	"epoch": 1.1944216570959802,
	"grad_norm": 0.019481701776385307,
	"learning_rate": 0.0020072992700729928,
	"loss": 0.8124,
	"step": 546
	},
	{
	"epoch": 1.196609242548537,
	"grad_norm": 0.007046518847346306,
	"learning_rate": 0.002004866180048662,
	"loss": 0.6582,
	"step": 547
	},
	{
	"epoch": 1.1987968280010939,
	"grad_norm": 0.012643888592720032,
	"learning_rate": 0.002002433090024331,
	"loss": 0.8098,
	"step": 548
	},
	{
	"epoch": 1.2009844134536505,
	"grad_norm": 0.008585029281675816,
	"learning_rate": 0.002,
	"loss": 0.7206,
	"step": 549
	},
	{
	"epoch": 1.2031719989062073,
	"grad_norm": 0.014269394800066948,
	"learning_rate": 0.001997566909975669,
	"loss": 0.8426,
	"step": 550
	},
	{
	"epoch": 1.2053595843587641,
	"grad_norm": 0.006986747495830059,
	"learning_rate": 0.0019951338199513382,
	"loss": 0.7793,
	"step": 551
	},
	{
	"epoch": 1.2075471698113207,
	"grad_norm": 0.014269756153225899,
	"learning_rate": 0.0019927007299270073,
	"loss": 0.7668,
	"step": 552
	},
	{
	"epoch": 1.2097347552638775,
	"grad_norm": 0.009506807662546635,
	"learning_rate": 0.0019902676399026764,
	"loss": 0.771,
	"step": 553
	},
	{
	"epoch": 1.2119223407164341,
	"grad_norm": 0.008203186094760895,
	"learning_rate": 0.0019878345498783455,
	"loss": 0.8037,
	"step": 554
	},
	{
	"epoch": 1.214109926168991,
	"grad_norm": 0.01714324578642845,
	"learning_rate": 0.0019854014598540146,
	"loss": 0.66,
	"step": 555
	},
	{
	"epoch": 1.2162975116215478,
	"grad_norm": 0.01466370839625597,
	"learning_rate": 0.0019829683698296837,
	"loss": 0.8761,
	"step": 556
	},
	{
	"epoch": 1.2184850970741046,
	"grad_norm": 0.049504704773426056,
	"learning_rate": 0.0019805352798053528,
	"loss": 0.7717,
	"step": 557
	},
	{
	"epoch": 1.2206726825266612,
	"grad_norm": 0.010891391895711422,
	"learning_rate": 0.001978102189781022,
	"loss": 0.7754,
	"step": 558
	},
	{
	"epoch": 1.222860267979218,
	"grad_norm": 0.007297700271010399,
	"learning_rate": 0.001975669099756691,
	"loss": 0.882,
	"step": 559
	},
	{
	"epoch": 1.2250478534317746,
	"grad_norm": 0.010113504715263844,
	"learning_rate": 0.00197323600973236,
	"loss": 0.7514,
	"step": 560
	},
	{
	"epoch": 1.2272354388843314,
	"grad_norm": 0.0076246317476034164,
	"learning_rate": 0.001970802919708029,
	"loss": 0.9311,
	"step": 561
	},
	{
	"epoch": 1.2294230243368882,
	"grad_norm": 0.010274101980030537,
	"learning_rate": 0.0019683698296836987,
	"loss": 0.9348,
	"step": 562
	},
	{
	"epoch": 1.2316106097894448,
	"grad_norm": 0.007466154173016548,
	"learning_rate": 0.0019659367396593673,
	"loss": 0.6847,
	"step": 563
	},
	{
	"epoch": 1.2337981952420016,
	"grad_norm": 0.012906615622341633,
	"learning_rate": 0.0019635036496350364,
	"loss": 0.9068,
	"step": 564
	},
	{
	"epoch": 1.2359857806945584,
	"grad_norm": 0.008850296027958393,
	"learning_rate": 0.001961070559610706,
	"loss": 0.9032,
	"step": 565
	},
	{
	"epoch": 1.238173366147115,
	"grad_norm": 0.009153778664767742,
	"learning_rate": 0.0019586374695863746,
	"loss": 0.7872,
	"step": 566
	},
	{
	"epoch": 1.2403609515996719,
	"grad_norm": 0.014177209697663784,
	"learning_rate": 0.0019562043795620437,
	"loss": 0.7902,
	"step": 567
	},
	{
	"epoch": 1.2425485370522287,
	"grad_norm": 0.008819716051220894,
	"learning_rate": 0.001953771289537713,
	"loss": 0.5116,
	"step": 568
	},
	{
	"epoch": 1.2447361225047853,
	"grad_norm": 0.012600511312484741,
	"learning_rate": 0.001951338199513382,
	"loss": 0.8224,
	"step": 569
	},
	{
	"epoch": 1.246923707957342,
	"grad_norm": 0.012330558151006699,
	"learning_rate": 0.001948905109489051,
	"loss": 0.6959,
	"step": 570
	},
	{
	"epoch": 1.249111293409899,
	"grad_norm": 0.013719186186790466,
	"learning_rate": 0.00194647201946472,
	"loss": 0.8555,
	"step": 571
	},
	{
	"epoch": 1.2512988788624555,
	"grad_norm": 0.019239958375692368,
	"learning_rate": 0.0019440389294403894,
	"loss": 0.8459,
	"step": 572
	},
	{
	"epoch": 1.2534864643150123,
	"grad_norm": 0.00825503934174776,
	"learning_rate": 0.0019416058394160585,
	"loss": 0.6807,
	"step": 573
	},
	{
	"epoch": 1.2556740497675691,
	"grad_norm": 0.00811754260212183,
	"learning_rate": 0.0019391727493917273,
	"loss": 0.661,
	"step": 574
	},
	{
	"epoch": 1.2578616352201257,
	"grad_norm": 0.009656975045800209,
	"learning_rate": 0.0019367396593673967,
	"loss": 0.693,
	"step": 575
	},
	{
	"epoch": 1.2600492206726825,
	"grad_norm": 0.01010841503739357,
	"learning_rate": 0.0019343065693430658,
	"loss": 0.7331,
	"step": 576
	},
	{
	"epoch": 1.2622368061252391,
	"grad_norm": 0.01344444788992405,
	"learning_rate": 0.0019318734793187346,
	"loss": 0.89,
	"step": 577
	},
	{
	"epoch": 1.264424391577796,
	"grad_norm": 0.009256028570234776,
	"learning_rate": 0.001929440389294404,
	"loss": 0.7227,
	"step": 578
	},
	{
	"epoch": 1.2666119770303528,
	"grad_norm": 0.009699441492557526,
	"learning_rate": 0.001927007299270073,
	"loss": 0.6758,
	"step": 579
	},
	{
	"epoch": 1.2687995624829096,
	"grad_norm": 0.013547690585255623,
	"learning_rate": 0.001924574209245742,
	"loss": 0.8159,
	"step": 580
	},
	{
	"epoch": 1.2709871479354662,
	"grad_norm": 0.011569716967642307,
	"learning_rate": 0.0019221411192214114,
	"loss": 0.7126,
	"step": 581
	},
	{
	"epoch": 1.273174733388023,
	"grad_norm": 0.009194127283990383,
	"learning_rate": 0.0019197080291970803,
	"loss": 0.8327,
	"step": 582
	},
	{
	"epoch": 1.2753623188405796,
	"grad_norm": 0.01622292585670948,
	"learning_rate": 0.0019172749391727494,
	"loss": 0.8118,
	"step": 583
	},
	{
	"epoch": 1.2775499042931364,
	"grad_norm": 0.016841020435094833,
	"learning_rate": 0.0019148418491484187,
	"loss": 0.8746,
	"step": 584
	},
	{
	"epoch": 1.2797374897456932,
	"grad_norm": 0.011160912923514843,
	"learning_rate": 0.0019124087591240876,
	"loss": 0.7846,
	"step": 585
	},
	{
	"epoch": 1.28192507519825,
	"grad_norm": 0.013098710216581821,
	"learning_rate": 0.0019099756690997567,
	"loss": 0.666,
	"step": 586
	},
	{
	"epoch": 1.2841126606508066,
	"grad_norm": 0.008245709352195263,
	"learning_rate": 0.001907542579075426,
	"loss": 0.7799,
	"step": 587
	},
	{
	"epoch": 1.2863002461033635,
	"grad_norm": 0.005503001157194376,
	"learning_rate": 0.0019051094890510949,
	"loss": 0.605,
	"step": 588
	},
	{
	"epoch": 1.28848783155592,
	"grad_norm": 0.014160554856061935,
	"learning_rate": 0.001902676399026764,
	"loss": 0.7715,
	"step": 589
	},
	{
	"epoch": 1.2906754170084769,
	"grad_norm": 0.06220156326889992,
	"learning_rate": 0.0019002433090024333,
	"loss": 1.0173,
	"step": 590
	},
	{
	"epoch": 1.2928630024610337,
	"grad_norm": 0.023459481075406075,
	"learning_rate": 0.0018978102189781021,
	"loss": 0.7195,
	"step": 591
	},
	{
	"epoch": 1.2950505879135905,
	"grad_norm": 0.02028430998325348,
	"learning_rate": 0.0018953771289537712,
	"loss": 0.8889,
	"step": 592
	},
	{
	"epoch": 1.297238173366147,
	"grad_norm": 0.007861199788749218,
	"learning_rate": 0.0018929440389294405,
	"loss": 0.8249,
	"step": 593
	},
	{
	"epoch": 1.299425758818704,
	"grad_norm": 0.008794757537543774,
	"learning_rate": 0.0018905109489051096,
	"loss": 0.8978,
	"step": 594
	},
	{
	"epoch": 1.3016133442712605,
	"grad_norm": 0.027899743989109993,
	"learning_rate": 0.0018880778588807785,
	"loss": 0.8259,
	"step": 595
	},
	{
	"epoch": 1.3038009297238173,
	"grad_norm": 0.006755333859473467,
	"learning_rate": 0.0018856447688564478,
	"loss": 0.8913,
	"step": 596
	},
	{
	"epoch": 1.3059885151763742,
	"grad_norm": 0.016409730538725853,
	"learning_rate": 0.001883211678832117,
	"loss": 0.7902,
	"step": 597
	},
	{
	"epoch": 1.3081761006289307,
	"grad_norm": 0.012431084178388119,
	"learning_rate": 0.0018807785888077858,
	"loss": 0.5474,
	"step": 598
	},
	{
	"epoch": 1.3103636860814876,
	"grad_norm": 0.0099630793556571,
	"learning_rate": 0.001878345498783455,
	"loss": 0.7595,
	"step": 599
	},
	{
	"epoch": 1.3125512715340442,
	"grad_norm": 0.027248527854681015,
	"learning_rate": 0.0018759124087591242,
	"loss": 1.0273,
	"step": 600
	},
	{
	"epoch": 1.314738856986601,
	"grad_norm": 0.008029641583561897,
	"learning_rate": 0.001873479318734793,
	"loss": 0.6951,
	"step": 601
	},
	{
	"epoch": 1.3169264424391578,
	"grad_norm": 0.011218305677175522,
	"learning_rate": 0.0018710462287104626,
	"loss": 0.9217,
	"step": 602
	},
	{
	"epoch": 1.3191140278917146,
	"grad_norm": 0.024159464985132217,
	"learning_rate": 0.0018686131386861315,
	"loss": 0.7839,
	"step": 603
	},
	{
	"epoch": 1.3213016133442712,
	"grad_norm": 0.01127669122070074,
	"learning_rate": 0.0018661800486618006,
	"loss": 0.6711,
	"step": 604
	},
	{
	"epoch": 1.323489198796828,
	"grad_norm": 0.014322164468467236,
	"learning_rate": 0.0018637469586374699,
	"loss": 0.8935,
	"step": 605
	},
	{
	"epoch": 1.3256767842493846,
	"grad_norm": 0.010018724948167801,
	"learning_rate": 0.0018613138686131387,
	"loss": 0.7622,
	"step": 606
	},
	{
	"epoch": 1.3278643697019414,
	"grad_norm": 0.02816806361079216,
	"learning_rate": 0.0018588807785888078,
	"loss": 0.8948,
	"step": 607
	},
	{
	"epoch": 1.3300519551544983,
	"grad_norm": 0.011105911806225777,
	"learning_rate": 0.0018564476885644767,
	"loss": 0.754,
	"step": 608
	},
	{
	"epoch": 1.332239540607055,
	"grad_norm": 0.007195697631686926,
	"learning_rate": 0.001854014598540146,
	"loss": 0.6923,
	"step": 609
	},
	{
	"epoch": 1.3344271260596117,
	"grad_norm": 0.010149553418159485,
	"learning_rate": 0.001851581508515815,
	"loss": 0.8129,
	"step": 610
	},
	{
	"epoch": 1.3366147115121685,
	"grad_norm": 0.006798075046390295,
	"learning_rate": 0.001849148418491484,
	"loss": 0.5858,
	"step": 611
	},
	{
	"epoch": 1.338802296964725,
	"grad_norm": 0.006904991343617439,
	"learning_rate": 0.0018467153284671533,
	"loss": 0.7058,
	"step": 612
	},
	{
	"epoch": 1.340989882417282,
	"grad_norm": 0.019244657829403877,
	"learning_rate": 0.0018442822384428224,
	"loss": 0.7452,
	"step": 613
	},
	{
	"epoch": 1.3431774678698387,
	"grad_norm": 0.10027986764907837,
	"learning_rate": 0.0018418491484184915,
	"loss": 0.7935,
	"step": 614
	},
	{
	"epoch": 1.3453650533223955,
	"grad_norm": 0.028616629540920258,
	"learning_rate": 0.0018394160583941608,
	"loss": 0.7798,
	"step": 615
	},
	{
	"epoch": 1.3475526387749521,
	"grad_norm": 0.02287200279533863,
	"learning_rate": 0.0018369829683698297,
	"loss": 0.7231,
	"step": 616
	},
	{
	"epoch": 1.349740224227509,
	"grad_norm": 0.029162835329771042,
	"learning_rate": 0.0018345498783454988,
	"loss": 0.7196,
	"step": 617
	},
	{
	"epoch": 1.3519278096800655,
	"grad_norm": 0.00748335849493742,
	"learning_rate": 0.001832116788321168,
	"loss": 0.6841,
	"step": 618
	},
	{
	"epoch": 1.3541153951326224,
	"grad_norm": 0.012842601165175438,
	"learning_rate": 0.001829683698296837,
	"loss": 0.8114,
	"step": 619
	},
	{
	"epoch": 1.3563029805851792,
	"grad_norm": 0.01425047405064106,
	"learning_rate": 0.001827250608272506,
	"loss": 0.713,
	"step": 620
	},
	{
	"epoch": 1.3584905660377358,
	"grad_norm": 0.011411231942474842,
	"learning_rate": 0.0018248175182481753,
	"loss": 0.8576,
	"step": 621
	},
	{
	"epoch": 1.3606781514902926,
	"grad_norm": 0.02541513741016388,
	"learning_rate": 0.0018223844282238442,
	"loss": 0.7529,
	"step": 622
	},
	{
	"epoch": 1.3628657369428494,
	"grad_norm": 0.009776429273188114,
	"learning_rate": 0.0018199513381995133,
	"loss": 0.6062,
	"step": 623
	},
	{
	"epoch": 1.365053322395406,
	"grad_norm": 0.01603938452899456,
	"learning_rate": 0.0018175182481751826,
	"loss": 1.3558,
	"step": 624
	},
	{
	"epoch": 1.3672409078479628,
	"grad_norm": 0.01858574151992798,
	"learning_rate": 0.0018150851581508517,
	"loss": 0.7067,
	"step": 625
	},
	{
	"epoch": 1.3694284933005196,
	"grad_norm": 0.014604609459638596,
	"learning_rate": 0.0018126520681265206,
	"loss": 0.65,
	"step": 626
	},
	{
	"epoch": 1.3716160787530762,
	"grad_norm": 0.01383352093398571,
	"learning_rate": 0.00181021897810219,
	"loss": 0.724,
	"step": 627
	},
	{
	"epoch": 1.373803664205633,
	"grad_norm": 0.007166001014411449,
	"learning_rate": 0.001807785888077859,
	"loss": 0.7063,
	"step": 628
	},
	{
	"epoch": 1.3759912496581896,
	"grad_norm": 0.01364620216190815,
	"learning_rate": 0.0018053527980535279,
	"loss": 0.942,
	"step": 629
	},
	{
	"epoch": 1.3781788351107465,
	"grad_norm": 0.013178148306906223,
	"learning_rate": 0.0018029197080291972,
	"loss": 0.7134,
	"step": 630
	},
	{
	"epoch": 1.3803664205633033,
	"grad_norm": 0.016469091176986694,
	"learning_rate": 0.0018004866180048663,
	"loss": 0.8652,
	"step": 631
	},
	{
	"epoch": 1.38255400601586,
	"grad_norm": 0.008818808011710644,
	"learning_rate": 0.0017980535279805351,
	"loss": 0.7157,
	"step": 632
	},
	{
	"epoch": 1.3847415914684167,
	"grad_norm": 0.006165484432131052,
	"learning_rate": 0.0017956204379562047,
	"loss": 0.8267,
	"step": 633
	},
	{
	"epoch": 1.3869291769209735,
	"grad_norm": 0.017317302525043488,
	"learning_rate": 0.0017931873479318735,
	"loss": 0.7661,
	"step": 634
	},
	{
	"epoch": 1.38911676237353,
	"grad_norm": 0.01045684702694416,
	"learning_rate": 0.0017907542579075426,
	"loss": 0.797,
	"step": 635
	},
	{
	"epoch": 1.391304347826087,
	"grad_norm": 0.004696684889495373,
	"learning_rate": 0.001788321167883212,
	"loss": 0.793,
	"step": 636
	},
	{
	"epoch": 1.3934919332786437,
	"grad_norm": 0.01570739410817623,
	"learning_rate": 0.0017858880778588808,
	"loss": 0.9052,
	"step": 637
	},
	{
	"epoch": 1.3956795187312006,
	"grad_norm": 0.006558465771377087,
	"learning_rate": 0.00178345498783455,
	"loss": 0.7475,
	"step": 638
	},
	{
	"epoch": 1.3978671041837571,
	"grad_norm": 0.008167284540832043,
	"learning_rate": 0.0017810218978102192,
	"loss": 0.7801,
	"step": 639
	},
	{
	"epoch": 1.400054689636314,
	"grad_norm": 0.007898733019828796,
	"learning_rate": 0.001778588807785888,
	"loss": 0.7694,
	"step": 640
	},
	{
	"epoch": 1.4022422750888706,
	"grad_norm": 0.011702708899974823,
	"learning_rate": 0.0017761557177615572,
	"loss": 0.7104,
	"step": 641
	},
	{
	"epoch": 1.4044298605414274,
	"grad_norm": 0.01823602244257927,
	"learning_rate": 0.0017737226277372265,
	"loss": 0.837,
	"step": 642
	},
	{
	"epoch": 1.4066174459939842,
	"grad_norm": 0.019088082015514374,
	"learning_rate": 0.0017712895377128954,
	"loss": 0.8105,
	"step": 643
	},
	{
	"epoch": 1.408805031446541,
	"grad_norm": 0.008738362230360508,
	"learning_rate": 0.0017688564476885645,
	"loss": 0.9423,
	"step": 644
	},
	{
	"epoch": 1.4109926168990976,
	"grad_norm": 0.010799618437886238,
	"learning_rate": 0.0017664233576642336,
	"loss": 0.7173,
	"step": 645
	},
	{
	"epoch": 1.4131802023516544,
	"grad_norm": 0.007114489562809467,
	"learning_rate": 0.0017639902676399029,
	"loss": 0.7322,
	"step": 646
	},
	{
	"epoch": 1.415367787804211,
	"grad_norm": 0.021334782242774963,
	"learning_rate": 0.0017615571776155717,
	"loss": 0.7808,
	"step": 647
	},
	{
	"epoch": 1.4175553732567678,
	"grad_norm": 0.06464671343564987,
	"learning_rate": 0.0017591240875912408,
	"loss": 0.8948,
	"step": 648
	},
	{
	"epoch": 1.4197429587093247,
	"grad_norm": 0.016822345554828644,
	"learning_rate": 0.0017566909975669101,
	"loss": 0.7481,
	"step": 649
	},
	{
	"epoch": 1.4219305441618812,
	"grad_norm": 0.01005722675472498,
	"learning_rate": 0.001754257907542579,
	"loss": 0.8027,
	"step": 650
	},
	{
	"epoch": 1.424118129614438,
	"grad_norm": 0.01469690166413784,
	"learning_rate": 0.0017518248175182481,
	"loss": 0.7487,
	"step": 651
	},
	{
	"epoch": 1.4263057150669949,
	"grad_norm": 0.013352830894291401,
	"learning_rate": 0.0017493917274939174,
	"loss": 0.9439,
	"step": 652
	},
	{
	"epoch": 1.4284933005195515,
	"grad_norm": 0.01574932225048542,
	"learning_rate": 0.0017469586374695863,
	"loss": 0.7926,
	"step": 653
	},
	{
	"epoch": 1.4306808859721083,
	"grad_norm": 0.012712597846984863,
	"learning_rate": 0.0017445255474452554,
	"loss": 0.8369,
	"step": 654
	},
	{
	"epoch": 1.4328684714246651,
	"grad_norm": 0.018248263746500015,
	"learning_rate": 0.0017420924574209247,
	"loss": 0.6585,
	"step": 655
	},
	{
	"epoch": 1.4350560568772217,
	"grad_norm": 0.0181551706045866,
	"learning_rate": 0.0017396593673965938,
	"loss": 0.8487,
	"step": 656
	},
	{
	"epoch": 1.4372436423297785,
	"grad_norm": 0.009059487842023373,
	"learning_rate": 0.0017372262773722627,
	"loss": 0.8897,
	"step": 657
	},
	{
	"epoch": 1.4394312277823351,
	"grad_norm": 0.007483980618417263,
	"learning_rate": 0.001734793187347932,
	"loss": 0.6673,
	"step": 658
	},
	{
	"epoch": 1.441618813234892,
	"grad_norm": 0.007589507382363081,
	"learning_rate": 0.001732360097323601,
	"loss": 0.7013,
	"step": 659
	},
	{
	"epoch": 1.4438063986874488,
	"grad_norm": 0.011493782512843609,
	"learning_rate": 0.00172992700729927,
	"loss": 0.5457,
	"step": 660
	},
	{
	"epoch": 1.4459939841400056,
	"grad_norm": 0.027656735852360725,
	"learning_rate": 0.0017274939172749392,
	"loss": 0.7251,
	"step": 661
	},
	{
	"epoch": 1.4481815695925622,
	"grad_norm": 0.022569406777620316,
	"learning_rate": 0.0017250608272506083,
	"loss": 0.7104,
	"step": 662
	},
	{
	"epoch": 1.450369155045119,
	"grad_norm": 0.028735000640153885,
	"learning_rate": 0.0017226277372262772,
	"loss": 0.8682,
	"step": 663
	},
	{
	"epoch": 1.4525567404976756,
	"grad_norm": 0.012052370235323906,
	"learning_rate": 0.0017201946472019465,
	"loss": 0.7508,
	"step": 664
	},
	{
	"epoch": 1.4547443259502324,
	"grad_norm": 0.008707467466592789,
	"learning_rate": 0.0017177615571776156,
	"loss": 0.83,
	"step": 665
	},
	{
	"epoch": 1.4569319114027892,
	"grad_norm": 0.01061397884041071,
	"learning_rate": 0.0017153284671532847,
	"loss": 0.9431,
	"step": 666
	},
	{
	"epoch": 1.459119496855346,
	"grad_norm": 0.011903772130608559,
	"learning_rate": 0.001712895377128954,
	"loss": 0.723,
	"step": 667
	},
	{
	"epoch": 1.4613070823079026,
	"grad_norm": 0.03922785073518753,
	"learning_rate": 0.001710462287104623,
	"loss": 0.6581,
	"step": 668
	},
	{
	"epoch": 1.4634946677604594,
	"grad_norm": 0.014414667151868343,
	"learning_rate": 0.001708029197080292,
	"loss": 0.8511,
	"step": 669
	},
	{
	"epoch": 1.465682253213016,
	"grad_norm": 0.010338617488741875,
	"learning_rate": 0.0017055961070559613,
	"loss": 0.7162,
	"step": 670
	},
	{
	"epoch": 1.4678698386655729,
	"grad_norm": 0.011176107451319695,
	"learning_rate": 0.0017031630170316302,
	"loss": 0.8674,
	"step": 671
	},
	{
	"epoch": 1.4700574241181297,
	"grad_norm": 0.014365148730576038,
	"learning_rate": 0.0017007299270072993,
	"loss": 0.7739,
	"step": 672
	},
	{
	"epoch": 1.4722450095706865,
	"grad_norm": 0.019749363884329796,
	"learning_rate": 0.0016982968369829686,
	"loss": 0.7571,
	"step": 673
	},
	{
	"epoch": 1.474432595023243,
	"grad_norm": 0.011761876754462719,
	"learning_rate": 0.0016958637469586374,
	"loss": 0.7208,
	"step": 674
	},
	{
	"epoch": 1.4766201804758,
	"grad_norm": 0.025715123862028122,
	"learning_rate": 0.0016934306569343065,
	"loss": 0.7554,
	"step": 675
	},
	{
	"epoch": 1.4788077659283565,
	"grad_norm": 0.028069710358977318,
	"learning_rate": 0.0016909975669099759,
	"loss": 0.6652,
	"step": 676
	},
	{
	"epoch": 1.4809953513809133,
	"grad_norm": 0.02627987042069435,
	"learning_rate": 0.001688564476885645,
	"loss": 0.7924,
	"step": 677
	},
	{
	"epoch": 1.4831829368334701,
	"grad_norm": 0.005099075846374035,
	"learning_rate": 0.0016861313868613138,
	"loss": 0.75,
	"step": 678
	},
	{
	"epoch": 1.4853705222860267,
	"grad_norm": 0.007156622130423784,
	"learning_rate": 0.0016836982968369831,
	"loss": 0.8034,
	"step": 679
	},
	{
	"epoch": 1.4875581077385835,
	"grad_norm": 0.008162274025380611,
	"learning_rate": 0.0016812652068126522,
	"loss": 0.6174,
	"step": 680
	},
	{
	"epoch": 1.4897456931911401,
	"grad_norm": 0.01390012539923191,
	"learning_rate": 0.001678832116788321,
	"loss": 0.7813,
	"step": 681
	},
	{
	"epoch": 1.491933278643697,
	"grad_norm": 0.03663848340511322,
	"learning_rate": 0.0016763990267639902,
	"loss": 0.6028,
	"step": 682
	},
	{
	"epoch": 1.4941208640962538,
	"grad_norm": 0.01389587577432394,
	"learning_rate": 0.0016739659367396595,
	"loss": 0.9186,
	"step": 683
	},
	{
	"epoch": 1.4963084495488106,
	"grad_norm": 0.007214284967631102,
	"learning_rate": 0.0016715328467153284,
	"loss": 1.0112,
	"step": 684
	},
	{
	"epoch": 1.4984960350013672,
	"grad_norm": 0.01086746621876955,
	"learning_rate": 0.0016690997566909975,
	"loss": 0.7628,
	"step": 685
	},
	{
	"epoch": 1.500683620453924,
	"grad_norm": 0.006750196684151888,
	"learning_rate": 0.0016666666666666668,
	"loss": 0.8025,
	"step": 686
	},
	{
	"epoch": 1.5028712059064806,
	"grad_norm": 0.012172271497547626,
	"learning_rate": 0.0016642335766423359,
	"loss": 0.7559,
	"step": 687
	},
	{
	"epoch": 1.5050587913590374,
	"grad_norm": 0.03923722356557846,
	"learning_rate": 0.0016618004866180047,
	"loss": 0.8227,
	"step": 688
	},
	{
	"epoch": 1.5072463768115942,
	"grad_norm": 0.020949123427271843,
	"learning_rate": 0.001659367396593674,
	"loss": 0.7272,
	"step": 689
	},
	{
	"epoch": 1.509433962264151,
	"grad_norm": 0.012365633621811867,
	"learning_rate": 0.0016569343065693431,
	"loss": 0.9127,
	"step": 690
	},
	{
	"epoch": 1.5116215477167076,
	"grad_norm": 0.012725708074867725,
	"learning_rate": 0.001654501216545012,
	"loss": 0.7576,
	"step": 691
	},
	{
	"epoch": 1.5138091331692645,
	"grad_norm": 0.014691759832203388,
	"learning_rate": 0.0016520681265206813,
	"loss": 0.6951,
	"step": 692
	},
	{
	"epoch": 1.515996718621821,
	"grad_norm": 0.009719770401716232,
	"learning_rate": 0.0016496350364963504,
	"loss": 0.6947,
	"step": 693
	},
	{
	"epoch": 1.5181843040743779,
	"grad_norm": 0.0074682896956801414,
	"learning_rate": 0.0016472019464720193,
	"loss": 0.8467,
	"step": 694
	},
	{
	"epoch": 1.5203718895269347,
	"grad_norm": 0.011303418315947056,
	"learning_rate": 0.0016447688564476886,
	"loss": 0.7453,
	"step": 695
	},
	{
	"epoch": 1.5225594749794915,
	"grad_norm": 0.009616104885935783,
	"learning_rate": 0.0016423357664233577,
	"loss": 0.8284,
	"step": 696
	},
	{
	"epoch": 1.524747060432048,
	"grad_norm": 0.004562855698168278,
	"learning_rate": 0.0016399026763990268,
	"loss": 0.776,
	"step": 697
	},
	{
	"epoch": 1.5269346458846047,
	"grad_norm": 0.0057913740165531635,
	"learning_rate": 0.001637469586374696,
	"loss": 0.5635,
	"step": 698
	},
	{
	"epoch": 1.5291222313371615,
	"grad_norm": 0.011465840972959995,
	"learning_rate": 0.001635036496350365,
	"loss": 0.7466,
	"step": 699
	},
	{
	"epoch": 1.5313098167897183,
	"grad_norm": 0.009356693364679813,
	"learning_rate": 0.001632603406326034,
	"loss": 0.7555,
	"step": 700
	},
	{
	"epoch": 1.5334974022422752,
	"grad_norm": 0.01132314745336771,
	"learning_rate": 0.0016301703163017034,
	"loss": 0.6987,
	"step": 701
	},
	{
	"epoch": 1.535684987694832,
	"grad_norm": 0.011162355542182922,
	"learning_rate": 0.0016277372262773723,
	"loss": 0.7895,
	"step": 702
	},
	{
	"epoch": 1.5378725731473886,
	"grad_norm": 0.008752882480621338,
	"learning_rate": 0.0016253041362530413,
	"loss": 0.7829,
	"step": 703
	},
	{
	"epoch": 1.5400601585999452,
	"grad_norm": 0.0067902375012636185,
	"learning_rate": 0.0016228710462287107,
	"loss": 0.7541,
	"step": 704
	},
	{
	"epoch": 1.542247744052502,
	"grad_norm": 0.010398069396615028,
	"learning_rate": 0.0016204379562043795,
	"loss": 0.84,
	"step": 705
	},
	{
	"epoch": 1.5444353295050588,
	"grad_norm": 0.006489087361842394,
	"learning_rate": 0.0016180048661800486,
	"loss": 0.7745,
	"step": 706
	},
	{
	"epoch": 1.5466229149576156,
	"grad_norm": 0.00789352972060442,
	"learning_rate": 0.001615571776155718,
	"loss": 0.7006,
	"step": 707
	},
	{
	"epoch": 1.5488105004101724,
	"grad_norm": 0.005906807258725166,
	"learning_rate": 0.001613138686131387,
	"loss": 0.826,
	"step": 708
	},
	{
	"epoch": 1.550998085862729,
	"grad_norm": 0.006026630289852619,
	"learning_rate": 0.001610705596107056,
	"loss": 0.6783,
	"step": 709
	},
	{
	"epoch": 1.5531856713152856,
	"grad_norm": 0.010388746857643127,
	"learning_rate": 0.0016082725060827252,
	"loss": 0.8531,
	"step": 710
	},
	{
	"epoch": 1.5553732567678424,
	"grad_norm": 0.01053705345839262,
	"learning_rate": 0.0016058394160583943,
	"loss": 0.7257,
	"step": 711
	},
	{
	"epoch": 1.5575608422203993,
	"grad_norm": 0.006276300642639399,
	"learning_rate": 0.0016034063260340632,
	"loss": 0.7996,
	"step": 712
	},
	{
	"epoch": 1.559748427672956,
	"grad_norm": 0.006276302970945835,
	"learning_rate": 0.0016009732360097325,
	"loss": 0.8443,
	"step": 713
	},
	{
	"epoch": 1.5619360131255127,
	"grad_norm": 0.008509790524840355,
	"learning_rate": 0.0015985401459854016,
	"loss": 0.7289,
	"step": 714
	},
	{
	"epoch": 1.5641235985780695,
	"grad_norm": 0.01978105679154396,
	"learning_rate": 0.0015961070559610705,
	"loss": 0.846,
	"step": 715
	},
	{
	"epoch": 1.566311184030626,
	"grad_norm": 0.012076129205524921,
	"learning_rate": 0.0015936739659367398,
	"loss": 0.7292,
	"step": 716
	},
	{
	"epoch": 1.568498769483183,
	"grad_norm": 0.01716456562280655,
	"learning_rate": 0.0015912408759124089,
	"loss": 0.7655,
	"step": 717
	},
	{
	"epoch": 1.5706863549357397,
	"grad_norm": 0.016601664945483208,
	"learning_rate": 0.001588807785888078,
	"loss": 0.7277,
	"step": 718
	},
	{
	"epoch": 1.5728739403882965,
	"grad_norm": 0.010958652012050152,
	"learning_rate": 0.0015863746958637468,
	"loss": 0.7392,
	"step": 719
	},
	{
	"epoch": 1.5750615258408531,
	"grad_norm": 0.007287964224815369,
	"learning_rate": 0.0015839416058394161,
	"loss": 0.822,
	"step": 720
	},
	{
	"epoch": 1.57724911129341,
	"grad_norm": 0.010577067732810974,
	"learning_rate": 0.0015815085158150852,
	"loss": 0.732,
	"step": 721
	},
	{
	"epoch": 1.5794366967459665,
	"grad_norm": 0.007742591667920351,
	"learning_rate": 0.001579075425790754,
	"loss": 0.8312,
	"step": 722
	},
	{
	"epoch": 1.5816242821985234,
	"grad_norm": 0.009659879840910435,
	"learning_rate": 0.0015766423357664234,
	"loss": 0.8213,
	"step": 723
	},
	{
	"epoch": 1.5838118676510802,
	"grad_norm": 0.015149835497140884,
	"learning_rate": 0.0015742092457420925,
	"loss": 0.6992,
	"step": 724
	},
	{
	"epoch": 1.585999453103637,
	"grad_norm": 0.007888193242251873,
	"learning_rate": 0.0015717761557177614,
	"loss": 0.8853,
	"step": 725
	},
	{
	"epoch": 1.5881870385561936,
	"grad_norm": 0.011876450851559639,
	"learning_rate": 0.0015693430656934307,
	"loss": 0.7645,
	"step": 726
	},
	{
	"epoch": 1.5903746240087502,
	"grad_norm": 0.015837261453270912,
	"learning_rate": 0.0015669099756690998,
	"loss": 0.8061,
	"step": 727
	},
	{
	"epoch": 1.592562209461307,
	"grad_norm": 0.006944081746041775,
	"learning_rate": 0.0015644768856447687,
	"loss": 0.6043,
	"step": 728
	},
	{
	"epoch": 1.5947497949138638,
	"grad_norm": 0.01456182450056076,
	"learning_rate": 0.0015620437956204382,
	"loss": 0.9343,
	"step": 729
	},
	{
	"epoch": 1.5969373803664206,
	"grad_norm": 0.007655070163309574,
	"learning_rate": 0.001559610705596107,
	"loss": 0.727,
	"step": 730
	},
	{
	"epoch": 1.5991249658189775,
	"grad_norm": 0.014365557581186295,
	"learning_rate": 0.0015571776155717761,
	"loss": 0.6884,
	"step": 731
	},
	{
	"epoch": 1.601312551271534,
	"grad_norm": 0.013196627609431744,
	"learning_rate": 0.0015547445255474455,
	"loss": 0.6522,
	"step": 732
	},
	{
	"epoch": 1.6035001367240906,
	"grad_norm": 0.0069740209728479385,
	"learning_rate": 0.0015523114355231143,
	"loss": 0.812,
	"step": 733
	},
	{
	"epoch": 1.6056877221766475,
	"grad_norm": 0.018947165459394455,
	"learning_rate": 0.0015498783454987834,
	"loss": 0.7464,
	"step": 734
	},
	{
	"epoch": 1.6078753076292043,
	"grad_norm": 0.02975570783019066,
	"learning_rate": 0.0015474452554744527,
	"loss": 1.0338,
	"step": 735
	},
	{
	"epoch": 1.610062893081761,
	"grad_norm": 0.01144670695066452,
	"learning_rate": 0.0015450121654501216,
	"loss": 0.9582,
	"step": 736
	},
	{
	"epoch": 1.612250478534318,
	"grad_norm": 0.08359838277101517,
	"learning_rate": 0.0015425790754257907,
	"loss": 0.6188,
	"step": 737
	},
	{
	"epoch": 1.6144380639868745,
	"grad_norm": 0.005582269746810198,
	"learning_rate": 0.00154014598540146,
	"loss": 0.6557,
	"step": 738
	},
	{
	"epoch": 1.616625649439431,
	"grad_norm": 0.008966202847659588,
	"learning_rate": 0.001537712895377129,
	"loss": 0.6564,
	"step": 739
	},
	{
	"epoch": 1.618813234891988,
	"grad_norm": 0.011794374324381351,
	"learning_rate": 0.001535279805352798,
	"loss": 0.8051,
	"step": 740
	},
	{
	"epoch": 1.6210008203445447,
	"grad_norm": 0.00766439875587821,
	"learning_rate": 0.0015328467153284673,
	"loss": 0.8145,
	"step": 741
	},
	{
	"epoch": 1.6231884057971016,
	"grad_norm": 0.014379739761352539,
	"learning_rate": 0.0015304136253041364,
	"loss": 0.8658,
	"step": 742
	},
	{
	"epoch": 1.6253759912496581,
	"grad_norm": 0.01025471929460764,
	"learning_rate": 0.0015279805352798053,
	"loss": 0.6969,
	"step": 743
	},
	{
	"epoch": 1.627563576702215,
	"grad_norm": 0.012737879529595375,
	"learning_rate": 0.0015255474452554746,
	"loss": 0.9006,
	"step": 744
	},
	{
	"epoch": 1.6297511621547716,
	"grad_norm": 0.0110158147290349,
	"learning_rate": 0.0015231143552311437,
	"loss": 0.7326,
	"step": 745
	},
	{
	"epoch": 1.6319387476073284,
	"grad_norm": 0.011220619082450867,
	"learning_rate": 0.0015206812652068125,
	"loss": 0.8275,
	"step": 746
	},
	{
	"epoch": 1.6341263330598852,
	"grad_norm": 0.00941223930567503,
	"learning_rate": 0.0015182481751824818,
	"loss": 0.8187,
	"step": 747
	},
	{
	"epoch": 1.636313918512442,
	"grad_norm": 0.004144694656133652,
	"learning_rate": 0.001515815085158151,
	"loss": 0.7248,
	"step": 748
	},
	{
	"epoch": 1.6385015039649986,
	"grad_norm": 0.013639383018016815,
	"learning_rate": 0.0015133819951338198,
	"loss": 0.7966,
	"step": 749
	},
	{
	"epoch": 1.6406890894175554,
	"grad_norm": 0.006385320797562599,
	"learning_rate": 0.0015109489051094893,
	"loss": 0.6772,
	"step": 750
	},
	{
	"epoch": 1.642876674870112,
	"grad_norm": 0.011585132218897343,
	"learning_rate": 0.0015085158150851582,
	"loss": 0.6696,
	"step": 751
	},
	{
	"epoch": 1.6450642603226688,
	"grad_norm": 0.023672277107834816,
	"learning_rate": 0.0015060827250608273,
	"loss": 0.6978,
	"step": 752
	},
	{
	"epoch": 1.6472518457752257,
	"grad_norm": 0.014683379791676998,
	"learning_rate": 0.0015036496350364966,
	"loss": 0.5735,
	"step": 753
	},
	{
	"epoch": 1.6494394312277825,
	"grad_norm": 0.010881925001740456,
	"learning_rate": 0.0015012165450121655,
	"loss": 0.6773,
	"step": 754
	},
	{
	"epoch": 1.651627016680339,
	"grad_norm": 0.009006233885884285,
	"learning_rate": 0.0014987834549878346,
	"loss": 0.7773,
	"step": 755
	},
	{
	"epoch": 1.6538146021328957,
	"grad_norm": 0.01426916103810072,
	"learning_rate": 0.0014963503649635037,
	"loss": 0.7436,
	"step": 756
	},
	{
	"epoch": 1.6560021875854525,
	"grad_norm": 0.005649265833199024,
	"learning_rate": 0.0014939172749391728,
	"loss": 0.7041,
	"step": 757
	},
	{
	"epoch": 1.6581897730380093,
	"grad_norm": 0.008767529390752316,
	"learning_rate": 0.0014914841849148419,
	"loss": 0.6701,
	"step": 758
	},
	{
	"epoch": 1.6603773584905661,
	"grad_norm": 0.007580756675451994,
	"learning_rate": 0.001489051094890511,
	"loss": 0.6593,
	"step": 759
	},
	{
	"epoch": 1.662564943943123,
	"grad_norm": 0.010842681862413883,
	"learning_rate": 0.0014866180048661803,
	"loss": 0.9414,
	"step": 760
	},
	{
	"epoch": 1.6647525293956795,
	"grad_norm": 0.008890979923307896,
	"learning_rate": 0.0014841849148418491,
	"loss": 0.8333,
	"step": 761
	},
	{
	"epoch": 1.6669401148482361,
	"grad_norm": 0.00815370213240385,
	"learning_rate": 0.0014817518248175182,
	"loss": 0.8596,
	"step": 762
	},
	{
	"epoch": 1.669127700300793,
	"grad_norm": 0.007434117142111063,
	"learning_rate": 0.0014793187347931875,
	"loss": 0.631,
	"step": 763
	},
	{
	"epoch": 1.6713152857533498,
	"grad_norm": 0.007965626195073128,
	"learning_rate": 0.0014768856447688564,
	"loss": 0.7377,
	"step": 764
	},
	{
	"epoch": 1.6735028712059066,
	"grad_norm": 0.014369670301675797,
	"learning_rate": 0.0014744525547445257,
	"loss": 0.6907,
	"step": 765
	},
	{
	"epoch": 1.6756904566584632,
	"grad_norm": 0.013002739287912846,
	"learning_rate": 0.0014720194647201946,
	"loss": 0.8491,
	"step": 766
	},
	{
	"epoch": 1.67787804211102,
	"grad_norm": 0.008742110803723335,
	"learning_rate": 0.0014695863746958637,
	"loss": 1.0319,
	"step": 767
	},
	{
	"epoch": 1.6800656275635766,
	"grad_norm": 0.01362073328346014,
	"learning_rate": 0.001467153284671533,
	"loss": 0.596,
	"step": 768
	},
	{
	"epoch": 1.6822532130161334,
	"grad_norm": 0.007842877879738808,
	"learning_rate": 0.0014647201946472019,
	"loss": 0.848,
	"step": 769
	},
	{
	"epoch": 1.6844407984686902,
	"grad_norm": 0.007685767021030188,
	"learning_rate": 0.001462287104622871,
	"loss": 0.6811,
	"step": 770
	},
	{
	"epoch": 1.686628383921247,
	"grad_norm": 0.07299596816301346,
	"learning_rate": 0.0014598540145985403,
	"loss": 0.7739,
	"step": 771
	},
	{
	"epoch": 1.6888159693738036,
	"grad_norm": 0.02475287765264511,
	"learning_rate": 0.0014574209245742091,
	"loss": 0.8412,
	"step": 772
	},
	{
	"epoch": 1.6910035548263604,
	"grad_norm": 0.02310485951602459,
	"learning_rate": 0.0014549878345498785,
	"loss": 0.7707,
	"step": 773
	},
	{
	"epoch": 1.693191140278917,
	"grad_norm": 0.006614830810576677,
	"learning_rate": 0.0014525547445255475,
	"loss": 0.9116,
	"step": 774
	},
	{
	"epoch": 1.6953787257314739,
	"grad_norm": 0.017114151269197464,
	"learning_rate": 0.0014501216545012164,
	"loss": 0.7767,
	"step": 775
	},
	{
	"epoch": 1.6975663111840307,
	"grad_norm": 0.007972135208547115,
	"learning_rate": 0.0014476885644768857,
	"loss": 0.8053,
	"step": 776
	},
	{
	"epoch": 1.6997538966365875,
	"grad_norm": 0.013452711515128613,
	"learning_rate": 0.0014452554744525548,
	"loss": 0.633,
	"step": 777
	},
	{
	"epoch": 1.701941482089144,
	"grad_norm": 0.01562053058296442,
	"learning_rate": 0.001442822384428224,
	"loss": 0.8312,
	"step": 778
	},
	{
	"epoch": 1.7041290675417007,
	"grad_norm": 0.006510770879685879,
	"learning_rate": 0.001440389294403893,
	"loss": 0.7721,
	"step": 779
	},
	{
	"epoch": 1.7063166529942575,
	"grad_norm": 0.011892448179423809,
	"learning_rate": 0.001437956204379562,
	"loss": 0.6629,
	"step": 780
	},
	{
	"epoch": 1.7085042384468143,
	"grad_norm": 0.005237538833171129,
	"learning_rate": 0.0014355231143552312,
	"loss": 0.5767,
	"step": 781
	},
	{
	"epoch": 1.7106918238993711,
	"grad_norm": 0.020627424120903015,
	"learning_rate": 0.0014330900243309003,
	"loss": 0.8974,
	"step": 782
	},
	{
	"epoch": 1.712879409351928,
	"grad_norm": 0.012742357328534126,
	"learning_rate": 0.0014306569343065694,
	"loss": 0.5843,
	"step": 783
	},
	{
	"epoch": 1.7150669948044845,
	"grad_norm": 0.011114447377622128,
	"learning_rate": 0.0014282238442822385,
	"loss": 0.9336,
	"step": 784
	},
	{
	"epoch": 1.7172545802570411,
	"grad_norm": 0.01212508138269186,
	"learning_rate": 0.0014257907542579076,
	"loss": 0.853,
	"step": 785
	},
	{
	"epoch": 1.719442165709598,
	"grad_norm": 0.006842518225312233,
	"learning_rate": 0.0014233576642335767,
	"loss": 0.8329,
	"step": 786
	},
	{
	"epoch": 1.7216297511621548,
	"grad_norm": 0.008684076368808746,
	"learning_rate": 0.0014209245742092457,
	"loss": 0.8503,
	"step": 787
	},
	{
	"epoch": 1.7238173366147116,
	"grad_norm": 0.009845465421676636,
	"learning_rate": 0.0014184914841849148,
	"loss": 0.9911,
	"step": 788
	},
	{
	"epoch": 1.7260049220672684,
	"grad_norm": 0.007301978301256895,
	"learning_rate": 0.001416058394160584,
	"loss": 0.6684,
	"step": 789
	},
	{
	"epoch": 1.728192507519825,
	"grad_norm": 0.010263817384839058,
	"learning_rate": 0.001413625304136253,
	"loss": 0.6852,
	"step": 790
	},
	{
	"epoch": 1.7303800929723816,
	"grad_norm": 0.012078475207090378,
	"learning_rate": 0.0014111922141119221,
	"loss": 0.6509,
	"step": 791
	},
	{
	"epoch": 1.7325676784249384,
	"grad_norm": 0.012108572758734226,
	"learning_rate": 0.0014087591240875912,
	"loss": 0.7183,
	"step": 792
	},
	{
	"epoch": 1.7347552638774952,
	"grad_norm": 0.011477826163172722,
	"learning_rate": 0.0014063260340632603,
	"loss": 0.8856,
	"step": 793
	},
	{
	"epoch": 1.736942849330052,
	"grad_norm": 0.007066864520311356,
	"learning_rate": 0.0014038929440389296,
	"loss": 0.6114,
	"step": 794
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 0.011538154445588589,
	"learning_rate": 0.0014014598540145985,
	"loss": 0.6716,
	"step": 795
	},
	{
	"epoch": 1.7413180202351655,
	"grad_norm": 0.008611057884991169,
	"learning_rate": 0.0013990267639902676,
	"loss": 0.9979,
	"step": 796
	},
	{
	"epoch": 1.743505605687722,
	"grad_norm": 0.013740317896008492,
	"learning_rate": 0.0013965936739659369,
	"loss": 0.8166,
	"step": 797
	},
	{
	"epoch": 1.7456931911402789,
	"grad_norm": 0.008636080659925938,
	"learning_rate": 0.0013941605839416058,
	"loss": 0.8138,
	"step": 798
	},
	{
	"epoch": 1.7478807765928357,
	"grad_norm": 0.008637238293886185,
	"learning_rate": 0.001391727493917275,
	"loss": 0.9225,
	"step": 799
	},
	{
	"epoch": 1.7500683620453925,
	"grad_norm": 0.022517461329698563,
	"learning_rate": 0.0013892944038929442,
	"loss": 0.735,
	"step": 800
	},
	{
	"epoch": 1.752255947497949,
	"grad_norm": 0.005302282981574535,
	"learning_rate": 0.001386861313868613,
	"loss": 0.657,
	"step": 801
	},
	{
	"epoch": 1.754443532950506,
	"grad_norm": 0.04943990707397461,
	"learning_rate": 0.0013844282238442824,
	"loss": 0.623,
	"step": 802
	},
	{
	"epoch": 1.7566311184030625,
	"grad_norm": 0.011758695356547832,
	"learning_rate": 0.0013819951338199512,
	"loss": 0.8038,
	"step": 803
	},
	{
	"epoch": 1.7588187038556193,
	"grad_norm": 0.009712104685604572,
	"learning_rate": 0.0013795620437956205,
	"loss": 0.7268,
	"step": 804
	},
	{
	"epoch": 1.7610062893081762,
	"grad_norm": 0.007741864304989576,
	"learning_rate": 0.0013771289537712896,
	"loss": 0.7049,
	"step": 805
	},
	{
	"epoch": 1.763193874760733,
	"grad_norm": 0.010713865980505943,
	"learning_rate": 0.0013746958637469585,
	"loss": 0.6425,
	"step": 806
	},
	{
	"epoch": 1.7653814602132896,
	"grad_norm": 0.006576141808182001,
	"learning_rate": 0.0013722627737226278,
	"loss": 0.7601,
	"step": 807
	},
	{
	"epoch": 1.7675690456658462,
	"grad_norm": 0.007796050515025854,
	"learning_rate": 0.001369829683698297,
	"loss": 0.659,
	"step": 808
	},
	{
	"epoch": 1.769756631118403,
	"grad_norm": 0.01460753008723259,
	"learning_rate": 0.001367396593673966,
	"loss": 0.769,
	"step": 809
	},
	{
	"epoch": 1.7719442165709598,
	"grad_norm": 0.010747969150543213,
	"learning_rate": 0.001364963503649635,
	"loss": 0.8531,
	"step": 810
	},
	{
	"epoch": 1.7741318020235166,
	"grad_norm": 0.011500733904540539,
	"learning_rate": 0.0013625304136253042,
	"loss": 0.7294,
	"step": 811
	},
	{
	"epoch": 1.7763193874760734,
	"grad_norm": 0.013433235697448254,
	"learning_rate": 0.0013600973236009733,
	"loss": 0.6442,
	"step": 812
	},
	{
	"epoch": 1.77850697292863,
	"grad_norm": 0.019317343831062317,
	"learning_rate": 0.0013576642335766424,
	"loss": 0.6254,
	"step": 813
	},
	{
	"epoch": 1.7806945583811866,
	"grad_norm": 0.020062780007719994,
	"learning_rate": 0.0013552311435523115,
	"loss": 0.6957,
	"step": 814
	},
	{
	"epoch": 1.7828821438337434,
	"grad_norm": 0.00756926229223609,
	"learning_rate": 0.0013527980535279806,
	"loss": 0.7532,
	"step": 815
	},
	{
	"epoch": 1.7850697292863003,
	"grad_norm": 0.0089380769059062,
	"learning_rate": 0.0013503649635036496,
	"loss": 0.6534,
	"step": 816
	},
	{
	"epoch": 1.787257314738857,
	"grad_norm": 0.006980338133871555,
	"learning_rate": 0.0013479318734793187,
	"loss": 0.7314,
	"step": 817
	},
	{
	"epoch": 1.789444900191414,
	"grad_norm": 0.0074529629200696945,
	"learning_rate": 0.0013454987834549878,
	"loss": 0.8291,
	"step": 818
	},
	{
	"epoch": 1.7916324856439705,
	"grad_norm": 0.02699979580938816,
	"learning_rate": 0.001343065693430657,
	"loss": 0.7249,
	"step": 819
	},
	{
	"epoch": 1.793820071096527,
	"grad_norm": 0.008204830810427666,
	"learning_rate": 0.001340632603406326,
	"loss": 0.7446,
	"step": 820
	},
	{
	"epoch": 1.796007656549084,
	"grad_norm": 0.006959575694054365,
	"learning_rate": 0.001338199513381995,
	"loss": 0.6694,
	"step": 821
	},
	{
	"epoch": 1.7981952420016407,
	"grad_norm": 0.006019539665430784,
	"learning_rate": 0.0013357664233576642,
	"loss": 0.7947,
	"step": 822
	},
	{
	"epoch": 1.8003828274541975,
	"grad_norm": 0.007515772711485624,
	"learning_rate": 0.0013333333333333333,
	"loss": 0.6259,
	"step": 823
	},
	{
	"epoch": 1.8025704129067541,
	"grad_norm": 0.0231679268181324,
	"learning_rate": 0.0013309002433090024,
	"loss": 0.5702,
	"step": 824
	},
	{
	"epoch": 1.804757998359311,
	"grad_norm": 0.009831500239670277,
	"learning_rate": 0.0013284671532846717,
	"loss": 0.7197,
	"step": 825
	},
	{
	"epoch": 1.8069455838118675,
	"grad_norm": 0.011389415711164474,
	"learning_rate": 0.0013260340632603406,
	"loss": 0.8466,
	"step": 826
	},
	{
	"epoch": 1.8091331692644244,
	"grad_norm": 0.010654733516275883,
	"learning_rate": 0.0013236009732360097,
	"loss": 0.7456,
	"step": 827
	},
	{
	"epoch": 1.8113207547169812,
	"grad_norm": 0.010770871303975582,
	"learning_rate": 0.001321167883211679,
	"loss": 0.6827,
	"step": 828
	},
	{
	"epoch": 1.813508340169538,
	"grad_norm": 0.00828484632074833,
	"learning_rate": 0.0013187347931873478,
	"loss": 0.6794,
	"step": 829
	},
	{
	"epoch": 1.8156959256220946,
	"grad_norm": 0.00973398145288229,
	"learning_rate": 0.0013163017031630172,
	"loss": 0.7354,
	"step": 830
	},
	{
	"epoch": 1.8178835110746514,
	"grad_norm": 0.00983220711350441,
	"learning_rate": 0.0013138686131386862,
	"loss": 0.8531,
	"step": 831
	},
	{
	"epoch": 1.820071096527208,
	"grad_norm": 0.02620159089565277,
	"learning_rate": 0.0013114355231143551,
	"loss": 0.7631,
	"step": 832
	},
	{
	"epoch": 1.8222586819797648,
	"grad_norm": 0.057880647480487823,
	"learning_rate": 0.0013090024330900244,
	"loss": 0.9336,
	"step": 833
	},
	{
	"epoch": 1.8244462674323216,
	"grad_norm": 0.011240589432418346,
	"learning_rate": 0.0013065693430656935,
	"loss": 0.5887,
	"step": 834
	},
	{
	"epoch": 1.8266338528848785,
	"grad_norm": 0.012356660328805447,
	"learning_rate": 0.0013041362530413626,
	"loss": 0.702,
	"step": 835
	},
	{
	"epoch": 1.828821438337435,
	"grad_norm": 0.006840168032795191,
	"learning_rate": 0.0013017031630170317,
	"loss": 0.756,
	"step": 836
	},
	{
	"epoch": 1.8310090237899916,
	"grad_norm": 0.005550102796405554,
	"learning_rate": 0.0012992700729927008,
	"loss": 0.7161,
	"step": 837
	},
	{
	"epoch": 1.8331966092425485,
	"grad_norm": 0.0120685501024127,
	"learning_rate": 0.0012968369829683699,
	"loss": 0.9234,
	"step": 838
	},
	{
	"epoch": 1.8353841946951053,
	"grad_norm": 0.008514792658388615,
	"learning_rate": 0.001294403892944039,
	"loss": 0.5988,
	"step": 839
	},
	{
	"epoch": 1.837571780147662,
	"grad_norm": 0.019344119355082512,
	"learning_rate": 0.001291970802919708,
	"loss": 0.8419,
	"step": 840
	},
	{
	"epoch": 1.839759365600219,
	"grad_norm": 0.01257373858243227,
	"learning_rate": 0.0012895377128953772,
	"loss": 0.6785,
	"step": 841
	},
	{
	"epoch": 1.8419469510527755,
	"grad_norm": 0.022899962961673737,
	"learning_rate": 0.0012871046228710463,
	"loss": 0.6617,
	"step": 842
	},
	{
	"epoch": 1.844134536505332,
	"grad_norm": 0.012275392189621925,
	"learning_rate": 0.0012846715328467154,
	"loss": 0.8096,
	"step": 843
	},
	{
	"epoch": 1.846322121957889,
	"grad_norm": 0.01191315334290266,
	"learning_rate": 0.0012822384428223844,
	"loss": 0.7757,
	"step": 844
	},
	{
	"epoch": 1.8485097074104457,
	"grad_norm": 0.012164206244051456,
	"learning_rate": 0.0012798053527980535,
	"loss": 0.7284,
	"step": 845
	},
	{
	"epoch": 1.8506972928630026,
	"grad_norm": 0.007747825235128403,
	"learning_rate": 0.0012773722627737226,
	"loss": 0.673,
	"step": 846
	},
	{
	"epoch": 1.8528848783155591,
	"grad_norm": 0.01633123680949211,
	"learning_rate": 0.0012749391727493917,
	"loss": 0.6006,
	"step": 847
	},
	{
	"epoch": 1.855072463768116,
	"grad_norm": 0.008600953966379166,
	"learning_rate": 0.0012725060827250608,
	"loss": 0.7354,
	"step": 848
	},
	{
	"epoch": 1.8572600492206726,
	"grad_norm": 0.008487503044307232,
	"learning_rate": 0.00127007299270073,
	"loss": 0.689,
	"step": 849
	},
	{
	"epoch": 1.8594476346732294,
	"grad_norm": 0.01615467295050621,
	"learning_rate": 0.001267639902676399,
	"loss": 0.7461,
	"step": 850
	},
	{
	"epoch": 1.8616352201257862,
	"grad_norm": 0.008541187271475792,
	"learning_rate": 0.0012652068126520683,
	"loss": 0.6958,
	"step": 851
	},
	{
	"epoch": 1.863822805578343,
	"grad_norm": 0.01053849421441555,
	"learning_rate": 0.0012627737226277372,
	"loss": 0.6786,
	"step": 852
	},
	{
	"epoch": 1.8660103910308996,
	"grad_norm": 0.008857163600623608,
	"learning_rate": 0.0012603406326034063,
	"loss": 0.6645,
	"step": 853
	},
	{
	"epoch": 1.8681979764834564,
	"grad_norm": 0.006793574895709753,
	"learning_rate": 0.0012579075425790756,
	"loss": 0.6311,
	"step": 854
	},
	{
	"epoch": 1.870385561936013,
	"grad_norm": 0.01936703361570835,
	"learning_rate": 0.0012554744525547445,
	"loss": 0.9318,
	"step": 855
	},
	{
	"epoch": 1.8725731473885698,
	"grad_norm": 0.009839971549808979,
	"learning_rate": 0.0012530413625304138,
	"loss": 0.7309,
	"step": 856
	},
	{
	"epoch": 1.8747607328411267,
	"grad_norm": 0.010399356484413147,
	"learning_rate": 0.0012506082725060829,
	"loss": 0.8351,
	"step": 857
	},
	{
	"epoch": 1.8769483182936835,
	"grad_norm": 0.014294488355517387,
	"learning_rate": 0.0012481751824817517,
	"loss": 0.6187,
	"step": 858
	},
	{
	"epoch": 1.87913590374624,
	"grad_norm": 0.011614672839641571,
	"learning_rate": 0.001245742092457421,
	"loss": 0.9295,
	"step": 859
	},
	{
	"epoch": 1.8813234891987969,
	"grad_norm": 0.015355818904936314,
	"learning_rate": 0.00124330900243309,
	"loss": 0.5266,
	"step": 860
	},
	{
	"epoch": 1.8835110746513535,
	"grad_norm": 0.011674858629703522,
	"learning_rate": 0.0012408759124087592,
	"loss": 0.6467,
	"step": 861
	},
	{
	"epoch": 1.8856986601039103,
	"grad_norm": 0.013345809653401375,
	"learning_rate": 0.0012384428223844283,
	"loss": 0.8166,
	"step": 862
	},
	{
	"epoch": 1.8878862455564671,
	"grad_norm": 0.009595265612006187,
	"learning_rate": 0.0012360097323600972,
	"loss": 0.7704,
	"step": 863
	},
	{
	"epoch": 1.890073831009024,
	"grad_norm": 0.01896647922694683,
	"learning_rate": 0.0012335766423357665,
	"loss": 0.7815,
	"step": 864
	},
	{
	"epoch": 1.8922614164615805,
	"grad_norm": 0.017639558762311935,
	"learning_rate": 0.0012311435523114356,
	"loss": 0.7979,
	"step": 865
	},
	{
	"epoch": 1.8944490019141371,
	"grad_norm": 0.022902049124240875,
	"learning_rate": 0.0012287104622871047,
	"loss": 0.8904,
	"step": 866
	},
	{
	"epoch": 1.896636587366694,
	"grad_norm": 0.0124649154022336,
	"learning_rate": 0.0012262773722627738,
	"loss": 0.7693,
	"step": 867
	},
	{
	"epoch": 1.8988241728192508,
	"grad_norm": 0.007474742829799652,
	"learning_rate": 0.0012238442822384429,
	"loss": 0.6641,
	"step": 868
	},
	{
	"epoch": 1.9010117582718076,
	"grad_norm": 0.008987569250166416,
	"learning_rate": 0.001221411192214112,
	"loss": 0.6378,
	"step": 869
	},
	{
	"epoch": 1.9031993437243644,
	"grad_norm": 0.009300309233367443,
	"learning_rate": 0.001218978102189781,
	"loss": 0.7426,
	"step": 870
	},
	{
	"epoch": 1.905386929176921,
	"grad_norm": 0.01408142875880003,
	"learning_rate": 0.0012165450121654502,
	"loss": 0.7824,
	"step": 871
	},
	{
	"epoch": 1.9075745146294776,
	"grad_norm": 0.00678917346522212,
	"learning_rate": 0.0012141119221411192,
	"loss": 0.7978,
	"step": 872
	},
	{
	"epoch": 1.9097621000820344,
	"grad_norm": 0.010661943815648556,
	"learning_rate": 0.0012116788321167883,
	"loss": 0.6591,
	"step": 873
	},
	{
	"epoch": 1.9119496855345912,
	"grad_norm": 0.009882554411888123,
	"learning_rate": 0.0012092457420924574,
	"loss": 0.7443,
	"step": 874
	},
	{
	"epoch": 1.914137270987148,
	"grad_norm": 0.12100229412317276,
	"learning_rate": 0.0012068126520681265,
	"loss": 0.8035,
	"step": 875
	},
	{
	"epoch": 1.9163248564397046,
	"grad_norm": 0.01500593964010477,
	"learning_rate": 0.0012043795620437956,
	"loss": 0.8671,
	"step": 876
	},
	{
	"epoch": 1.9185124418922614,
	"grad_norm": 0.01351536437869072,
	"learning_rate": 0.0012019464720194647,
	"loss": 0.824,
	"step": 877
	},
	{
	"epoch": 1.920700027344818,
	"grad_norm": 0.02334493212401867,
	"learning_rate": 0.0011995133819951338,
	"loss": 0.7728,
	"step": 878
	},
	{
	"epoch": 1.9228876127973749,
	"grad_norm": 0.04414600878953934,
	"learning_rate": 0.001197080291970803,
	"loss": 0.7811,
	"step": 879
	},
	{
	"epoch": 1.9250751982499317,
	"grad_norm": 0.03064621239900589,
	"learning_rate": 0.001194647201946472,
	"loss": 0.8812,
	"step": 880
	},
	{
	"epoch": 1.9272627837024885,
	"grad_norm": 0.010438323952257633,
	"learning_rate": 0.001192214111922141,
	"loss": 0.8027,
	"step": 881
	},
	{
	"epoch": 1.929450369155045,
	"grad_norm": 0.016364533454179764,
	"learning_rate": 0.0011897810218978104,
	"loss": 0.6239,
	"step": 882
	},
	{
	"epoch": 1.931637954607602,
	"grad_norm": 0.02069861628115177,
	"learning_rate": 0.0011873479318734793,
	"loss": 0.8137,
	"step": 883
	},
	{
	"epoch": 1.9338255400601585,
	"grad_norm": 0.017191501334309578,
	"learning_rate": 0.0011849148418491484,
	"loss": 0.8052,
	"step": 884
	},
	{
	"epoch": 1.9360131255127153,
	"grad_norm": 0.014077574014663696,
	"learning_rate": 0.0011824817518248177,
	"loss": 0.8584,
	"step": 885
	},
	{
	"epoch": 1.9382007109652721,
	"grad_norm": 0.009209788404405117,
	"learning_rate": 0.0011800486618004865,
	"loss": 0.6426,
	"step": 886
	},
	{
	"epoch": 1.940388296417829,
	"grad_norm": 0.026021014899015427,
	"learning_rate": 0.0011776155717761558,
	"loss": 0.7457,
	"step": 887
	},
	{
	"epoch": 1.9425758818703855,
	"grad_norm": 0.024019265547394753,
	"learning_rate": 0.001175182481751825,
	"loss": 0.869,
	"step": 888
	},
	{
	"epoch": 1.9447634673229421,
	"grad_norm": 0.020230406895279884,
	"learning_rate": 0.0011727493917274938,
	"loss": 0.8532,
	"step": 889
	},
	{
	"epoch": 1.946951052775499,
	"grad_norm": 0.018076736479997635,
	"learning_rate": 0.0011703163017031631,
	"loss": 0.7276,
	"step": 890
	},
	{
	"epoch": 1.9491386382280558,
	"grad_norm": 0.019679049029946327,
	"learning_rate": 0.0011678832116788322,
	"loss": 0.7214,
	"step": 891
	},
	{
	"epoch": 1.9513262236806126,
	"grad_norm": 0.010772393085062504,
	"learning_rate": 0.0011654501216545013,
	"loss": 0.6786,
	"step": 892
	},
	{
	"epoch": 1.9535138091331694,
	"grad_norm": 0.010874917730689049,
	"learning_rate": 0.0011630170316301704,
	"loss": 0.7272,
	"step": 893
	},
	{
	"epoch": 1.955701394585726,
	"grad_norm": 0.00815314520150423,
	"learning_rate": 0.0011605839416058395,
	"loss": 0.8908,
	"step": 894
	},
	{
	"epoch": 1.9578889800382826,
	"grad_norm": 0.008539310656487942,
	"learning_rate": 0.0011581508515815086,
	"loss": 0.6394,
	"step": 895
	},
	{
	"epoch": 1.9600765654908394,
	"grad_norm": 0.039017412811517715,
	"learning_rate": 0.0011557177615571777,
	"loss": 0.6505,
	"step": 896
	},
	{
	"epoch": 1.9622641509433962,
	"grad_norm": 0.009175320155918598,
	"learning_rate": 0.0011532846715328468,
	"loss": 0.975,
	"step": 897
	},
	{
	"epoch": 1.964451736395953,
	"grad_norm": 0.014542749151587486,
	"learning_rate": 0.0011508515815085159,
	"loss": 0.7222,
	"step": 898
	},
	{
	"epoch": 1.9666393218485099,
	"grad_norm": 0.01856316812336445,
	"learning_rate": 0.001148418491484185,
	"loss": 0.7575,
	"step": 899
	},
	{
	"epoch": 1.9688269073010665,
	"grad_norm": 0.007601718418300152,
	"learning_rate": 0.001145985401459854,
	"loss": 0.7233,
	"step": 900
	},
	{
	"epoch": 1.971014492753623,
	"grad_norm": 0.034239862114191055,
	"learning_rate": 0.0011435523114355231,
	"loss": 0.6989,
	"step": 901
	},
	{
	"epoch": 1.9732020782061799,
	"grad_norm": 0.00851233210414648,
	"learning_rate": 0.0011411192214111922,
	"loss": 0.8321,
	"step": 902
	},
	{
	"epoch": 1.9753896636587367,
	"grad_norm": 0.009412054903805256,
	"learning_rate": 0.0011386861313868613,
	"loss": 0.7139,
	"step": 903
	},
	{
	"epoch": 1.9775772491112935,
	"grad_norm": 0.012049161829054356,
	"learning_rate": 0.0011362530413625304,
	"loss": 0.6989,
	"step": 904
	},
	{
	"epoch": 1.97976483456385,
	"grad_norm": 0.010931652970612049,
	"learning_rate": 0.0011338199513381995,
	"loss": 0.8747,
	"step": 905
	},
	{
	"epoch": 1.981952420016407,
	"grad_norm": 0.015494965016841888,
	"learning_rate": 0.0011313868613138686,
	"loss": 0.8644,
	"step": 906
	},
	{
	"epoch": 1.9841400054689635,
	"grad_norm": 0.012480970472097397,
	"learning_rate": 0.0011289537712895377,
	"loss": 0.907,
	"step": 907
	},
	{
	"epoch": 1.9863275909215203,
	"grad_norm": 0.01492912694811821,
	"learning_rate": 0.001126520681265207,
	"loss": 0.7421,
	"step": 908
	},
	{
	"epoch": 1.9885151763740772,
	"grad_norm": 0.012027468532323837,
	"learning_rate": 0.0011240875912408759,
	"loss": 0.9274,
	"step": 909
	},
	{
	"epoch": 1.990702761826634,
	"grad_norm": 0.014835814945399761,
	"learning_rate": 0.001121654501216545,
	"loss": 0.8337,
	"step": 910
	},
	{
	"epoch": 1.9928903472791906,
	"grad_norm": 0.008667545393109322,
	"learning_rate": 0.0011192214111922143,
	"loss": 0.6117,
	"step": 911
	},
	{
	"epoch": 1.9950779327317474,
	"grad_norm": 0.01624200865626335,
	"learning_rate": 0.0011167883211678832,
	"loss": 0.8712,
	"step": 912
	},
	{
	"epoch": 1.997265518184304,
	"grad_norm": 0.008188914507627487,
	"learning_rate": 0.0011143552311435525,
	"loss": 0.8495,
	"step": 913
	},
	{
	"epoch": 1.9994531036368608,
	"grad_norm": 0.013718970119953156,
	"learning_rate": 0.0011119221411192213,
	"loss": 0.8417,
	"step": 914
	},
	{
	"epoch": 2.0016406890894176,
	"grad_norm": 0.00691073015332222,
	"learning_rate": 0.0011094890510948904,
	"loss": 0.7033,
	"step": 915
	},
	{
	"epoch": 2.0038282745419744,
	"grad_norm": 0.017321942374110222,
	"learning_rate": 0.0011070559610705597,
	"loss": 0.7979,
	"step": 916
	},
	{
	"epoch": 2.0060158599945312,
	"grad_norm": 0.007781198713928461,
	"learning_rate": 0.0011046228710462286,
	"loss": 0.6795,
	"step": 917
	},
	{
	"epoch": 2.0082034454470876,
	"grad_norm": 0.007755633443593979,
	"learning_rate": 0.001102189781021898,
	"loss": 0.6363,
	"step": 918
	},
	{
	"epoch": 2.0103910308996444,
	"grad_norm": 0.015355097129940987,
	"learning_rate": 0.001099756690997567,
	"loss": 0.7684,
	"step": 919
	},
	{
	"epoch": 2.0125786163522013,
	"grad_norm": 0.009972341358661652,
	"learning_rate": 0.001097323600973236,
	"loss": 0.7659,
	"step": 920
	},
	{
	"epoch": 2.014766201804758,
	"grad_norm": 0.00998846534639597,
	"learning_rate": 0.0010948905109489052,
	"loss": 0.918,
	"step": 921
	},
	{
	"epoch": 2.016953787257315,
	"grad_norm": 0.007050537038594484,
	"learning_rate": 0.0010924574209245743,
	"loss": 0.7083,
	"step": 922
	},
	{
	"epoch": 2.0191413727098713,
	"grad_norm": 0.008426625281572342,
	"learning_rate": 0.0010900243309002432,
	"loss": 0.7962,
	"step": 923
	},
	{
	"epoch": 2.021328958162428,
	"grad_norm": 0.009424027986824512,
	"learning_rate": 0.0010875912408759125,
	"loss": 0.7369,
	"step": 924
	},
	{
	"epoch": 2.023516543614985,
	"grad_norm": 0.012517026625573635,
	"learning_rate": 0.0010851581508515816,
	"loss": 0.8281,
	"step": 925
	},
	{
	"epoch": 2.0257041290675417,
	"grad_norm": 0.016427017748355865,
	"learning_rate": 0.0010827250608272507,
	"loss": 0.7808,
	"step": 926
	},
	{
	"epoch": 2.0278917145200985,
	"grad_norm": 0.011162400245666504,
	"learning_rate": 0.0010802919708029198,
	"loss": 0.8512,
	"step": 927
	},
	{
	"epoch": 2.0300792999726553,
	"grad_norm": 0.025822371244430542,
	"learning_rate": 0.0010778588807785888,
	"loss": 0.6347,
	"step": 928
	},
	{
	"epoch": 2.0322668854252117,
	"grad_norm": 0.008243129588663578,
	"learning_rate": 0.001075425790754258,
	"loss": 0.7126,
	"step": 929
	},
	{
	"epoch": 2.0344544708777685,
	"grad_norm": 0.01245404314249754,
	"learning_rate": 0.001072992700729927,
	"loss": 0.6111,
	"step": 930
	},
	{
	"epoch": 2.0366420563303254,
	"grad_norm": 0.006443020887672901,
	"learning_rate": 0.0010705596107055961,
	"loss": 0.6287,
	"step": 931
	},
	{
	"epoch": 2.038829641782882,
	"grad_norm": 0.01358412578701973,
	"learning_rate": 0.0010681265206812652,
	"loss": 1.0563,
	"step": 932
	},
	{
	"epoch": 2.041017227235439,
	"grad_norm": 0.010836120694875717,
	"learning_rate": 0.0010656934306569343,
	"loss": 0.7046,
	"step": 933
	},
	{
	"epoch": 2.043204812687996,
	"grad_norm": 0.012488581240177155,
	"learning_rate": 0.0010632603406326034,
	"loss": 0.8661,
	"step": 934
	},
	{
	"epoch": 2.045392398140552,
	"grad_norm": 0.009522946551442146,
	"learning_rate": 0.0010608272506082725,
	"loss": 0.6687,
	"step": 935
	},
	{
	"epoch": 2.047579983593109,
	"grad_norm": 0.03695467486977577,
	"learning_rate": 0.0010583941605839416,
	"loss": 0.7727,
	"step": 936
	},
	{
	"epoch": 2.049767569045666,
	"grad_norm": 0.04616512730717659,
	"learning_rate": 0.0010559610705596107,
	"loss": 0.7193,
	"step": 937
	},
	{
	"epoch": 2.0519551544982226,
	"grad_norm": 0.010503578931093216,
	"learning_rate": 0.0010535279805352798,
	"loss": 0.6701,
	"step": 938
	},
	{
	"epoch": 2.0541427399507795,
	"grad_norm": 0.008623762056231499,
	"learning_rate": 0.001051094890510949,
	"loss": 0.7161,
	"step": 939
	},
	{
	"epoch": 2.0563303254033363,
	"grad_norm": 0.007583661004900932,
	"learning_rate": 0.001048661800486618,
	"loss": 0.7402,
	"step": 940
	},
	{
	"epoch": 2.0585179108558926,
	"grad_norm": 0.008966002613306046,
	"learning_rate": 0.001046228710462287,
	"loss": 0.7016,
	"step": 941
	},
	{
	"epoch": 2.0607054963084495,
	"grad_norm": 0.0104443971067667,
	"learning_rate": 0.0010437956204379564,
	"loss": 0.7877,
	"step": 942
	},
	{
	"epoch": 2.0628930817610063,
	"grad_norm": 0.011073727160692215,
	"learning_rate": 0.0010413625304136252,
	"loss": 0.8216,
	"step": 943
	},
	{
	"epoch": 2.065080667213563,
	"grad_norm": 0.006104661151766777,
	"learning_rate": 0.0010389294403892943,
	"loss": 0.7218,
	"step": 944
	},
	{
	"epoch": 2.06726825266612,
	"grad_norm": 0.006152690388262272,
	"learning_rate": 0.0010364963503649636,
	"loss": 0.6807,
	"step": 945
	},
	{
	"epoch": 2.0694558381186763,
	"grad_norm": 0.01146136224269867,
	"learning_rate": 0.0010340632603406325,
	"loss": 0.8706,
	"step": 946
	},
	{
	"epoch": 2.071643423571233,
	"grad_norm": 0.008924251422286034,
	"learning_rate": 0.0010316301703163018,
	"loss": 0.7596,
	"step": 947
	},
	{
	"epoch": 2.07383100902379,
	"grad_norm": 0.01587800122797489,
	"learning_rate": 0.001029197080291971,
	"loss": 0.8315,
	"step": 948
	},
	{
	"epoch": 2.0760185944763467,
	"grad_norm": 0.007868033833801746,
	"learning_rate": 0.0010267639902676398,
	"loss": 0.8498,
	"step": 949
	},
	{
	"epoch": 2.0782061799289036,
	"grad_norm": 0.009655119851231575,
	"learning_rate": 0.001024330900243309,
	"loss": 0.909,
	"step": 950
	},
	{
	"epoch": 2.0803937653814604,
	"grad_norm": 0.014302834868431091,
	"learning_rate": 0.001021897810218978,
	"loss": 0.8934,
	"step": 951
	},
	{
	"epoch": 2.0825813508340167,
	"grad_norm": 0.008887048810720444,
	"learning_rate": 0.0010194647201946473,
	"loss": 0.62,
	"step": 952
	},
	{
	"epoch": 2.0847689362865736,
	"grad_norm": 0.016339240595698357,
	"learning_rate": 0.0010170316301703164,
	"loss": 0.7503,
	"step": 953
	},
	{
	"epoch": 2.0869565217391304,
	"grad_norm": 0.013042870908975601,
	"learning_rate": 0.0010145985401459853,
	"loss": 0.7425,
	"step": 954
	},
	{
	"epoch": 2.089144107191687,
	"grad_norm": 0.009357294999063015,
	"learning_rate": 0.0010121654501216546,
	"loss": 0.7565,
	"step": 955
	},
	{
	"epoch": 2.091331692644244,
	"grad_norm": 0.008100231178104877,
	"learning_rate": 0.0010097323600973237,
	"loss": 0.659,
	"step": 956
	},
	{
	"epoch": 2.093519278096801,
	"grad_norm": 0.008745480328798294,
	"learning_rate": 0.0010072992700729927,
	"loss": 0.6722,
	"step": 957
	},
	{
	"epoch": 2.095706863549357,
	"grad_norm": 0.02181909792125225,
	"learning_rate": 0.0010048661800486618,
	"loss": 0.7497,
	"step": 958
	},
	{
	"epoch": 2.097894449001914,
	"grad_norm": 0.005593753885477781,
	"learning_rate": 0.001002433090024331,
	"loss": 0.6413,
	"step": 959
	},
	{
	"epoch": 2.100082034454471,
	"grad_norm": 0.0110318623483181,
	"learning_rate": 0.001,
	"loss": 0.7437,
	"step": 960
	},
	{
	"epoch": 2.1022696199070277,
	"grad_norm": 0.07487611472606659,
	"learning_rate": 0.0009975669099756691,
	"loss": 0.8967,
	"step": 961
	},
	{
	"epoch": 2.1044572053595845,
	"grad_norm": 0.011572844348847866,
	"learning_rate": 0.0009951338199513382,
	"loss": 0.7016,
	"step": 962
	},
	{
	"epoch": 2.1066447908121413,
	"grad_norm": 0.0219709649682045,
	"learning_rate": 0.0009927007299270073,
	"loss": 0.7582,
	"step": 963
	},
	{
	"epoch": 2.1088323762646977,
	"grad_norm": 0.014250703155994415,
	"learning_rate": 0.0009902676399026764,
	"loss": 0.6485,
	"step": 964
	},
	{
	"epoch": 2.1110199617172545,
	"grad_norm": 0.010836089961230755,
	"learning_rate": 0.0009878345498783455,
	"loss": 0.7457,
	"step": 965
	},
	{
	"epoch": 2.1132075471698113,
	"grad_norm": 0.010538347065448761,
	"learning_rate": 0.0009854014598540146,
	"loss": 0.7283,
	"step": 966
	},
	{
	"epoch": 2.115395132622368,
	"grad_norm": 0.011399851180613041,
	"learning_rate": 0.0009829683698296837,
	"loss": 0.6896,
	"step": 967
	},
	{
	"epoch": 2.117582718074925,
	"grad_norm": 0.027435095980763435,
	"learning_rate": 0.000980535279805353,
	"loss": 0.9376,
	"step": 968
	},
	{
	"epoch": 2.1197703035274817,
	"grad_norm": 0.00705757224932313,
	"learning_rate": 0.0009781021897810219,
	"loss": 0.7243,
	"step": 969
	},
	{
	"epoch": 2.121957888980038,
	"grad_norm": 0.0098995016887784,
	"learning_rate": 0.000975669099756691,
	"loss": 0.7931,
	"step": 970
	},
	{
	"epoch": 2.124145474432595,
	"grad_norm": 0.011125714518129826,
	"learning_rate": 0.00097323600973236,
	"loss": 0.6044,
	"step": 971
	},
	{
	"epoch": 2.1263330598851518,
	"grad_norm": 0.009387229569256306,
	"learning_rate": 0.0009708029197080292,
	"loss": 0.7187,
	"step": 972
	},
	{
	"epoch": 2.1285206453377086,
	"grad_norm": 0.01129234954714775,
	"learning_rate": 0.0009683698296836983,
	"loss": 0.8324,
	"step": 973
	},
	{
	"epoch": 2.1307082307902654,
	"grad_norm": 0.011272157542407513,
	"learning_rate": 0.0009659367396593673,
	"loss": 0.7128,
	"step": 974
	},
	{
	"epoch": 2.132895816242822,
	"grad_norm": 0.010409243404865265,
	"learning_rate": 0.0009635036496350365,
	"loss": 0.7535,
	"step": 975
	},
	{
	"epoch": 2.1350834016953786,
	"grad_norm": 0.00857408158481121,
	"learning_rate": 0.0009610705596107057,
	"loss": 0.8129,
	"step": 976
	},
	{
	"epoch": 2.1372709871479354,
	"grad_norm": 0.014548208564519882,
	"learning_rate": 0.0009586374695863747,
	"loss": 0.676,
	"step": 977
	},
	{
	"epoch": 2.139458572600492,
	"grad_norm": 0.016449380666017532,
	"learning_rate": 0.0009562043795620438,
	"loss": 0.7384,
	"step": 978
	},
	{
	"epoch": 2.141646158053049,
	"grad_norm": 0.007109857629984617,
	"learning_rate": 0.000953771289537713,
	"loss": 0.6808,
	"step": 979
	},
	{
	"epoch": 2.143833743505606,
	"grad_norm": 0.009979904629290104,
	"learning_rate": 0.000951338199513382,
	"loss": 0.6907,
	"step": 980
	},
	{
	"epoch": 2.146021328958162,
	"grad_norm": 0.008424636907875538,
	"learning_rate": 0.0009489051094890511,
	"loss": 0.7423,
	"step": 981
	},
	{
	"epoch": 2.148208914410719,
	"grad_norm": 0.01054910384118557,
	"learning_rate": 0.0009464720194647203,
	"loss": 0.6611,
	"step": 982
	},
	{
	"epoch": 2.150396499863276,
	"grad_norm": 0.0084614809602499,
	"learning_rate": 0.0009440389294403893,
	"loss": 0.7548,
	"step": 983
	},
	{
	"epoch": 2.1525840853158327,
	"grad_norm": 0.008796039037406445,
	"learning_rate": 0.0009416058394160585,
	"loss": 0.9042,
	"step": 984
	},
	{
	"epoch": 2.1547716707683895,
	"grad_norm": 0.011639994569122791,
	"learning_rate": 0.0009391727493917275,
	"loss": 0.6474,
	"step": 985
	},
	{
	"epoch": 2.1569592562209463,
	"grad_norm": 0.011916186660528183,
	"learning_rate": 0.0009367396593673965,
	"loss": 0.7848,
	"step": 986
	},
	{
	"epoch": 2.1591468416735027,
	"grad_norm": 0.01620625890791416,
	"learning_rate": 0.0009343065693430657,
	"loss": 0.7924,
	"step": 987
	},
	{
	"epoch": 2.1613344271260595,
	"grad_norm": 0.008310189470648766,
	"learning_rate": 0.0009318734793187349,
	"loss": 0.8015,
	"step": 988
	},
	{
	"epoch": 2.1635220125786163,
	"grad_norm": 0.008162159472703934,
	"learning_rate": 0.0009294403892944039,
	"loss": 0.8261,
	"step": 989
	},
	{
	"epoch": 2.165709598031173,
	"grad_norm": 0.009289762936532497,
	"learning_rate": 0.000927007299270073,
	"loss": 0.8676,
	"step": 990
	},
	{
	"epoch": 2.16789718348373,
	"grad_norm": 0.007392804138362408,
	"learning_rate": 0.000924574209245742,
	"loss": 0.6025,
	"step": 991
	},
	{
	"epoch": 2.1700847689362868,
	"grad_norm": 0.008378117345273495,
	"learning_rate": 0.0009221411192214112,
	"loss": 0.5951,
	"step": 992
	},
	{
	"epoch": 2.172272354388843,
	"grad_norm": 0.037044674158096313,
	"learning_rate": 0.0009197080291970804,
	"loss": 0.7454,
	"step": 993
	},
	{
	"epoch": 2.1744599398414,
	"grad_norm": 0.01427681464701891,
	"learning_rate": 0.0009172749391727494,
	"loss": 0.5663,
	"step": 994
	},
	{
	"epoch": 2.1766475252939568,
	"grad_norm": 0.010998294688761234,
	"learning_rate": 0.0009148418491484185,
	"loss": 0.9058,
	"step": 995
	},
	{
	"epoch": 2.1788351107465136,
	"grad_norm": 0.007977189496159554,
	"learning_rate": 0.0009124087591240877,
	"loss": 0.664,
	"step": 996
	},
	{
	"epoch": 2.1810226961990704,
	"grad_norm": 0.008938194252550602,
	"learning_rate": 0.0009099756690997567,
	"loss": 0.7787,
	"step": 997
	},
	{
	"epoch": 2.1832102816516272,
	"grad_norm": 0.014179794117808342,
	"learning_rate": 0.0009075425790754259,
	"loss": 0.6453,
	"step": 998
	},
	{
	"epoch": 2.1853978671041836,
	"grad_norm": 0.01838630810379982,
	"learning_rate": 0.000905109489051095,
	"loss": 0.7138,
	"step": 999
	},
	{
	"epoch": 2.1875854525567404,
	"grad_norm": 0.027501361444592476,
	"learning_rate": 0.0009026763990267639,
	"loss": 0.7204,
	"step": 1000
	},
	{
	"epoch": 2.1897730380092972,
	"grad_norm": 0.007381811738014221,
	"learning_rate": 0.0009002433090024331,
	"loss": 0.8955,
	"step": 1001
	},
	{
	"epoch": 2.191960623461854,
	"grad_norm": 0.07506415992975235,
	"learning_rate": 0.0008978102189781023,
	"loss": 0.802,
	"step": 1002
	},
	{
	"epoch": 2.194148208914411,
	"grad_norm": 0.028858385980129242,
	"learning_rate": 0.0008953771289537713,
	"loss": 0.7682,
	"step": 1003
	},
	{
	"epoch": 2.1963357943669672,
	"grad_norm": 0.013214879669249058,
	"learning_rate": 0.0008929440389294404,
	"loss": 0.7162,
	"step": 1004
	},
	{
	"epoch": 2.198523379819524,
	"grad_norm": 0.007629261817783117,
	"learning_rate": 0.0008905109489051096,
	"loss": 0.7283,
	"step": 1005
	},
	{
	"epoch": 2.200710965272081,
	"grad_norm": 0.007726036943495274,
	"learning_rate": 0.0008880778588807786,
	"loss": 0.8558,
	"step": 1006
	},
	{
	"epoch": 2.2028985507246377,
	"grad_norm": 0.008436914533376694,
	"learning_rate": 0.0008856447688564477,
	"loss": 0.7377,
	"step": 1007
	},
	{
	"epoch": 2.2050861361771945,
	"grad_norm": 0.02465754747390747,
	"learning_rate": 0.0008832116788321168,
	"loss": 0.5909,
	"step": 1008
	},
	{
	"epoch": 2.2072737216297513,
	"grad_norm": 0.007964403368532658,
	"learning_rate": 0.0008807785888077859,
	"loss": 0.9931,
	"step": 1009
	},
	{
	"epoch": 2.2094613070823077,
	"grad_norm": 0.008428809233009815,
	"learning_rate": 0.0008783454987834551,
	"loss": 0.8308,
	"step": 1010
	},
	{
	"epoch": 2.2116488925348645,
	"grad_norm": 0.005988140590488911,
	"learning_rate": 0.0008759124087591241,
	"loss": 0.6528,
	"step": 1011
	},
	{
	"epoch": 2.2138364779874213,
	"grad_norm": 0.009502807632088661,
	"learning_rate": 0.0008734793187347931,
	"loss": 0.7241,
	"step": 1012
	},
	{
	"epoch": 2.216024063439978,
	"grad_norm": 0.01181811187416315,
	"learning_rate": 0.0008710462287104623,
	"loss": 0.5897,
	"step": 1013
	},
	{
	"epoch": 2.218211648892535,
	"grad_norm": 0.013522054068744183,
	"learning_rate": 0.0008686131386861313,
	"loss": 0.7664,
	"step": 1014
	},
	{
	"epoch": 2.220399234345092,
	"grad_norm": 0.008381453342735767,
	"learning_rate": 0.0008661800486618005,
	"loss": 0.7758,
	"step": 1015
	},
	{
	"epoch": 2.222586819797648,
	"grad_norm": 0.011634815484285355,
	"learning_rate": 0.0008637469586374696,
	"loss": 0.7362,
	"step": 1016
	},
	{
	"epoch": 2.224774405250205,
	"grad_norm": 0.008570423349738121,
	"learning_rate": 0.0008613138686131386,
	"loss": 0.8869,
	"step": 1017
	},
	{
	"epoch": 2.226961990702762,
	"grad_norm": 0.01613277941942215,
	"learning_rate": 0.0008588807785888078,
	"loss": 0.8074,
	"step": 1018
	},
	{
	"epoch": 2.2291495761553186,
	"grad_norm": 0.0062742773443460464,
	"learning_rate": 0.000856447688564477,
	"loss": 0.7695,
	"step": 1019
	},
	{
	"epoch": 2.2313371616078754,
	"grad_norm": 0.011958430521190166,
	"learning_rate": 0.000854014598540146,
	"loss": 0.9689,
	"step": 1020
	},
	{
	"epoch": 2.2335247470604322,
	"grad_norm": 0.010232674889266491,
	"learning_rate": 0.0008515815085158151,
	"loss": 0.7289,
	"step": 1021
	},
	{
	"epoch": 2.2357123325129886,
	"grad_norm": 0.010546423494815826,
	"learning_rate": 0.0008491484184914843,
	"loss": 0.7882,
	"step": 1022
	},
	{
	"epoch": 2.2378999179655454,
	"grad_norm": 0.006704252678900957,
	"learning_rate": 0.0008467153284671533,
	"loss": 0.7245,
	"step": 1023
	},
	{
	"epoch": 2.2400875034181023,
	"grad_norm": 0.00856088288128376,
	"learning_rate": 0.0008442822384428225,
	"loss": 0.8478,
	"step": 1024
	},
	{
	"epoch": 2.242275088870659,
	"grad_norm": 0.011011838912963867,
	"learning_rate": 0.0008418491484184916,
	"loss": 0.8878,
	"step": 1025
	},
	{
	"epoch": 2.244462674323216,
	"grad_norm": 0.008859807625412941,
	"learning_rate": 0.0008394160583941605,
	"loss": 1.0637,
	"step": 1026
	},
	{
	"epoch": 2.2466502597757723,
	"grad_norm": 0.019353823736310005,
	"learning_rate": 0.0008369829683698297,
	"loss": 0.6664,
	"step": 1027
	},
	{
	"epoch": 2.248837845228329,
	"grad_norm": 0.007266916800290346,
	"learning_rate": 0.0008345498783454987,
	"loss": 0.7924,
	"step": 1028
	},
	{
	"epoch": 2.251025430680886,
	"grad_norm": 0.00936873722821474,
	"learning_rate": 0.0008321167883211679,
	"loss": 0.7045,
	"step": 1029
	},
	{
	"epoch": 2.2532130161334427,
	"grad_norm": 0.007908246479928493,
	"learning_rate": 0.000829683698296837,
	"loss": 0.9256,
	"step": 1030
	},
	{
	"epoch": 2.2554006015859995,
	"grad_norm": 0.024966659024357796,
	"learning_rate": 0.000827250608272506,
	"loss": 0.7243,
	"step": 1031
	},
	{
	"epoch": 2.2575881870385563,
	"grad_norm": 0.009444604627788067,
	"learning_rate": 0.0008248175182481752,
	"loss": 0.7369,
	"step": 1032
	},
	{
	"epoch": 2.259775772491113,
	"grad_norm": 0.009447803720831871,
	"learning_rate": 0.0008223844282238443,
	"loss": 0.7721,
	"step": 1033
	},
	{
	"epoch": 2.2619633579436695,
	"grad_norm": 0.008546645753085613,
	"learning_rate": 0.0008199513381995134,
	"loss": 0.8094,
	"step": 1034
	},
	{
	"epoch": 2.2641509433962264,
	"grad_norm": 0.006809299346059561,
	"learning_rate": 0.0008175182481751825,
	"loss": 0.7907,
	"step": 1035
	},
	{
	"epoch": 2.266338528848783,
	"grad_norm": 0.013527573086321354,
	"learning_rate": 0.0008150851581508517,
	"loss": 0.6692,
	"step": 1036
	},
	{
	"epoch": 2.26852611430134,
	"grad_norm": 0.007041016593575478,
	"learning_rate": 0.0008126520681265207,
	"loss": 0.7474,
	"step": 1037
	},
	{
	"epoch": 2.270713699753897,
	"grad_norm": 0.006707175634801388,
	"learning_rate": 0.0008102189781021898,
	"loss": 0.8134,
	"step": 1038
	},
	{
	"epoch": 2.272901285206453,
	"grad_norm": 0.030407702550292015,
	"learning_rate": 0.000807785888077859,
	"loss": 0.7734,
	"step": 1039
	},
	{
	"epoch": 2.27508887065901,
	"grad_norm": 0.011364832520484924,
	"learning_rate": 0.000805352798053528,
	"loss": 0.6188,
	"step": 1040
	},
	{
	"epoch": 2.277276456111567,
	"grad_norm": 0.009676680900156498,
	"learning_rate": 0.0008029197080291971,
	"loss": 0.8262,
	"step": 1041
	},
	{
	"epoch": 2.2794640415641236,
	"grad_norm": 0.012146366760134697,
	"learning_rate": 0.0008004866180048662,
	"loss": 0.7543,
	"step": 1042
	},
	{
	"epoch": 2.2816516270166805,
	"grad_norm": 0.021344035863876343,
	"learning_rate": 0.0007980535279805352,
	"loss": 0.8434,
	"step": 1043
	},
	{
	"epoch": 2.2838392124692373,
	"grad_norm": 0.019379200413823128,
	"learning_rate": 0.0007956204379562044,
	"loss": 0.6678,
	"step": 1044
	},
	{
	"epoch": 2.2860267979217936,
	"grad_norm": 0.012972463853657246,
	"learning_rate": 0.0007931873479318734,
	"loss": 0.7363,
	"step": 1045
	},
	{
	"epoch": 2.2882143833743505,
	"grad_norm": 0.005540755111724138,
	"learning_rate": 0.0007907542579075426,
	"loss": 0.7702,
	"step": 1046
	},
	{
	"epoch": 2.2904019688269073,
	"grad_norm": 0.01054232195019722,
	"learning_rate": 0.0007883211678832117,
	"loss": 0.8086,
	"step": 1047
	},
	{
	"epoch": 2.292589554279464,
	"grad_norm": 0.006333992816507816,
	"learning_rate": 0.0007858880778588807,
	"loss": 0.8547,
	"step": 1048
	},
	{
	"epoch": 2.294777139732021,
	"grad_norm": 0.007503498811274767,
	"learning_rate": 0.0007834549878345499,
	"loss": 0.9384,
	"step": 1049
	},
	{
	"epoch": 2.2969647251845773,
	"grad_norm": 0.009519786573946476,
	"learning_rate": 0.0007810218978102191,
	"loss": 0.7457,
	"step": 1050
	},
	{
	"epoch": 2.299152310637134,
	"grad_norm": 0.009697610512375832,
	"learning_rate": 0.0007785888077858881,
	"loss": 0.6572,
	"step": 1051
	},
	{
	"epoch": 2.301339896089691,
	"grad_norm": 0.01142230723053217,
	"learning_rate": 0.0007761557177615572,
	"loss": 0.7003,
	"step": 1052
	},
	{
	"epoch": 2.3035274815422477,
	"grad_norm": 0.014880196191370487,
	"learning_rate": 0.0007737226277372264,
	"loss": 0.9522,
	"step": 1053
	},
	{
	"epoch": 2.3057150669948046,
	"grad_norm": 0.03530775010585785,
	"learning_rate": 0.0007712895377128953,
	"loss": 0.8303,
	"step": 1054
	},
	{
	"epoch": 2.3079026524473614,
	"grad_norm": 0.008375970646739006,
	"learning_rate": 0.0007688564476885646,
	"loss": 0.9399,
	"step": 1055
	},
	{
	"epoch": 2.310090237899918,
	"grad_norm": 0.011312820017337799,
	"learning_rate": 0.0007664233576642336,
	"loss": 0.6918,
	"step": 1056
	},
	{
	"epoch": 2.3122778233524746,
	"grad_norm": 0.00965717900544405,
	"learning_rate": 0.0007639902676399026,
	"loss": 0.6898,
	"step": 1057
	},
	{
	"epoch": 2.3144654088050314,
	"grad_norm": 0.046056658029556274,
	"learning_rate": 0.0007615571776155718,
	"loss": 0.7655,
	"step": 1058
	},
	{
	"epoch": 2.316652994257588,
	"grad_norm": 0.006473752204328775,
	"learning_rate": 0.0007591240875912409,
	"loss": 0.7825,
	"step": 1059
	},
	{
	"epoch": 2.318840579710145,
	"grad_norm": 0.012731518596410751,
	"learning_rate": 0.0007566909975669099,
	"loss": 0.7138,
	"step": 1060
	},
	{
	"epoch": 2.321028165162702,
	"grad_norm": 0.01815684884786606,
	"learning_rate": 0.0007542579075425791,
	"loss": 0.7992,
	"step": 1061
	},
	{
	"epoch": 2.323215750615258,
	"grad_norm": 0.012457008473575115,
	"learning_rate": 0.0007518248175182483,
	"loss": 0.7565,
	"step": 1062
	},
	{
	"epoch": 2.325403336067815,
	"grad_norm": 0.011130121536552906,
	"learning_rate": 0.0007493917274939173,
	"loss": 0.6585,
	"step": 1063
	},
	{
	"epoch": 2.327590921520372,
	"grad_norm": 0.009390764869749546,
	"learning_rate": 0.0007469586374695864,
	"loss": 0.5921,
	"step": 1064
	},
	{
	"epoch": 2.3297785069729287,
	"grad_norm": 0.006265114061534405,
	"learning_rate": 0.0007445255474452555,
	"loss": 0.862,
	"step": 1065
	},
	{
	"epoch": 2.3319660924254855,
	"grad_norm": 0.014493511989712715,
	"learning_rate": 0.0007420924574209246,
	"loss": 0.6529,
	"step": 1066
	},
	{
	"epoch": 2.3341536778780423,
	"grad_norm": 0.01009755115956068,
	"learning_rate": 0.0007396593673965938,
	"loss": 1.0077,
	"step": 1067
	},
	{
	"epoch": 2.3363412633305987,
	"grad_norm": 0.022166702896356583,
	"learning_rate": 0.0007372262773722629,
	"loss": 0.9121,
	"step": 1068
	},
	{
	"epoch": 2.3385288487831555,
	"grad_norm": 0.028010999783873558,
	"learning_rate": 0.0007347931873479318,
	"loss": 0.6663,
	"step": 1069
	},
	{
	"epoch": 2.3407164342357123,
	"grad_norm": 0.012431381270289421,
	"learning_rate": 0.0007323600973236009,
	"loss": 0.7579,
	"step": 1070
	},
	{
	"epoch": 2.342904019688269,
	"grad_norm": 0.0932813212275505,
	"learning_rate": 0.0007299270072992701,
	"loss": 0.5542,
	"step": 1071
	},
	{
	"epoch": 2.345091605140826,
	"grad_norm": 0.011022589169442654,
	"learning_rate": 0.0007274939172749392,
	"loss": 0.7093,
	"step": 1072
	},
	{
	"epoch": 2.3472791905933827,
	"grad_norm": 0.008994583040475845,
	"learning_rate": 0.0007250608272506082,
	"loss": 0.7466,
	"step": 1073
	},
	{
	"epoch": 2.349466776045939,
	"grad_norm": 0.01782486028969288,
	"learning_rate": 0.0007226277372262774,
	"loss": 0.6847,
	"step": 1074
	},
	{
	"epoch": 2.351654361498496,
	"grad_norm": 0.011398195289075375,
	"learning_rate": 0.0007201946472019465,
	"loss": 0.687,
	"step": 1075
	},
	{
	"epoch": 2.3538419469510528,
	"grad_norm": 0.023858705535531044,
	"learning_rate": 0.0007177615571776156,
	"loss": 0.6984,
	"step": 1076
	},
	{
	"epoch": 2.3560295324036096,
	"grad_norm": 0.008185802958905697,
	"learning_rate": 0.0007153284671532847,
	"loss": 0.8747,
	"step": 1077
	},
	{
	"epoch": 2.3582171178561664,
	"grad_norm": 0.018106609582901,
	"learning_rate": 0.0007128953771289538,
	"loss": 0.6591,
	"step": 1078
	},
	{
	"epoch": 2.360404703308723,
	"grad_norm": 0.013991002924740314,
	"learning_rate": 0.0007104622871046229,
	"loss": 0.818,
	"step": 1079
	},
	{
	"epoch": 2.3625922887612796,
	"grad_norm": 0.007820016704499722,
	"learning_rate": 0.000708029197080292,
	"loss": 0.9661,
	"step": 1080
	},
	{
	"epoch": 2.3647798742138364,
	"grad_norm": 0.020563364028930664,
	"learning_rate": 0.0007055961070559611,
	"loss": 0.896,
	"step": 1081
	},
	{
	"epoch": 2.366967459666393,
	"grad_norm": 0.01632773131132126,
	"learning_rate": 0.0007031630170316302,
	"loss": 0.8516,
	"step": 1082
	},
	{
	"epoch": 2.36915504511895,
	"grad_norm": 0.012202097102999687,
	"learning_rate": 0.0007007299270072992,
	"loss": 0.921,
	"step": 1083
	},
	{
	"epoch": 2.371342630571507,
	"grad_norm": 0.009598075412213802,
	"learning_rate": 0.0006982968369829684,
	"loss": 0.677,
	"step": 1084
	},
	{
	"epoch": 2.373530216024063,
	"grad_norm": 0.010769539512693882,
	"learning_rate": 0.0006958637469586375,
	"loss": 0.7964,
	"step": 1085
	},
	{
	"epoch": 2.37571780147662,
	"grad_norm": 0.011242173612117767,
	"learning_rate": 0.0006934306569343065,
	"loss": 0.6444,
	"step": 1086
	},
	{
	"epoch": 2.377905386929177,
	"grad_norm": 0.009250817820429802,
	"learning_rate": 0.0006909975669099756,
	"loss": 0.7456,
	"step": 1087
	},
	{
	"epoch": 2.3800929723817337,
	"grad_norm": 0.008871940895915031,
	"learning_rate": 0.0006885644768856448,
	"loss": 0.7497,
	"step": 1088
	},
	{
	"epoch": 2.3822805578342905,
	"grad_norm": 0.014774895273149014,
	"learning_rate": 0.0006861313868613139,
	"loss": 0.8508,
	"step": 1089
	},
	{
	"epoch": 2.3844681432868473,
	"grad_norm": 0.008470469154417515,
	"learning_rate": 0.000683698296836983,
	"loss": 0.6278,
	"step": 1090
	},
	{
	"epoch": 2.386655728739404,
	"grad_norm": 0.02862645871937275,
	"learning_rate": 0.0006812652068126521,
	"loss": 0.7235,
	"step": 1091
	},
	{
	"epoch": 2.3888433141919605,
	"grad_norm": 0.010565055534243584,
	"learning_rate": 0.0006788321167883212,
	"loss": 0.7064,
	"step": 1092
	},
	{
	"epoch": 2.3910308996445173,
	"grad_norm": 0.00996407214552164,
	"learning_rate": 0.0006763990267639903,
	"loss": 0.747,
	"step": 1093
	},
	{
	"epoch": 2.393218485097074,
	"grad_norm": 0.008201108314096928,
	"learning_rate": 0.0006739659367396594,
	"loss": 0.8917,
	"step": 1094
	},
	{
	"epoch": 2.395406070549631,
	"grad_norm": 0.007856379263103008,
	"learning_rate": 0.0006715328467153285,
	"loss": 0.8106,
	"step": 1095
	},
	{
	"epoch": 2.3975936560021878,
	"grad_norm": 0.01899876445531845,
	"learning_rate": 0.0006690997566909976,
	"loss": 0.9151,
	"step": 1096
	},
	{
	"epoch": 2.399781241454744,
	"grad_norm": 0.0086012938991189,
	"learning_rate": 0.0006666666666666666,
	"loss": 0.872,
	"step": 1097
	},
	{
	"epoch": 2.401968826907301,
	"grad_norm": 0.007030507083982229,
	"learning_rate": 0.0006642335766423358,
	"loss": 0.6529,
	"step": 1098
	},
	{
	"epoch": 2.4041564123598578,
	"grad_norm": 0.01876233145594597,
	"learning_rate": 0.0006618004866180048,
	"loss": 0.8421,
	"step": 1099
	},
	{
	"epoch": 2.4063439978124146,
	"grad_norm": 0.033474959433078766,
	"learning_rate": 0.0006593673965936739,
	"loss": 0.6956,
	"step": 1100
	},
	{
	"epoch": 2.4085315832649714,
	"grad_norm": 0.018535858020186424,
	"learning_rate": 0.0006569343065693431,
	"loss": 0.7232,
	"step": 1101
	},
	{
	"epoch": 2.4107191687175282,
	"grad_norm": 0.010383503511548042,
	"learning_rate": 0.0006545012165450122,
	"loss": 0.5804,
	"step": 1102
	},
	{
	"epoch": 2.4129067541700846,
	"grad_norm": 0.0077387490309774876,
	"learning_rate": 0.0006520681265206813,
	"loss": 0.828,
	"step": 1103
	},
	{
	"epoch": 2.4150943396226414,
	"grad_norm": 0.011656009592115879,
	"learning_rate": 0.0006496350364963504,
	"loss": 0.9106,
	"step": 1104
	},
	{
	"epoch": 2.4172819250751982,
	"grad_norm": 0.005996339488774538,
	"learning_rate": 0.0006472019464720195,
	"loss": 0.6921,
	"step": 1105
	},
	{
	"epoch": 2.419469510527755,
	"grad_norm": 0.022230584174394608,
	"learning_rate": 0.0006447688564476886,
	"loss": 0.9711,
	"step": 1106
	},
	{
	"epoch": 2.421657095980312,
	"grad_norm": 0.031066155061125755,
	"learning_rate": 0.0006423357664233577,
	"loss": 0.8718,
	"step": 1107
	},
	{
	"epoch": 2.4238446814328682,
	"grad_norm": 0.011762702837586403,
	"learning_rate": 0.0006399026763990268,
	"loss": 0.818,
	"step": 1108
	},
	{
	"epoch": 2.426032266885425,
	"grad_norm": 0.009383924305438995,
	"learning_rate": 0.0006374695863746959,
	"loss": 0.5913,
	"step": 1109
	},
	{
	"epoch": 2.428219852337982,
	"grad_norm": 0.012824693694710732,
	"learning_rate": 0.000635036496350365,
	"loss": 0.7115,
	"step": 1110
	},
	{
	"epoch": 2.4304074377905387,
	"grad_norm": 0.007453750818967819,
	"learning_rate": 0.0006326034063260342,
	"loss": 0.7374,
	"step": 1111
	},
	{
	"epoch": 2.4325950232430955,
	"grad_norm": 0.007933787070214748,
	"learning_rate": 0.0006301703163017031,
	"loss": 0.7921,
	"step": 1112
	},
	{
	"epoch": 2.4347826086956523,
	"grad_norm": 0.01717616245150566,
	"learning_rate": 0.0006277372262773722,
	"loss": 0.9326,
	"step": 1113
	},
	{
	"epoch": 2.436970194148209,
	"grad_norm": 0.009397076442837715,
	"learning_rate": 0.0006253041362530414,
	"loss": 0.6388,
	"step": 1114
	},
	{
	"epoch": 2.4391577796007655,
	"grad_norm": 0.008330175653100014,
	"learning_rate": 0.0006228710462287105,
	"loss": 0.5517,
	"step": 1115
	},
	{
	"epoch": 2.4413453650533223,
	"grad_norm": 0.013194689527153969,
	"learning_rate": 0.0006204379562043796,
	"loss": 0.8779,
	"step": 1116
	},
	{
	"epoch": 2.443532950505879,
	"grad_norm": 0.012824257835745811,
	"learning_rate": 0.0006180048661800486,
	"loss": 0.7731,
	"step": 1117
	},
	{
	"epoch": 2.445720535958436,
	"grad_norm": 0.011488651856780052,
	"learning_rate": 0.0006155717761557178,
	"loss": 0.7806,
	"step": 1118
	},
	{
	"epoch": 2.447908121410993,
	"grad_norm": 0.006684242747724056,
	"learning_rate": 0.0006131386861313869,
	"loss": 1.0212,
	"step": 1119
	},
	{
	"epoch": 2.450095706863549,
	"grad_norm": 0.010995331220328808,
	"learning_rate": 0.000610705596107056,
	"loss": 0.8499,
	"step": 1120
	},
	{
	"epoch": 2.452283292316106,
	"grad_norm": 0.016977710649371147,
	"learning_rate": 0.0006082725060827251,
	"loss": 0.7029,
	"step": 1121
	},
	{
	"epoch": 2.454470877768663,
	"grad_norm": 0.008742439560592175,
	"learning_rate": 0.0006058394160583942,
	"loss": 0.6834,
	"step": 1122
	},
	{
	"epoch": 2.4566584632212196,
	"grad_norm": 0.006410808768123388,
	"learning_rate": 0.0006034063260340633,
	"loss": 0.8371,
	"step": 1123
	},
	{
	"epoch": 2.4588460486737764,
	"grad_norm": 0.008776198141276836,
	"learning_rate": 0.0006009732360097324,
	"loss": 0.7001,
	"step": 1124
	},
	{
	"epoch": 2.4610336341263332,
	"grad_norm": 0.007712388876825571,
	"learning_rate": 0.0005985401459854014,
	"loss": 0.5664,
	"step": 1125
	},
	{
	"epoch": 2.4632212195788896,
	"grad_norm": 0.011250052601099014,
	"learning_rate": 0.0005961070559610705,
	"loss": 0.8572,
	"step": 1126
	},
	{
	"epoch": 2.4654088050314464,
	"grad_norm": 0.010831180959939957,
	"learning_rate": 0.0005936739659367396,
	"loss": 0.6984,
	"step": 1127
	},
	{
	"epoch": 2.4675963904840033,
	"grad_norm": 0.025114471092820168,
	"learning_rate": 0.0005912408759124088,
	"loss": 0.7401,
	"step": 1128
	},
	{
	"epoch": 2.46978397593656,
	"grad_norm": 0.006640868727117777,
	"learning_rate": 0.0005888077858880779,
	"loss": 0.5887,
	"step": 1129
	},
	{
	"epoch": 2.471971561389117,
	"grad_norm": 0.0060841697268188,
	"learning_rate": 0.0005863746958637469,
	"loss": 0.7121,
	"step": 1130
	},
	{
	"epoch": 2.4741591468416733,
	"grad_norm": 0.012216274626553059,
	"learning_rate": 0.0005839416058394161,
	"loss": 0.8174,
	"step": 1131
	},
	{
	"epoch": 2.47634673229423,
	"grad_norm": 0.009857951663434505,
	"learning_rate": 0.0005815085158150852,
	"loss": 0.7229,
	"step": 1132
	},
	{
	"epoch": 2.478534317746787,
	"grad_norm": 0.010938407853245735,
	"learning_rate": 0.0005790754257907543,
	"loss": 0.5738,
	"step": 1133
	},
	{
	"epoch": 2.4807219031993437,
	"grad_norm": 0.026813512668013573,
	"learning_rate": 0.0005766423357664234,
	"loss": 0.8543,
	"step": 1134
	},
	{
	"epoch": 2.4829094886519005,
	"grad_norm": 0.01071678102016449,
	"learning_rate": 0.0005742092457420925,
	"loss": 0.9774,
	"step": 1135
	},
	{
	"epoch": 2.4850970741044573,
	"grad_norm": 0.009592295624315739,
	"learning_rate": 0.0005717761557177616,
	"loss": 0.9619,
	"step": 1136
	},
	{
	"epoch": 2.487284659557014,
	"grad_norm": 0.005114677362143993,
	"learning_rate": 0.0005693430656934307,
	"loss": 0.8033,
	"step": 1137
	},
	{
	"epoch": 2.4894722450095705,
	"grad_norm": 0.012539639137685299,
	"learning_rate": 0.0005669099756690998,
	"loss": 0.8993,
	"step": 1138
	},
	{
	"epoch": 2.4916598304621274,
	"grad_norm": 0.026053965091705322,
	"learning_rate": 0.0005644768856447688,
	"loss": 0.6817,
	"step": 1139
	},
	{
	"epoch": 2.493847415914684,
	"grad_norm": 0.007609077729284763,
	"learning_rate": 0.0005620437956204379,
	"loss": 0.8549,
	"step": 1140
	},
	{
	"epoch": 2.496035001367241,
	"grad_norm": 0.010698397643864155,
	"learning_rate": 0.0005596107055961071,
	"loss": 0.7068,
	"step": 1141
	},
	{
	"epoch": 2.498222586819798,
	"grad_norm": 0.008611828088760376,
	"learning_rate": 0.0005571776155717762,
	"loss": 0.7465,
	"step": 1142
	},
	{
	"epoch": 2.500410172272354,
	"grad_norm": 0.01089494489133358,
	"learning_rate": 0.0005547445255474452,
	"loss": 0.6224,
	"step": 1143
	},
	{
	"epoch": 2.502597757724911,
	"grad_norm": 0.024782098829746246,
	"learning_rate": 0.0005523114355231143,
	"loss": 0.8328,
	"step": 1144
	},
	{
	"epoch": 2.504785343177468,
	"grad_norm": 0.006382483057677746,
	"learning_rate": 0.0005498783454987835,
	"loss": 0.7787,
	"step": 1145
	},
	{
	"epoch": 2.5069729286300246,
	"grad_norm": 0.016949672251939774,
	"learning_rate": 0.0005474452554744526,
	"loss": 0.7046,
	"step": 1146
	},
	{
	"epoch": 2.5091605140825815,
	"grad_norm": 0.027401480823755264,
	"learning_rate": 0.0005450121654501216,
	"loss": 0.6702,
	"step": 1147
	},
	{
	"epoch": 2.5113480995351383,
	"grad_norm": 0.01999586448073387,
	"learning_rate": 0.0005425790754257908,
	"loss": 0.8054,
	"step": 1148
	},
	{
	"epoch": 2.513535684987695,
	"grad_norm": 0.010145720094442368,
	"learning_rate": 0.0005401459854014599,
	"loss": 0.6592,
	"step": 1149
	},
	{
	"epoch": 2.5157232704402515,
	"grad_norm": 0.018535887822508812,
	"learning_rate": 0.000537712895377129,
	"loss": 0.7254,
	"step": 1150
	},
	{
	"epoch": 2.5179108558928083,
	"grad_norm": 0.009648307226598263,
	"learning_rate": 0.0005352798053527981,
	"loss": 0.6838,
	"step": 1151
	},
	{
	"epoch": 2.520098441345365,
	"grad_norm": 0.016310011968016624,
	"learning_rate": 0.0005328467153284672,
	"loss": 0.8777,
	"step": 1152
	},
	{
	"epoch": 2.522286026797922,
	"grad_norm": 0.010320610366761684,
	"learning_rate": 0.0005304136253041362,
	"loss": 0.7651,
	"step": 1153
	},
	{
	"epoch": 2.5244736122504783,
	"grad_norm": 0.012834092602133751,
	"learning_rate": 0.0005279805352798053,
	"loss": 0.7847,
	"step": 1154
	},
	{
	"epoch": 2.526661197703035,
	"grad_norm": 0.011668582446873188,
	"learning_rate": 0.0005255474452554745,
	"loss": 0.7225,
	"step": 1155
	},
	{
	"epoch": 2.528848783155592,
	"grad_norm": 0.009817942976951599,
	"learning_rate": 0.0005231143552311435,
	"loss": 0.6983,
	"step": 1156
	},
	{
	"epoch": 2.5310363686081487,
	"grad_norm": 0.009282633662223816,
	"learning_rate": 0.0005206812652068126,
	"loss": 0.7688,
	"step": 1157
	},
	{
	"epoch": 2.5332239540607056,
	"grad_norm": 0.007419208530336618,
	"learning_rate": 0.0005182481751824818,
	"loss": 0.728,
	"step": 1158
	},
	{
	"epoch": 2.5354115395132624,
	"grad_norm": 0.029275061562657356,
	"learning_rate": 0.0005158150851581509,
	"loss": 0.8293,
	"step": 1159
	},
	{
	"epoch": 2.537599124965819,
	"grad_norm": 0.01723194308578968,
	"learning_rate": 0.0005133819951338199,
	"loss": 0.6128,
	"step": 1160
	},
	{
	"epoch": 2.5397867104183756,
	"grad_norm": 0.009285934269428253,
	"learning_rate": 0.000510948905109489,
	"loss": 0.6788,
	"step": 1161
	},
	{
	"epoch": 2.5419742958709324,
	"grad_norm": 0.008555158041417599,
	"learning_rate": 0.0005085158150851582,
	"loss": 0.6507,
	"step": 1162
	},
	{
	"epoch": 2.544161881323489,
	"grad_norm": 0.0168358962982893,
	"learning_rate": 0.0005060827250608273,
	"loss": 0.942,
	"step": 1163
	},
	{
	"epoch": 2.546349466776046,
	"grad_norm": 0.0068771797232329845,
	"learning_rate": 0.0005036496350364964,
	"loss": 0.7844,
	"step": 1164
	},
	{
	"epoch": 2.548537052228603,
	"grad_norm": 0.04532065615057945,
	"learning_rate": 0.0005012165450121655,
	"loss": 0.8095,
	"step": 1165
	},
	{
	"epoch": 2.550724637681159,
	"grad_norm": 0.00933657493442297,
	"learning_rate": 0.0004987834549878346,
	"loss": 0.8072,
	"step": 1166
	},
	{
	"epoch": 2.552912223133716,
	"grad_norm": 0.009804673492908478,
	"learning_rate": 0.0004963503649635036,
	"loss": 0.8715,
	"step": 1167
	},
	{
	"epoch": 2.555099808586273,
	"grad_norm": 0.010783910751342773,
	"learning_rate": 0.0004939172749391727,
	"loss": 0.7891,
	"step": 1168
	},
	{
	"epoch": 2.5572873940388297,
	"grad_norm": 0.011784784495830536,
	"learning_rate": 0.0004914841849148418,
	"loss": 0.7262,
	"step": 1169
	},
	{
	"epoch": 2.5594749794913865,
	"grad_norm": 0.007322199642658234,
	"learning_rate": 0.0004890510948905109,
	"loss": 0.7809,
	"step": 1170
	},
	{
	"epoch": 2.5616625649439433,
	"grad_norm": 0.011777276173233986,
	"learning_rate": 0.00048661800486618,
	"loss": 0.7791,
	"step": 1171
	},
	{
	"epoch": 2.5638501503965,
	"grad_norm": 0.015589660964906216,
	"learning_rate": 0.00048418491484184916,
	"loss": 0.921,
	"step": 1172
	},
	{
	"epoch": 2.5660377358490565,
	"grad_norm": 0.010277018882334232,
	"learning_rate": 0.00048175182481751826,
	"loss": 0.9368,
	"step": 1173
	},
	{
	"epoch": 2.5682253213016133,
	"grad_norm": 0.02483278699219227,
	"learning_rate": 0.00047931873479318735,
	"loss": 0.7714,
	"step": 1174
	},
	{
	"epoch": 2.57041290675417,
	"grad_norm": 0.013863074593245983,
	"learning_rate": 0.0004768856447688565,
	"loss": 0.6637,
	"step": 1175
	},
	{
	"epoch": 2.572600492206727,
	"grad_norm": 0.015338894911110401,
	"learning_rate": 0.00047445255474452553,
	"loss": 0.7678,
	"step": 1176
	},
	{
	"epoch": 2.5747880776592833,
	"grad_norm": 0.007364062592387199,
	"learning_rate": 0.0004720194647201946,
	"loss": 0.995,
	"step": 1177
	},
	{
	"epoch": 2.57697566311184,
	"grad_norm": 0.1765730232000351,
	"learning_rate": 0.00046958637469586377,
	"loss": 0.7865,
	"step": 1178
	},
	{
	"epoch": 2.579163248564397,
	"grad_norm": 0.010664415545761585,
	"learning_rate": 0.00046715328467153287,
	"loss": 0.5741,
	"step": 1179
	},
	{
	"epoch": 2.5813508340169538,
	"grad_norm": 0.012521582655608654,
	"learning_rate": 0.00046472019464720196,
	"loss": 0.6621,
	"step": 1180
	},
	{
	"epoch": 2.5835384194695106,
	"grad_norm": 0.03732423484325409,
	"learning_rate": 0.000462287104622871,
	"loss": 0.7453,
	"step": 1181
	},
	{
	"epoch": 2.5857260049220674,
	"grad_norm": 0.013986853882670403,
	"learning_rate": 0.0004598540145985402,
	"loss": 0.7057,
	"step": 1182
	},
	{
	"epoch": 2.587913590374624,
	"grad_norm": 0.013078927993774414,
	"learning_rate": 0.00045742092457420923,
	"loss": 0.7167,
	"step": 1183
	},
	{
	"epoch": 2.590101175827181,
	"grad_norm": 0.006835412234067917,
	"learning_rate": 0.0004549878345498783,
	"loss": 0.8064,
	"step": 1184
	},
	{
	"epoch": 2.5922887612797374,
	"grad_norm": 0.020057901740074158,
	"learning_rate": 0.0004525547445255475,
	"loss": 0.7096,
	"step": 1185
	},
	{
	"epoch": 2.594476346732294,
	"grad_norm": 0.026187503710389137,
	"learning_rate": 0.00045012165450121657,
	"loss": 0.9496,
	"step": 1186
	},
	{
	"epoch": 2.596663932184851,
	"grad_norm": 0.012171875685453415,
	"learning_rate": 0.00044768856447688566,
	"loss": 0.7529,
	"step": 1187
	},
	{
	"epoch": 2.598851517637408,
	"grad_norm": 0.012145042419433594,
	"learning_rate": 0.0004452554744525548,
	"loss": 0.8654,
	"step": 1188
	},
	{
	"epoch": 2.601039103089964,
	"grad_norm": 0.013504109345376492,
	"learning_rate": 0.00044282238442822384,
	"loss": 0.6347,
	"step": 1189
	},
	{
	"epoch": 2.603226688542521,
	"grad_norm": 0.01362569723278284,
	"learning_rate": 0.00044038929440389293,
	"loss": 0.661,
	"step": 1190
	},
	{
	"epoch": 2.605414273995078,
	"grad_norm": 0.013327688910067081,
	"learning_rate": 0.00043795620437956203,
	"loss": 0.6851,
	"step": 1191
	},
	{
	"epoch": 2.6076018594476347,
	"grad_norm": 0.008194427005946636,
	"learning_rate": 0.0004355231143552312,
	"loss": 0.8226,
	"step": 1192
	},
	{
	"epoch": 2.6097894449001915,
	"grad_norm": 0.017937535420060158,
	"learning_rate": 0.00043309002433090027,
	"loss": 0.7033,
	"step": 1193
	},
	{
	"epoch": 2.6119770303527483,
	"grad_norm": 0.005625641439110041,
	"learning_rate": 0.0004306569343065693,
	"loss": 0.7106,
	"step": 1194
	},
	{
	"epoch": 2.614164615805305,
	"grad_norm": 0.01812170445919037,
	"learning_rate": 0.0004282238442822385,
	"loss": 0.7344,
	"step": 1195
	},
	{
	"epoch": 2.6163522012578615,
	"grad_norm": 0.007461361587047577,
	"learning_rate": 0.00042579075425790754,
	"loss": 0.835,
	"step": 1196
	},
	{
	"epoch": 2.6185397867104183,
	"grad_norm": 0.014407969079911709,
	"learning_rate": 0.00042335766423357664,
	"loss": 0.7829,
	"step": 1197
	},
	{
	"epoch": 2.620727372162975,
	"grad_norm": 0.008925898931920528,
	"learning_rate": 0.0004209245742092458,
	"loss": 0.6425,
	"step": 1198
	},
	{
	"epoch": 2.622914957615532,
	"grad_norm": 0.010357217863202095,
	"learning_rate": 0.0004184914841849149,
	"loss": 0.894,
	"step": 1199
	},
	{
	"epoch": 2.6251025430680883,
	"grad_norm": 0.01632748544216156,
	"learning_rate": 0.00041605839416058397,
	"loss": 0.6886,
	"step": 1200
	},
	{
	"epoch": 2.627290128520645,
	"grad_norm": 0.021274514496326447,
	"learning_rate": 0.000413625304136253,
	"loss": 0.7503,
	"step": 1201
	},
	{
	"epoch": 2.629477713973202,
	"grad_norm": 0.021467119455337524,
	"learning_rate": 0.00041119221411192215,
	"loss": 0.9202,
	"step": 1202
	},
	{
	"epoch": 2.6316652994257588,
	"grad_norm": 0.011900427751243114,
	"learning_rate": 0.00040875912408759124,
	"loss": 0.7084,
	"step": 1203
	},
	{
	"epoch": 2.6338528848783156,
	"grad_norm": 0.010819557122886181,
	"learning_rate": 0.00040632603406326034,
	"loss": 1.0455,
	"step": 1204
	},
	{
	"epoch": 2.6360404703308724,
	"grad_norm": 0.012575685046613216,
	"learning_rate": 0.0004038929440389295,
	"loss": 0.6894,
	"step": 1205
	},
	{
	"epoch": 2.6382280557834292,
	"grad_norm": 0.011274064891040325,
	"learning_rate": 0.0004014598540145986,
	"loss": 0.8449,
	"step": 1206
	},
	{
	"epoch": 2.640415641235986,
	"grad_norm": 0.013194631785154343,
	"learning_rate": 0.0003990267639902676,
	"loss": 0.8192,
	"step": 1207
	},
	{
	"epoch": 2.6426032266885424,
	"grad_norm": 0.009542672894895077,
	"learning_rate": 0.0003965936739659367,
	"loss": 0.8768,
	"step": 1208
	},
	{
	"epoch": 2.6447908121410992,
	"grad_norm": 0.016639290377497673,
	"learning_rate": 0.00039416058394160585,
	"loss": 0.7371,
	"step": 1209
	},
	{
	"epoch": 2.646978397593656,
	"grad_norm": 0.02203970216214657,
	"learning_rate": 0.00039172749391727494,
	"loss": 0.6598,
	"step": 1210
	},
	{
	"epoch": 2.649165983046213,
	"grad_norm": 0.027763044461607933,
	"learning_rate": 0.00038929440389294404,
	"loss": 0.6819,
	"step": 1211
	},
	{
	"epoch": 2.6513535684987692,
	"grad_norm": 0.01537309866398573,
	"learning_rate": 0.0003868613138686132,
	"loss": 0.8249,
	"step": 1212
	},
	{
	"epoch": 2.653541153951326,
	"grad_norm": 0.01565646007657051,
	"learning_rate": 0.0003844282238442823,
	"loss": 0.569,
	"step": 1213
	},
	{
	"epoch": 2.655728739403883,
	"grad_norm": 0.01048749778419733,
	"learning_rate": 0.0003819951338199513,
	"loss": 0.6359,
	"step": 1214
	},
	{
	"epoch": 2.6579163248564397,
	"grad_norm": 0.061209116131067276,
	"learning_rate": 0.00037956204379562046,
	"loss": 0.7011,
	"step": 1215
	},
	{
	"epoch": 2.6601039103089965,
	"grad_norm": 0.016036316752433777,
	"learning_rate": 0.00037712895377128955,
	"loss": 0.5889,
	"step": 1216
	},
	{
	"epoch": 2.6622914957615533,
	"grad_norm": 0.014299210160970688,
	"learning_rate": 0.00037469586374695864,
	"loss": 0.7685,
	"step": 1217
	},
	{
	"epoch": 2.66447908121411,
	"grad_norm": 0.010716800577938557,
	"learning_rate": 0.00037226277372262774,
	"loss": 0.7795,
	"step": 1218
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.007198740262538195,
	"learning_rate": 0.0003698296836982969,
	"loss": 0.8868,
	"step": 1219
	},
	{
	"epoch": 2.6688542521192233,
	"grad_norm": 0.018458040431141853,
	"learning_rate": 0.0003673965936739659,
	"loss": 0.6935,
	"step": 1220
	},
	{
	"epoch": 2.67104183757178,
	"grad_norm": 0.011869457550346851,
	"learning_rate": 0.00036496350364963507,
	"loss": 0.7638,
	"step": 1221
	},
	{
	"epoch": 2.673229423024337,
	"grad_norm": 0.00896628387272358,
	"learning_rate": 0.0003625304136253041,
	"loss": 0.7615,
	"step": 1222
	},
	{
	"epoch": 2.675417008476894,
	"grad_norm": 0.008536278270184994,
	"learning_rate": 0.00036009732360097325,
	"loss": 0.6647,
	"step": 1223
	},
	{
	"epoch": 2.67760459392945,
	"grad_norm": 0.02423817664384842,
	"learning_rate": 0.00035766423357664234,
	"loss": 0.6876,
	"step": 1224
	},
	{
	"epoch": 2.679792179382007,
	"grad_norm": 0.011117582209408283,
	"learning_rate": 0.00035523114355231144,
	"loss": 0.665,
	"step": 1225
	},
	{
	"epoch": 2.681979764834564,
	"grad_norm": 0.009505179710686207,
	"learning_rate": 0.00035279805352798053,
	"loss": 0.6284,
	"step": 1226
	},
	{
	"epoch": 2.6841673502871206,
	"grad_norm": 0.0063440497033298016,
	"learning_rate": 0.0003503649635036496,
	"loss": 0.8279,
	"step": 1227
	},
	{
	"epoch": 2.6863549357396774,
	"grad_norm": 0.0201023630797863,
	"learning_rate": 0.00034793187347931877,
	"loss": 0.8996,
	"step": 1228
	},
	{
	"epoch": 2.6885425211922342,
	"grad_norm": 0.006452304311096668,
	"learning_rate": 0.0003454987834549878,
	"loss": 0.8563,
	"step": 1229
	},
	{
	"epoch": 2.690730106644791,
	"grad_norm": 0.00840191449970007,
	"learning_rate": 0.00034306569343065695,
	"loss": 0.6543,
	"step": 1230
	},
	{
	"epoch": 2.6929176920973474,
	"grad_norm": 0.011340702883899212,
	"learning_rate": 0.00034063260340632605,
	"loss": 0.733,
	"step": 1231
	},
	{
	"epoch": 2.6951052775499043,
	"grad_norm": 0.01761777698993683,
	"learning_rate": 0.00033819951338199514,
	"loss": 0.9136,
	"step": 1232
	},
	{
	"epoch": 2.697292863002461,
	"grad_norm": 0.012587963603436947,
	"learning_rate": 0.00033576642335766423,
	"loss": 0.801,
	"step": 1233
	},
	{
	"epoch": 2.699480448455018,
	"grad_norm": 0.006971995811909437,
	"learning_rate": 0.0003333333333333333,
	"loss": 0.8079,
	"step": 1234
	},
	{
	"epoch": 2.7016680339075743,
	"grad_norm": 0.00921553373336792,
	"learning_rate": 0.0003309002433090024,
	"loss": 0.6801,
	"step": 1235
	},
	{
	"epoch": 2.703855619360131,
	"grad_norm": 0.012788954190909863,
	"learning_rate": 0.00032846715328467156,
	"loss": 0.8119,
	"step": 1236
	},
	{
	"epoch": 2.706043204812688,
	"grad_norm": 0.01745203509926796,
	"learning_rate": 0.00032603406326034065,
	"loss": 0.808,
	"step": 1237
	},
	{
	"epoch": 2.7082307902652447,
	"grad_norm": 0.010819566436111927,
	"learning_rate": 0.00032360097323600975,
	"loss": 0.6882,
	"step": 1238
	},
	{
	"epoch": 2.7104183757178015,
	"grad_norm": 0.013807238079607487,
	"learning_rate": 0.00032116788321167884,
	"loss": 0.5872,
	"step": 1239
	},
	{
	"epoch": 2.7126059611703583,
	"grad_norm": 0.015879668295383453,
	"learning_rate": 0.00031873479318734793,
	"loss": 0.7541,
	"step": 1240
	},
	{
	"epoch": 2.714793546622915,
	"grad_norm": 0.008229264058172703,
	"learning_rate": 0.0003163017031630171,
	"loss": 0.8002,
	"step": 1241
	},
	{
	"epoch": 2.7169811320754715,
	"grad_norm": 0.011732214130461216,
	"learning_rate": 0.0003138686131386861,
	"loss": 0.7049,
	"step": 1242
	},
	{
	"epoch": 2.7191687175280284,
	"grad_norm": 0.008688759990036488,
	"learning_rate": 0.00031143552311435526,
	"loss": 0.9007,
	"step": 1243
	},
	{
	"epoch": 2.721356302980585,
	"grad_norm": 0.014027293771505356,
	"learning_rate": 0.0003090024330900243,
	"loss": 0.6098,
	"step": 1244
	},
	{
	"epoch": 2.723543888433142,
	"grad_norm": 0.00831068679690361,
	"learning_rate": 0.00030656934306569345,
	"loss": 0.7435,
	"step": 1245
	},
	{
	"epoch": 2.725731473885699,
	"grad_norm": 0.017324576154351234,
	"learning_rate": 0.00030413625304136254,
	"loss": 0.7317,
	"step": 1246
	},
	{
	"epoch": 2.727919059338255,
	"grad_norm": 0.01490398496389389,
	"learning_rate": 0.00030170316301703163,
	"loss": 0.7434,
	"step": 1247
	},
	{
	"epoch": 2.730106644790812,
	"grad_norm": 0.02181348390877247,
	"learning_rate": 0.0002992700729927007,
	"loss": 0.7395,
	"step": 1248
	},
	{
	"epoch": 2.732294230243369,
	"grad_norm": 0.017193686217069626,
	"learning_rate": 0.0002968369829683698,
	"loss": 1.0303,
	"step": 1249
	},
	{
	"epoch": 2.7344818156959256,
	"grad_norm": 0.011623183265328407,
	"learning_rate": 0.00029440389294403896,
	"loss": 0.5918,
	"step": 1250
	},
	{
	"epoch": 2.7366694011484825,
	"grad_norm": 0.007596330717206001,
	"learning_rate": 0.00029197080291970805,
	"loss": 0.6441,
	"step": 1251
	},
	{
	"epoch": 2.7388569866010393,
	"grad_norm": 0.022759029641747475,
	"learning_rate": 0.00028953771289537715,
	"loss": 0.6192,
	"step": 1252
	},
	{
	"epoch": 2.741044572053596,
	"grad_norm": 0.0065732188522815704,
	"learning_rate": 0.00028710462287104624,
	"loss": 0.73,
	"step": 1253
	},
	{
	"epoch": 2.7432321575061525,
	"grad_norm": 0.009496266953647137,
	"learning_rate": 0.00028467153284671533,
	"loss": 0.839,
	"step": 1254
	},
	{
	"epoch": 2.7454197429587093,
	"grad_norm": 0.007220600266009569,
	"learning_rate": 0.0002822384428223844,
	"loss": 0.6448,
	"step": 1255
	},
	{
	"epoch": 2.747607328411266,
	"grad_norm": 0.015215203166007996,
	"learning_rate": 0.00027980535279805357,
	"loss": 0.7697,
	"step": 1256
	},
	{
	"epoch": 2.749794913863823,
	"grad_norm": 0.015471878461539745,
	"learning_rate": 0.0002773722627737226,
	"loss": 0.7398,
	"step": 1257
	},
	{
	"epoch": 2.7519824993163793,
	"grad_norm": 0.009130065329372883,
	"learning_rate": 0.00027493917274939175,
	"loss": 0.6993,
	"step": 1258
	},
	{
	"epoch": 2.754170084768936,
	"grad_norm": 0.007493583485484123,
	"learning_rate": 0.0002725060827250608,
	"loss": 0.6525,
	"step": 1259
	},
	{
	"epoch": 2.756357670221493,
	"grad_norm": 0.018882576376199722,
	"learning_rate": 0.00027007299270072994,
	"loss": 0.785,
	"step": 1260
	},
	{
	"epoch": 2.7585452556740497,
	"grad_norm": 0.010290750302374363,
	"learning_rate": 0.00026763990267639903,
	"loss": 0.6355,
	"step": 1261
	},
	{
	"epoch": 2.7607328411266066,
	"grad_norm": 0.020789271220564842,
	"learning_rate": 0.0002652068126520681,
	"loss": 0.6681,
	"step": 1262
	},
	{
	"epoch": 2.7629204265791634,
	"grad_norm": 0.010807972401380539,
	"learning_rate": 0.00026277372262773727,
	"loss": 0.8581,
	"step": 1263
	},
	{
	"epoch": 2.76510801203172,
	"grad_norm": 0.006756063550710678,
	"learning_rate": 0.0002603406326034063,
	"loss": 0.7499,
	"step": 1264
	},
	{
	"epoch": 2.767295597484277,
	"grad_norm": 0.013115596026182175,
	"learning_rate": 0.00025790754257907546,
	"loss": 0.6298,
	"step": 1265
	},
	{
	"epoch": 2.7694831829368334,
	"grad_norm": 0.010143927298486233,
	"learning_rate": 0.0002554744525547445,
	"loss": 0.7911,
	"step": 1266
	},
	{
	"epoch": 2.77167076838939,
	"grad_norm": 0.011593978852033615,
	"learning_rate": 0.00025304136253041364,
	"loss": 0.6558,
	"step": 1267
	},
	{
	"epoch": 2.773858353841947,
	"grad_norm": 0.011897698044776917,
	"learning_rate": 0.00025060827250608273,
	"loss": 0.7177,
	"step": 1268
	},
	{
	"epoch": 2.776045939294504,
	"grad_norm": 0.011287844739854336,
	"learning_rate": 0.0002481751824817518,
	"loss": 0.8625,
	"step": 1269
	},
	{
	"epoch": 2.77823352474706,
	"grad_norm": 0.017498012632131577,
	"learning_rate": 0.0002457420924574209,
	"loss": 0.896,
	"step": 1270
	},
	{
	"epoch": 2.780421110199617,
	"grad_norm": 0.011069230735301971,
	"learning_rate": 0.00024330900243309,
	"loss": 0.6567,
	"step": 1271
	},
	{
	"epoch": 2.782608695652174,
	"grad_norm": 0.005669731646776199,
	"learning_rate": 0.00024087591240875913,
	"loss": 0.7313,
	"step": 1272
	},
	{
	"epoch": 2.7847962811047307,
	"grad_norm": 0.02650737576186657,
	"learning_rate": 0.00023844282238442825,
	"loss": 0.8647,
	"step": 1273
	},
	{
	"epoch": 2.7869838665572875,
	"grad_norm": 0.010408868081867695,
	"learning_rate": 0.0002360097323600973,
	"loss": 0.8034,
	"step": 1274
	},
	{
	"epoch": 2.7891714520098443,
	"grad_norm": 0.013187460601329803,
	"learning_rate": 0.00023357664233576643,
	"loss": 0.8,
	"step": 1275
	},
	{
	"epoch": 2.791359037462401,
	"grad_norm": 0.009964399971067905,
	"learning_rate": 0.0002311435523114355,
	"loss": 0.8949,
	"step": 1276
	},
	{
	"epoch": 2.7935466229149575,
	"grad_norm": 0.01696036383509636,
	"learning_rate": 0.00022871046228710462,
	"loss": 0.678,
	"step": 1277
	},
	{
	"epoch": 2.7957342083675143,
	"grad_norm": 0.07283343374729156,
	"learning_rate": 0.00022627737226277374,
	"loss": 0.7264,
	"step": 1278
	},
	{
	"epoch": 2.797921793820071,
	"grad_norm": 0.007607647217810154,
	"learning_rate": 0.00022384428223844283,
	"loss": 0.8112,
	"step": 1279
	},
	{
	"epoch": 2.800109379272628,
	"grad_norm": 0.015119451098144054,
	"learning_rate": 0.00022141119221411192,
	"loss": 0.6995,
	"step": 1280
	},
	{
	"epoch": 2.8022969647251843,
	"grad_norm": 0.013507510535418987,
	"learning_rate": 0.00021897810218978101,
	"loss": 0.8193,
	"step": 1281
	},
	{
	"epoch": 2.804484550177741,
	"grad_norm": 0.007651912048459053,
	"learning_rate": 0.00021654501216545013,
	"loss": 0.5999,
	"step": 1282
	},
	{
	"epoch": 2.806672135630298,
	"grad_norm": 0.010115343146026134,
	"learning_rate": 0.00021411192214111925,
	"loss": 0.7694,
	"step": 1283
	},
	{
	"epoch": 2.8088597210828548,
	"grad_norm": 0.011188814416527748,
	"learning_rate": 0.00021167883211678832,
	"loss": 0.8099,
	"step": 1284
	},
	{
	"epoch": 2.8110473065354116,
	"grad_norm": 0.007763843517750502,
	"learning_rate": 0.00020924574209245744,
	"loss": 0.7182,
	"step": 1285
	},
	{
	"epoch": 2.8132348919879684,
	"grad_norm": 0.00900893472135067,
	"learning_rate": 0.0002068126520681265,
	"loss": 0.6297,
	"step": 1286
	},
	{
	"epoch": 2.815422477440525,
	"grad_norm": 0.006093029864132404,
	"learning_rate": 0.00020437956204379562,
	"loss": 1.0166,
	"step": 1287
	},
	{
	"epoch": 2.817610062893082,
	"grad_norm": 0.008186981081962585,
	"learning_rate": 0.00020194647201946474,
	"loss": 0.6606,
	"step": 1288
	},
	{
	"epoch": 2.8197976483456384,
	"grad_norm": 0.011285791173577309,
	"learning_rate": 0.0001995133819951338,
	"loss": 0.672,
	"step": 1289
	},
	{
	"epoch": 2.821985233798195,
	"grad_norm": 0.011607305146753788,
	"learning_rate": 0.00019708029197080293,
	"loss": 0.6903,
	"step": 1290
	},
	{
	"epoch": 2.824172819250752,
	"grad_norm": 0.008523947559297085,
	"learning_rate": 0.00019464720194647202,
	"loss": 0.8383,
	"step": 1291
	},
	{
	"epoch": 2.826360404703309,
	"grad_norm": 0.010200290009379387,
	"learning_rate": 0.00019221411192214114,
	"loss": 0.7475,
	"step": 1292
	},
	{
	"epoch": 2.828547990155865,
	"grad_norm": 0.01312936469912529,
	"learning_rate": 0.00018978102189781023,
	"loss": 0.7571,
	"step": 1293
	},
	{
	"epoch": 2.830735575608422,
	"grad_norm": 0.021754464134573936,
	"learning_rate": 0.00018734793187347932,
	"loss": 0.7915,
	"step": 1294
	},
	{
	"epoch": 2.832923161060979,
	"grad_norm": 0.022569775581359863,
	"learning_rate": 0.00018491484184914844,
	"loss": 0.7305,
	"step": 1295
	},
	{
	"epoch": 2.8351107465135357,
	"grad_norm": 0.009172527119517326,
	"learning_rate": 0.00018248175182481753,
	"loss": 0.8616,
	"step": 1296
	},
	{
	"epoch": 2.8372983319660925,
	"grad_norm": 0.00900851096957922,
	"learning_rate": 0.00018004866180048663,
	"loss": 0.8411,
	"step": 1297
	},
	{
	"epoch": 2.8394859174186493,
	"grad_norm": 0.033786166459321976,
	"learning_rate": 0.00017761557177615572,
	"loss": 0.6755,
	"step": 1298
	},
	{
	"epoch": 2.841673502871206,
	"grad_norm": 0.006091755349189043,
	"learning_rate": 0.0001751824817518248,
	"loss": 0.7822,
	"step": 1299
	},
	{
	"epoch": 2.8438610883237625,
	"grad_norm": 0.011280403472483158,
	"learning_rate": 0.0001727493917274939,
	"loss": 0.8669,
	"step": 1300
	},
	{
	"epoch": 2.8460486737763193,
	"grad_norm": 0.007846282795071602,
	"learning_rate": 0.00017031630170316302,
	"loss": 0.752,
	"step": 1301
	},
	{
	"epoch": 2.848236259228876,
	"grad_norm": 0.008928561583161354,
	"learning_rate": 0.00016788321167883211,
	"loss": 0.7062,
	"step": 1302
	},
	{
	"epoch": 2.850423844681433,
	"grad_norm": 0.0234297476708889,
	"learning_rate": 0.0001654501216545012,
	"loss": 0.7319,
	"step": 1303
	},
	{
	"epoch": 2.8526114301339898,
	"grad_norm": 0.07628759741783142,
	"learning_rate": 0.00016301703163017033,
	"loss": 0.8256,
	"step": 1304
	},
	{
	"epoch": 2.854799015586546,
	"grad_norm": 0.00962966587394476,
	"learning_rate": 0.00016058394160583942,
	"loss": 0.825,
	"step": 1305
	},
	{
	"epoch": 2.856986601039103,
	"grad_norm": 0.008182559162378311,
	"learning_rate": 0.00015815085158150854,
	"loss": 0.7628,
	"step": 1306
	},
	{
	"epoch": 2.8591741864916598,
	"grad_norm": 0.0483902171254158,
	"learning_rate": 0.00015571776155717763,
	"loss": 0.8631,
	"step": 1307
	},
	{
	"epoch": 2.8613617719442166,
	"grad_norm": 0.01323285885155201,
	"learning_rate": 0.00015328467153284672,
	"loss": 0.7958,
	"step": 1308
	},
	{
	"epoch": 2.8635493573967734,
	"grad_norm": 0.009712522849440575,
	"learning_rate": 0.00015085158150851582,
	"loss": 0.6506,
	"step": 1309
	},
	{
	"epoch": 2.8657369428493302,
	"grad_norm": 0.0073866224847733974,
	"learning_rate": 0.0001484184914841849,
	"loss": 0.5997,
	"step": 1310
	},
	{
	"epoch": 2.867924528301887,
	"grad_norm": 0.009534020908176899,
	"learning_rate": 0.00014598540145985403,
	"loss": 0.7732,
	"step": 1311
	},
	{
	"epoch": 2.8701121137544434,
	"grad_norm": 0.008029601536691189,
	"learning_rate": 0.00014355231143552312,
	"loss": 0.7837,
	"step": 1312
	},
	{
	"epoch": 2.8722996992070002,
	"grad_norm": 0.01388575229793787,
	"learning_rate": 0.0001411192214111922,
	"loss": 0.6959,
	"step": 1313
	},
	{
	"epoch": 2.874487284659557,
	"grad_norm": 0.011830773204565048,
	"learning_rate": 0.0001386861313868613,
	"loss": 0.7597,
	"step": 1314
	},
	{
	"epoch": 2.876674870112114,
	"grad_norm": 0.013655097223818302,
	"learning_rate": 0.0001362530413625304,
	"loss": 0.6103,
	"step": 1315
	},
	{
	"epoch": 2.8788624555646702,
	"grad_norm": 0.009793232195079327,
	"learning_rate": 0.00013381995133819952,
	"loss": 0.7327,
	"step": 1316
	},
	{
	"epoch": 2.881050041017227,
	"grad_norm": 0.009699089452624321,
	"learning_rate": 0.00013138686131386864,
	"loss": 0.7882,
	"step": 1317
	},
	{
	"epoch": 2.883237626469784,
	"grad_norm": 0.01353220921009779,
	"learning_rate": 0.00012895377128953773,
	"loss": 0.7567,
	"step": 1318
	},
	{
	"epoch": 2.8854252119223407,
	"grad_norm": 0.012468249537050724,
	"learning_rate": 0.00012652068126520682,
	"loss": 0.6502,
	"step": 1319
	},
	{
	"epoch": 2.8876127973748975,
	"grad_norm": 0.010982934385538101,
	"learning_rate": 0.0001240875912408759,
	"loss": 0.6542,
	"step": 1320
	},
	{
	"epoch": 2.8898003828274543,
	"grad_norm": 0.008489643223583698,
	"learning_rate": 0.000121654501216545,
	"loss": 0.7122,
	"step": 1321
	},
	{
	"epoch": 2.891987968280011,
	"grad_norm": 0.009710462763905525,
	"learning_rate": 0.00011922141119221412,
	"loss": 0.8059,
	"step": 1322
	},
	{
	"epoch": 2.8941755537325675,
	"grad_norm": 0.008519637398421764,
	"learning_rate": 0.00011678832116788322,
	"loss": 0.668,
	"step": 1323
	},
	{
	"epoch": 2.8963631391851243,
	"grad_norm": 0.012375866994261742,
	"learning_rate": 0.00011435523114355231,
	"loss": 0.8298,
	"step": 1324
	},
	{
	"epoch": 2.898550724637681,
	"grad_norm": 0.011852890253067017,
	"learning_rate": 0.00011192214111922141,
	"loss": 1.0037,
	"step": 1325
	},
	{
	"epoch": 2.900738310090238,
	"grad_norm": 0.01731940545141697,
	"learning_rate": 0.00010948905109489051,
	"loss": 0.7002,
	"step": 1326
	},
	{
	"epoch": 2.902925895542795,
	"grad_norm": 0.026805153116583824,
	"learning_rate": 0.00010705596107055963,
	"loss": 0.9983,
	"step": 1327
	},
	{
	"epoch": 2.905113480995351,
	"grad_norm": 0.011630130000412464,
	"learning_rate": 0.00010462287104622872,
	"loss": 0.575,
	"step": 1328
	},
	{
	"epoch": 2.907301066447908,
	"grad_norm": 0.012041180394589901,
	"learning_rate": 0.00010218978102189781,
	"loss": 0.6631,
	"step": 1329
	},
	{
	"epoch": 2.909488651900465,
	"grad_norm": 0.009331166744232178,
	"learning_rate": 9.97566909975669e-05,
	"loss": 0.7661,
	"step": 1330
	},
	{
	"epoch": 2.9116762373530216,
	"grad_norm": 0.010035173036158085,
	"learning_rate": 9.732360097323601e-05,
	"loss": 0.7367,
	"step": 1331
	},
	{
	"epoch": 2.9138638228055784,
	"grad_norm": 0.0184579249471426,
	"learning_rate": 9.489051094890511e-05,
	"loss": 0.7267,
	"step": 1332
	},
	{
	"epoch": 2.9160514082581352,
	"grad_norm": 0.019723238423466682,
	"learning_rate": 9.245742092457422e-05,
	"loss": 0.9285,
	"step": 1333
	},
	{
	"epoch": 2.918238993710692,
	"grad_norm": 0.01119768712669611,
	"learning_rate": 9.002433090024331e-05,
	"loss": 0.8886,
	"step": 1334
	},
	{
	"epoch": 2.9204265791632484,
	"grad_norm": 0.010187883861362934,
	"learning_rate": 8.75912408759124e-05,
	"loss": 0.6872,
	"step": 1335
	},
	{
	"epoch": 2.9226141646158053,
	"grad_norm": 0.006695912219583988,
	"learning_rate": 8.515815085158151e-05,
	"loss": 0.6093,
	"step": 1336
	},
	{
	"epoch": 2.924801750068362,
	"grad_norm": 0.009726252406835556,
	"learning_rate": 8.27250608272506e-05,
	"loss": 0.735,
	"step": 1337
	},
	{
	"epoch": 2.926989335520919,
	"grad_norm": 0.006968527100980282,
	"learning_rate": 8.029197080291971e-05,
	"loss": 0.9525,
	"step": 1338
	},
	{
	"epoch": 2.9291769209734753,
	"grad_norm": 0.019444549456238747,
	"learning_rate": 7.785888077858882e-05,
	"loss": 0.7423,
	"step": 1339
	},
	{
	"epoch": 2.931364506426032,
	"grad_norm": 0.014326276257634163,
	"learning_rate": 7.542579075425791e-05,
	"loss": 0.7437,
	"step": 1340
	},
	{
	"epoch": 2.933552091878589,
	"grad_norm": 0.008168605156242847,
	"learning_rate": 7.299270072992701e-05,
	"loss": 0.7014,
	"step": 1341
	},
	{
	"epoch": 2.9357396773311457,
	"grad_norm": 0.010011604055762291,
	"learning_rate": 7.05596107055961e-05,
	"loss": 0.6541,
	"step": 1342
	},
	{
	"epoch": 2.9379272627837025,
	"grad_norm": 0.013739430345594883,
	"learning_rate": 6.81265206812652e-05,
	"loss": 0.7885,
	"step": 1343
	},
	{
	"epoch": 2.9401148482362593,
	"grad_norm": 0.01414500456303358,
	"learning_rate": 6.569343065693432e-05,
	"loss": 0.9111,
	"step": 1344
	},
	{
	"epoch": 2.942302433688816,
	"grad_norm": 0.010208160616457462,
	"learning_rate": 6.326034063260341e-05,
	"loss": 0.6641,
	"step": 1345
	},
	{
	"epoch": 2.944490019141373,
	"grad_norm": 0.012237477116286755,
	"learning_rate": 6.08272506082725e-05,
	"loss": 0.6199,
	"step": 1346
	},
	{
	"epoch": 2.9466776045939294,
	"grad_norm": 0.008850525133311749,
	"learning_rate": 5.839416058394161e-05,
	"loss": 0.8436,
	"step": 1347
	},
	{
	"epoch": 2.948865190046486,
	"grad_norm": 0.01408157218247652,
	"learning_rate": 5.596107055961071e-05,
	"loss": 0.667,
	"step": 1348
	},
	{
	"epoch": 2.951052775499043,
	"grad_norm": 0.017354557290673256,
	"learning_rate": 5.352798053527981e-05,
	"loss": 0.7591,
	"step": 1349
	},
	{
	"epoch": 2.9532403609516,
	"grad_norm": 0.013411460444331169,
	"learning_rate": 5.1094890510948905e-05,
	"loss": 0.8248,
	"step": 1350
	},
	{
	"epoch": 2.955427946404156,
	"grad_norm": 0.018828334286808968,
	"learning_rate": 4.8661800486618005e-05,
	"loss": 0.8297,
	"step": 1351
	},
	{
	"epoch": 2.957615531856713,
	"grad_norm": 0.012131531722843647,
	"learning_rate": 4.622871046228711e-05,
	"loss": 0.8469,
	"step": 1352
	},
	{
	"epoch": 2.95980311730927,
	"grad_norm": 0.017933214083313942,
	"learning_rate": 4.37956204379562e-05,
	"loss": 0.886,
	"step": 1353
	},
	{
	"epoch": 2.9619907027618266,
	"grad_norm": 0.007120661437511444,
	"learning_rate": 4.13625304136253e-05,
	"loss": 0.7975,
	"step": 1354
	},
	{
	"epoch": 2.9641782882143834,
	"grad_norm": 0.008959448896348476,
	"learning_rate": 3.892944038929441e-05,
	"loss": 0.7624,
	"step": 1355
	},
	{
	"epoch": 2.9663658736669403,
	"grad_norm": 0.00703001581132412,
	"learning_rate": 3.649635036496351e-05,
	"loss": 0.9414,
	"step": 1356
	},
	{
	"epoch": 2.968553459119497,
	"grad_norm": 0.009628667496144772,
	"learning_rate": 3.40632603406326e-05,
	"loss": 0.7348,
	"step": 1357
	},
	{
	"epoch": 2.9707410445720535,
	"grad_norm": 0.010123343206942081,
	"learning_rate": 3.1630170316301705e-05,
	"loss": 0.5589,
	"step": 1358
	},
	{
	"epoch": 2.9729286300246103,
	"grad_norm": 0.012991656549274921,
	"learning_rate": 2.9197080291970804e-05,
	"loss": 0.7015,
	"step": 1359
	},
	{
	"epoch": 2.975116215477167,
	"grad_norm": 0.008844063617289066,
	"learning_rate": 2.6763990267639907e-05,
	"loss": 0.7395,
	"step": 1360
	},
	{
	"epoch": 2.977303800929724,
	"grad_norm": 0.010974117554724216,
	"learning_rate": 2.4330900243309002e-05,
	"loss": 0.815,
	"step": 1361
	},
	{
	"epoch": 2.9794913863822803,
	"grad_norm": 0.011202923953533173,
	"learning_rate": 2.18978102189781e-05,
	"loss": 0.7593,
	"step": 1362
	},
	{
	"epoch": 2.981678971834837,
	"grad_norm": 0.011004596017301083,
	"learning_rate": 1.9464720194647204e-05,
	"loss": 0.6727,
	"step": 1363
	},
	{
	"epoch": 2.983866557287394,
	"grad_norm": 0.009554206393659115,
	"learning_rate": 1.70316301703163e-05,
	"loss": 0.8229,
	"step": 1364
	},
	{
	"epoch": 2.9860541427399507,
	"grad_norm": 0.013814912177622318,
	"learning_rate": 1.4598540145985402e-05,
	"loss": 1.0031,
	"step": 1365
	},
	{
	"epoch": 2.9882417281925076,
	"grad_norm": 0.006289259064942598,
	"learning_rate": 1.2165450121654501e-05,
	"loss": 0.6995,
	"step": 1366
	},
	{
	"epoch": 2.9904293136450644,
	"grad_norm": 0.008405916392803192,
	"learning_rate": 9.732360097323602e-06,
	"loss": 0.7135,
	"step": 1367
	},
	{
	"epoch": 2.992616899097621,
	"grad_norm": 0.012755095958709717,
	"learning_rate": 7.299270072992701e-06,
	"loss": 0.8523,
	"step": 1368
	},
	{
	"epoch": 2.994804484550178,
	"grad_norm": 0.011079053394496441,
	"learning_rate": 4.866180048661801e-06,
	"loss": 0.6673,
	"step": 1369
	},
	{
	"epoch": 2.9969920700027344,
	"grad_norm": 0.011697685346007347,
	"learning_rate": 2.4330900243309005e-06,
	"loss": 0.7831,
	"step": 1370
	},
	{
	"epoch": 2.999179655455291,
	"grad_norm": 0.0072103943675756454,
	"learning_rate": 0.0,
	"loss": 0.8479,
	"step": 1371
	},
	{
	"epoch": 2.999179655455291,
	"step": 1371,
	"total_flos": 4.3134948379459584e+17,
	"train_loss": 0.7785058324133541,
	"train_runtime": 1561.6761,
	"train_samples_per_second": 14.048,
	"train_steps_per_second": 0.878
	}
	],
	"logging_steps": 1.0,
	"max_steps": 1371,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.3134948379459584e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}