{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 117,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02564102564102564,
      "grad_norm": 6.369640827178955,
      "learning_rate": 0.0,
      "loss": 0.7626,
      "step": 1
    },
    {
      "epoch": 0.05128205128205128,
      "grad_norm": 6.251739025115967,
      "learning_rate": 8.333333333333333e-08,
      "loss": 0.7252,
      "step": 2
    },
    {
      "epoch": 0.07692307692307693,
      "grad_norm": 6.172633171081543,
      "learning_rate": 1.6666666666666665e-07,
      "loss": 0.6479,
      "step": 3
    },
    {
      "epoch": 0.10256410256410256,
      "grad_norm": 5.884990692138672,
      "learning_rate": 2.5e-07,
      "loss": 0.7078,
      "step": 4
    },
    {
      "epoch": 0.1282051282051282,
      "grad_norm": 5.081572532653809,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.4819,
      "step": 5
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 6.8136091232299805,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.6797,
      "step": 6
    },
    {
      "epoch": 0.1794871794871795,
      "grad_norm": 6.076236724853516,
      "learning_rate": 5e-07,
      "loss": 0.6077,
      "step": 7
    },
    {
      "epoch": 0.20512820512820512,
      "grad_norm": 6.338658809661865,
      "learning_rate": 5.833333333333334e-07,
      "loss": 0.7324,
      "step": 8
    },
    {
      "epoch": 0.23076923076923078,
      "grad_norm": 6.2719292640686035,
      "learning_rate": 6.666666666666666e-07,
      "loss": 0.7341,
      "step": 9
    },
    {
      "epoch": 0.2564102564102564,
      "grad_norm": 5.779564380645752,
      "learning_rate": 7.5e-07,
      "loss": 0.6812,
      "step": 10
    },
    {
      "epoch": 0.28205128205128205,
      "grad_norm": 6.111364841461182,
      "learning_rate": 8.333333333333333e-07,
      "loss": 0.7673,
      "step": 11
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 5.112427234649658,
      "learning_rate": 9.166666666666665e-07,
      "loss": 0.7046,
      "step": 12
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 4.599231719970703,
      "learning_rate": 1e-06,
      "loss": 0.7147,
      "step": 13
    },
    {
      "epoch": 0.358974358974359,
      "grad_norm": 4.481863021850586,
      "learning_rate": 9.997762161417517e-07,
      "loss": 0.7204,
      "step": 14
    },
    {
      "epoch": 0.38461538461538464,
      "grad_norm": 4.414555549621582,
      "learning_rate": 9.991050648838675e-07,
      "loss": 0.6313,
      "step": 15
    },
    {
      "epoch": 0.41025641025641024,
      "grad_norm": 3.1873695850372314,
      "learning_rate": 9.979871469976195e-07,
      "loss": 0.74,
      "step": 16
    },
    {
      "epoch": 0.4358974358974359,
      "grad_norm": 2.990138530731201,
      "learning_rate": 9.964234631709185e-07,
      "loss": 0.5999,
      "step": 17
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 2.494980573654175,
      "learning_rate": 9.944154131125642e-07,
      "loss": 0.5882,
      "step": 18
    },
    {
      "epoch": 0.48717948717948717,
      "grad_norm": 3.04402232170105,
      "learning_rate": 9.919647942993147e-07,
      "loss": 0.7462,
      "step": 19
    },
    {
      "epoch": 0.5128205128205128,
      "grad_norm": 2.4796009063720703,
      "learning_rate": 9.890738003669027e-07,
      "loss": 0.6599,
      "step": 20
    },
    {
      "epoch": 0.5384615384615384,
      "grad_norm": 2.6610946655273438,
      "learning_rate": 9.857450191464337e-07,
      "loss": 0.6324,
      "step": 21
    },
    {
      "epoch": 0.5641025641025641,
      "grad_norm": 2.2293684482574463,
      "learning_rate": 9.819814303479267e-07,
      "loss": 0.5479,
      "step": 22
    },
    {
      "epoch": 0.5897435897435898,
      "grad_norm": 2.254640817642212,
      "learning_rate": 9.777864028930705e-07,
      "loss": 0.6751,
      "step": 23
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 1.634244680404663,
      "learning_rate": 9.73163691899582e-07,
      "loss": 0.5546,
      "step": 24
    },
    {
      "epoch": 0.6410256410256411,
      "grad_norm": 1.6159415245056152,
      "learning_rate": 9.681174353198686e-07,
      "loss": 0.6147,
      "step": 25
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.4406708478927612,
      "learning_rate": 9.626521502369983e-07,
      "loss": 0.5441,
      "step": 26
    },
    {
      "epoch": 0.6923076923076923,
      "grad_norm": 1.068778157234192,
      "learning_rate": 9.567727288213004e-07,
      "loss": 0.4269,
      "step": 27
    },
    {
      "epoch": 0.717948717948718,
      "grad_norm": 1.2805856466293335,
      "learning_rate": 9.504844339512094e-07,
      "loss": 0.4746,
      "step": 28
    },
    {
      "epoch": 0.7435897435897436,
      "grad_norm": 1.2707418203353882,
      "learning_rate": 9.43792894502277e-07,
      "loss": 0.5064,
      "step": 29
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 1.3852788209915161,
      "learning_rate": 9.367041003085648e-07,
      "loss": 0.6522,
      "step": 30
    },
    {
      "epoch": 0.7948717948717948,
      "grad_norm": 1.1346880197525024,
      "learning_rate": 9.29224396800933e-07,
      "loss": 0.5389,
      "step": 31
    },
    {
      "epoch": 0.8205128205128205,
      "grad_norm": 1.026390790939331,
      "learning_rate": 9.213604793270196e-07,
      "loss": 0.5355,
      "step": 32
    },
    {
      "epoch": 0.8461538461538461,
      "grad_norm": 0.9689812064170837,
      "learning_rate": 9.131193871579974e-07,
      "loss": 0.4962,
      "step": 33
    },
    {
      "epoch": 0.8717948717948718,
      "grad_norm": 0.9934576749801636,
      "learning_rate": 9.045084971874737e-07,
      "loss": 0.5688,
      "step": 34
    },
    {
      "epoch": 0.8974358974358975,
      "grad_norm": 0.8792146444320679,
      "learning_rate": 8.955355173281707e-07,
      "loss": 0.5549,
      "step": 35
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.8279433250427246,
      "learning_rate": 8.862084796122997e-07,
      "loss": 0.5553,
      "step": 36
    },
    {
      "epoch": 0.9487179487179487,
      "grad_norm": 0.7716125249862671,
      "learning_rate": 8.765357330018055e-07,
      "loss": 0.5482,
      "step": 37
    },
    {
      "epoch": 0.9743589743589743,
      "grad_norm": 0.5753526091575623,
      "learning_rate": 8.66525935914913e-07,
      "loss": 0.4679,
      "step": 38
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.48458731174468994,
      "learning_rate": 8.561880484756724e-07,
      "loss": 0.3698,
      "step": 39
    },
    {
      "epoch": 1.0256410256410255,
      "grad_norm": 0.6180218458175659,
      "learning_rate": 8.455313244934324e-07,
      "loss": 0.5947,
      "step": 40
    },
    {
      "epoch": 1.0512820512820513,
      "grad_norm": 0.7078486680984497,
      "learning_rate": 8.34565303179429e-07,
      "loss": 0.4995,
      "step": 41
    },
    {
      "epoch": 1.0769230769230769,
      "grad_norm": 0.5181483030319214,
      "learning_rate": 8.232998006078997e-07,
      "loss": 0.5036,
      "step": 42
    },
    {
      "epoch": 1.1025641025641026,
      "grad_norm": 0.45219916105270386,
      "learning_rate": 8.117449009293668e-07,
      "loss": 0.3792,
      "step": 43
    },
    {
      "epoch": 1.1282051282051282,
      "grad_norm": 0.4868799149990082,
      "learning_rate": 7.999109473439569e-07,
      "loss": 0.516,
      "step": 44
    },
    {
      "epoch": 1.1538461538461537,
      "grad_norm": 0.5245233178138733,
      "learning_rate": 7.878085328428368e-07,
      "loss": 0.5099,
      "step": 45
    },
    {
      "epoch": 1.1794871794871795,
      "grad_norm": 0.4330838620662689,
      "learning_rate": 7.754484907260512e-07,
      "loss": 0.4209,
      "step": 46
    },
    {
      "epoch": 1.205128205128205,
      "grad_norm": 0.4760264456272125,
      "learning_rate": 7.628418849052523e-07,
      "loss": 0.4995,
      "step": 47
    },
    {
      "epoch": 1.2307692307692308,
      "grad_norm": 0.49813446402549744,
      "learning_rate": 7.5e-07,
      "loss": 0.5338,
      "step": 48
    },
    {
      "epoch": 1.2564102564102564,
      "grad_norm": 0.45343366265296936,
      "learning_rate": 7.369343312364993e-07,
      "loss": 0.4971,
      "step": 49
    },
    {
      "epoch": 1.282051282051282,
      "grad_norm": 0.4793028235435486,
      "learning_rate": 7.236565741578162e-07,
      "loss": 0.5607,
      "step": 50
    },
    {
      "epoch": 1.3076923076923077,
      "grad_norm": 0.3807591199874878,
      "learning_rate": 7.101786141547828e-07,
      "loss": 0.3963,
      "step": 51
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.4242149591445923,
      "learning_rate": 6.965125158269618e-07,
      "loss": 0.4136,
      "step": 52
    },
    {
      "epoch": 1.358974358974359,
      "grad_norm": 0.5695387125015259,
      "learning_rate": 6.826705121831976e-07,
      "loss": 0.4876,
      "step": 53
    },
    {
      "epoch": 1.3846153846153846,
      "grad_norm": 0.48757168650627136,
      "learning_rate": 6.68664993691415e-07,
      "loss": 0.5899,
      "step": 54
    },
    {
      "epoch": 1.4102564102564101,
      "grad_norm": 0.4394301474094391,
      "learning_rate": 6.545084971874736e-07,
      "loss": 0.5163,
      "step": 55
    },
    {
      "epoch": 1.435897435897436,
      "grad_norm": 0.38720548152923584,
      "learning_rate": 6.402136946530014e-07,
      "loss": 0.4375,
      "step": 56
    },
    {
      "epoch": 1.4615384615384617,
      "grad_norm": 0.3783684968948364,
      "learning_rate": 6.257933818722542e-07,
      "loss": 0.4492,
      "step": 57
    },
    {
      "epoch": 1.4871794871794872,
      "grad_norm": 0.4112834632396698,
      "learning_rate": 6.112604669781572e-07,
      "loss": 0.4733,
      "step": 58
    },
    {
      "epoch": 1.5128205128205128,
      "grad_norm": 0.4309942424297333,
      "learning_rate": 5.966279588977766e-07,
      "loss": 0.4164,
      "step": 59
    },
    {
      "epoch": 1.5384615384615383,
      "grad_norm": 0.4247504472732544,
      "learning_rate": 5.819089557075688e-07,
      "loss": 0.477,
      "step": 60
    },
    {
      "epoch": 1.564102564102564,
      "grad_norm": 0.38459497690200806,
      "learning_rate": 5.671166329088277e-07,
      "loss": 0.4343,
      "step": 61
    },
    {
      "epoch": 1.5897435897435899,
      "grad_norm": 0.4865002930164337,
      "learning_rate": 5.522642316338268e-07,
      "loss": 0.5995,
      "step": 62
    },
    {
      "epoch": 1.6153846153846154,
      "grad_norm": 0.3904992341995239,
      "learning_rate": 5.373650467932121e-07,
      "loss": 0.5178,
      "step": 63
    },
    {
      "epoch": 1.641025641025641,
      "grad_norm": 0.4682792127132416,
      "learning_rate": 5.224324151752575e-07,
      "loss": 0.6536,
      "step": 64
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.31421154737472534,
      "learning_rate": 5.074797035076318e-07,
      "loss": 0.3648,
      "step": 65
    },
    {
      "epoch": 1.6923076923076923,
      "grad_norm": 0.39036867022514343,
      "learning_rate": 4.925202964923683e-07,
      "loss": 0.4617,
      "step": 66
    },
    {
      "epoch": 1.717948717948718,
      "grad_norm": 0.42162591218948364,
      "learning_rate": 4.775675848247427e-07,
      "loss": 0.5203,
      "step": 67
    },
    {
      "epoch": 1.7435897435897436,
      "grad_norm": 0.37007007002830505,
      "learning_rate": 4.626349532067879e-07,
      "loss": 0.4732,
      "step": 68
    },
    {
      "epoch": 1.7692307692307692,
      "grad_norm": 0.3757108747959137,
      "learning_rate": 4.477357683661733e-07,
      "loss": 0.3996,
      "step": 69
    },
    {
      "epoch": 1.7948717948717947,
      "grad_norm": 0.39338812232017517,
      "learning_rate": 4.328833670911724e-07,
      "loss": 0.4761,
      "step": 70
    },
    {
      "epoch": 1.8205128205128205,
      "grad_norm": 0.3347456455230713,
      "learning_rate": 4.180910442924311e-07,
      "loss": 0.4358,
      "step": 71
    },
    {
      "epoch": 1.8461538461538463,
      "grad_norm": 0.40436047315597534,
      "learning_rate": 4.0337204110222347e-07,
      "loss": 0.4984,
      "step": 72
    },
    {
      "epoch": 1.8717948717948718,
      "grad_norm": 0.40149423480033875,
      "learning_rate": 3.8873953302184283e-07,
      "loss": 0.4777,
      "step": 73
    },
    {
      "epoch": 1.8974358974358974,
      "grad_norm": 0.42441582679748535,
      "learning_rate": 3.742066181277457e-07,
      "loss": 0.47,
      "step": 74
    },
    {
      "epoch": 1.9230769230769231,
      "grad_norm": 0.3688524663448334,
      "learning_rate": 3.5978630534699865e-07,
      "loss": 0.4638,
      "step": 75
    },
    {
      "epoch": 1.9487179487179487,
      "grad_norm": 0.36299046874046326,
      "learning_rate": 3.454915028125263e-07,
      "loss": 0.3967,
      "step": 76
    },
    {
      "epoch": 1.9743589743589745,
      "grad_norm": 0.46353092789649963,
      "learning_rate": 3.31335006308585e-07,
      "loss": 0.5487,
      "step": 77
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.32297879457473755,
      "learning_rate": 3.173294878168025e-07,
      "loss": 0.4027,
      "step": 78
    },
    {
      "epoch": 2.0256410256410255,
      "grad_norm": 0.37267327308654785,
      "learning_rate": 3.034874841730382e-07,
      "loss": 0.5068,
      "step": 79
    },
    {
      "epoch": 2.051282051282051,
      "grad_norm": 0.3740202486515045,
      "learning_rate": 2.898213858452173e-07,
      "loss": 0.4841,
      "step": 80
    },
    {
      "epoch": 2.076923076923077,
      "grad_norm": 0.37761014699935913,
      "learning_rate": 2.763434258421836e-07,
      "loss": 0.4362,
      "step": 81
    },
    {
      "epoch": 2.1025641025641026,
      "grad_norm": 0.3903439939022064,
      "learning_rate": 2.6306566876350067e-07,
      "loss": 0.5247,
      "step": 82
    },
    {
      "epoch": 2.128205128205128,
      "grad_norm": 0.3678279221057892,
      "learning_rate": 2.500000000000001e-07,
      "loss": 0.4988,
      "step": 83
    },
    {
      "epoch": 2.1538461538461537,
      "grad_norm": 0.3791114091873169,
      "learning_rate": 2.371581150947476e-07,
      "loss": 0.4818,
      "step": 84
    },
    {
      "epoch": 2.1794871794871793,
      "grad_norm": 0.3990109860897064,
      "learning_rate": 2.2455150927394878e-07,
      "loss": 0.4962,
      "step": 85
    },
    {
      "epoch": 2.2051282051282053,
      "grad_norm": 0.36887475848197937,
      "learning_rate": 2.121914671571633e-07,
      "loss": 0.4044,
      "step": 86
    },
    {
      "epoch": 2.230769230769231,
      "grad_norm": 0.372435986995697,
      "learning_rate": 2.0008905265604315e-07,
      "loss": 0.4197,
      "step": 87
    },
    {
      "epoch": 2.2564102564102564,
      "grad_norm": 0.35440200567245483,
      "learning_rate": 1.8825509907063326e-07,
      "loss": 0.4524,
      "step": 88
    },
    {
      "epoch": 2.282051282051282,
      "grad_norm": 0.4030032157897949,
      "learning_rate": 1.7670019939210023e-07,
      "loss": 0.5084,
      "step": 89
    },
    {
      "epoch": 2.3076923076923075,
      "grad_norm": 0.38129332661628723,
      "learning_rate": 1.6543469682057104e-07,
      "loss": 0.4534,
      "step": 90
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.37370947003364563,
      "learning_rate": 1.5446867550656767e-07,
      "loss": 0.5118,
      "step": 91
    },
    {
      "epoch": 2.358974358974359,
      "grad_norm": 0.4511595368385315,
      "learning_rate": 1.4381195152432769e-07,
      "loss": 0.5472,
      "step": 92
    },
    {
      "epoch": 2.3846153846153846,
      "grad_norm": 0.38010352849960327,
      "learning_rate": 1.3347406408508694e-07,
      "loss": 0.3968,
      "step": 93
    },
    {
      "epoch": 2.41025641025641,
      "grad_norm": 0.39101359248161316,
      "learning_rate": 1.2346426699819456e-07,
      "loss": 0.4768,
      "step": 94
    },
    {
      "epoch": 2.435897435897436,
      "grad_norm": 0.3871517777442932,
      "learning_rate": 1.1379152038770029e-07,
      "loss": 0.445,
      "step": 95
    },
    {
      "epoch": 2.4615384615384617,
      "grad_norm": 0.29811641573905945,
      "learning_rate": 1.044644826718295e-07,
      "loss": 0.3917,
      "step": 96
    },
    {
      "epoch": 2.4871794871794872,
      "grad_norm": 0.3692609369754791,
      "learning_rate": 9.549150281252632e-08,
      "loss": 0.5053,
      "step": 97
    },
    {
      "epoch": 2.5128205128205128,
      "grad_norm": 0.3917727470397949,
      "learning_rate": 8.688061284200265e-08,
      "loss": 0.4785,
      "step": 98
    },
    {
      "epoch": 2.5384615384615383,
      "grad_norm": 0.34881332516670227,
      "learning_rate": 7.863952067298041e-08,
      "loss": 0.4962,
      "step": 99
    },
    {
      "epoch": 2.564102564102564,
      "grad_norm": 0.34965211153030396,
      "learning_rate": 7.077560319906694e-08,
      "loss": 0.508,
      "step": 100
    },
    {
      "epoch": 2.58974358974359,
      "grad_norm": 0.34777775406837463,
      "learning_rate": 6.329589969143517e-08,
      "loss": 0.4198,
      "step": 101
    },
    {
      "epoch": 2.6153846153846154,
      "grad_norm": 0.34757086634635925,
      "learning_rate": 5.620710549772295e-08,
      "loss": 0.4336,
      "step": 102
    },
    {
      "epoch": 2.641025641025641,
      "grad_norm": 0.36974871158599854,
      "learning_rate": 4.951556604879048e-08,
      "loss": 0.4482,
      "step": 103
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.37817803025245667,
      "learning_rate": 4.322727117869951e-08,
      "loss": 0.4978,
      "step": 104
    },
    {
      "epoch": 2.6923076923076925,
      "grad_norm": 0.39025190472602844,
      "learning_rate": 3.734784976300165e-08,
      "loss": 0.5465,
      "step": 105
    },
    {
      "epoch": 2.717948717948718,
      "grad_norm": 0.3911699652671814,
      "learning_rate": 3.188256468013139e-08,
      "loss": 0.4831,
      "step": 106
    },
    {
      "epoch": 2.7435897435897436,
      "grad_norm": 0.34893131256103516,
      "learning_rate": 2.6836308100417872e-08,
      "loss": 0.4515,
      "step": 107
    },
    {
      "epoch": 2.769230769230769,
      "grad_norm": 0.3498555123806,
      "learning_rate": 2.2213597106929605e-08,
      "loss": 0.4528,
      "step": 108
    },
    {
      "epoch": 2.7948717948717947,
      "grad_norm": 0.3860410749912262,
      "learning_rate": 1.8018569652073378e-08,
      "loss": 0.492,
      "step": 109
    },
    {
      "epoch": 2.8205128205128203,
      "grad_norm": 0.26638758182525635,
      "learning_rate": 1.4254980853566246e-08,
      "loss": 0.3204,
      "step": 110
    },
    {
      "epoch": 2.8461538461538463,
      "grad_norm": 0.4179665148258209,
      "learning_rate": 1.0926199633097154e-08,
      "loss": 0.5362,
      "step": 111
    },
    {
      "epoch": 2.871794871794872,
      "grad_norm": 0.375400185585022,
      "learning_rate": 8.035205700685165e-09,
      "loss": 0.5113,
      "step": 112
    },
    {
      "epoch": 2.8974358974358974,
      "grad_norm": 0.42177173495292664,
      "learning_rate": 5.5845868874357385e-09,
      "loss": 0.4808,
      "step": 113
    },
    {
      "epoch": 2.9230769230769234,
      "grad_norm": 0.3527701795101166,
      "learning_rate": 3.5765368290813223e-09,
      "loss": 0.414,
      "step": 114
    },
    {
      "epoch": 2.948717948717949,
      "grad_norm": 0.3130120635032654,
      "learning_rate": 2.0128530023804656e-09,
      "loss": 0.3637,
      "step": 115
    },
    {
      "epoch": 2.9743589743589745,
      "grad_norm": 0.3594694435596466,
      "learning_rate": 8.949351161324225e-10,
      "loss": 0.4558,
      "step": 116
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.44394877552986145,
      "learning_rate": 2.2378385824833866e-10,
      "loss": 0.6395,
      "step": 117
    },
    {
      "epoch": 3.0,
      "step": 117,
      "total_flos": 3.3860293178247086e+18,
      "train_loss": 0.5216725878735893,
      "train_runtime": 16633.6833,
      "train_samples_per_second": 0.449,
      "train_steps_per_second": 0.007
    }
  ],
  "logging_steps": 1,
  "max_steps": 117,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.3860293178247086e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}