arm asm: cleanup

correct comments
2024-07-07 03:13:49 +00:00 · 2017-03-13 19:07:22 +01:00 · 2017-03-13 19:07:22 +01:00 · 279b011b2d
commit 279b011b2d
parent a20ad660c8
1 changed files with 30 additions and 30 deletions
--- a/src/3DMathNeon.cpp
+++ b/src/3DMathNeon.cpp
@ -47,19 +47,19 @@ void MultMatrix( float m0[4][4], float m1[4][4], float dest[4][4])
 void TransformVectorNormalize(float vec[3], float mtx[4][4])
 {
    asm volatile (
-    "vld1.32         {d0}, [%1]              \n\t"    //Q0 = v
-    "flds            s2, [%1, #8]            \n\t"    //Q0 = v
-    "vld1.32         {d18, d19}, [%0]!       \n\t"    //Q1 = m
-    "vld1.32         {d20, d21}, [%0]!       \n\t"    //Q2 = m+4
-    "vld1.32         {d22, d23}, [%0]        \n\t"    //Q3 = m+8
+    "vld1.32         {d0}, [%1]              \n\t"    //q0 =  v
+    "flds            s2, [%1, #8]            \n\t"    //q0 =  v
+    "vld1.32         {d18, d19}, [%0]!       \n\t"    //q9 =  m
+    "vld1.32         {d20, d21}, [%0]!       \n\t"    //q10 = m+4
+    "vld1.32         {d22, d23}, [%0]        \n\t"    //q11 = m+8

-    "vmul.f32        q2, q9, d0[0]           \n\t"    //q2 = q9*Q0[0]
-    "vmla.f32        q2, q10, d0[1]          \n\t"    //Q5 += Q1*Q0[1]
-    "vmla.f32        q2, q11, d1[0]          \n\t"    //Q5 += Q2*Q0[2]
+    "vmul.f32        q2, q9, d0[0]           \n\t"    //q2 =  q9*d0[0]
+    "vmla.f32        q2, q10, d0[1]          \n\t"    //q2 += q11*d0[1]
+    "vmla.f32        q2, q11, d1[0]          \n\t"    //q2 += q11*d1[0]

-    "vmul.f32        d0, d4, d4              \n\t"    //d0 = d0*d0
-    "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d[0] + d[1]
-    "vmla.f32        d0, d5, d5              \n\t"    //d0 = d0 + d1*d1
+    "vmul.f32        d0, d4, d4              \n\t"    //d0 =  d4*d4
+    "vpadd.f32       d0, d0, d0              \n\t"    //d0 =  d[0] + d[1]
+    "vmla.f32        d0, d5, d5              \n\t"    //d0 += d5*d5

    "vmov.f32        d1, d0                  \n\t"    //d1 = d0
    "vrsqrte.f32     d0, d0                  \n\t"    //d0 = ~ 1.0 / sqrt(d0)
@ -68,11 +68,11 @@ void TransformVectorNormalize(float vec[3], float mtx[4][4])
    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
-    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3

-    "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4
+    "vmul.f32        q2, q2, d0[0]           \n\t"    //q2= q2*d0[0]

-    "vst1.32         {d4}, [%1]              \n\t"    //Q4 = m+12
+    "vst1.32         {d4}, [%1]              \n\t"    //d4
    "fsts            s10, [%1, #8]           \n\t"    //Q4 = m+12
    : "+r"(mtx), "+r"(vec) :
    : "d0","d1","d2","d3","d18","d19","d20","d21","d22", "d23", "memory"
@ -83,11 +83,11 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
 {
    if(!(std::isnan(src[0]) && std::isnan(src[1]) && std::isnan(src[2]))){
        asm volatile (
-        "vld1.32         {d0}, [%1]              \n\t"    //Q0 = v
-        "flds            s2, [%1, #8]            \n\t"    //Q0 = v
-        "vld1.32         {d18, d19}, [%0]!       \n\t"    //D18 = m
-        "vld1.32         {d20, d21}, [%0]!       \n\t"    //D20 = m+4
-        "vld1.32         {d22, d23}, [%0]        \n\t"    //D22 = m+8
+        "vld1.32         {d0}, [%1]              \n\t"    //q0 = v
+        "flds            s2, [%1, #8]            \n\t"    //q0 = v
+        "vld1.32         {d18, d19}, [%0]!       \n\t"    //q9 = m
+        "vld1.32         {d20, d21}, [%0]!       \n\t"    //q10 = m+4
+        "vld1.32         {d22, d23}, [%0]        \n\t"    //q11 = m+8

        "vmul.f32        q2, q0, q9              \n\t"
        "vmul.f32        q3, q0, q10             \n\t"
@ -100,9 +100,9 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
        "vpadd.f32       d10, d6, d6             \n\t"
        "vmov.f32        s9, s20                 \n\t"    //d4[1] = sum of q3

-        "vmul.f32        d0, d4, d4              \n\t"    //d0 = d0*d0
-        "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d[0] + d[1]
-        "vmla.f32        d0, d5, d5              \n\t"    //d0 = d0 + d1*d1
+        "vmul.f32        d0, d4, d4              \n\t"    //d0 = d4*d4
+        "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d0[0] + d0[1]
+        "vmla.f32        d0, d5, d5              \n\t"    //d0 += d5*d5

        "vmov.f32        d1, d0                  \n\t"    //d1 = d0
        "vrsqrte.f32     d0, d0                  \n\t"    //d0 = ~ 1.0 / sqrt(d0)
@ -111,11 +111,11 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
        "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
        "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
        "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
-        "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4
+        "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3

        "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4

-        "vst1.32         {d4}, [%2]              \n\t"    //Q4 = m+12
+        "vst1.32         {d4}, [%2]              \n\t"    //d2
        "fsts            s10, [%2, #8]           \n\t"    //Q4 = m+12
        : "+r"(mtx), "+r"(src), "+r"(dst) :
        : "d0","d1","d2","d3","d4","d5","d6","d7","d8","d9","d10","d18","d19",
@ -145,10 +145,10 @@ void Normalize(float v[3])
    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
-    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3

-    "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4
-    "vst1.32         {d4}, [%0]!             \n\t"    //d2={x0,y0}, d3={z0, w0}
+    "vmul.f32        q2, q2, d0[0]           \n\t"    //q2 = q2*d0[0]
+    "vst1.32         {d4}, [%0]!             \n\t"    //d4
    "fsts            s10, [%0]               \n\t"    //d2={x0,y0}, d3={z0, w0}

    :"+r"(v) :
@ -164,9 +164,9 @@ float DotProduct(const float v0[3], const float v1[3])
    "vld1.32         {d10}, [%2]!           \n\t"    //d10={x1,y1}
    "flds            s18, [%1, #0]          \n\t"    //d9[0]={z0}
    "flds            s22, [%2, #0]          \n\t"    //d11[0]={z1}
-    "vmul.f32        d12, d8, d10           \n\t"    //d0= d2*d4
-    "vpadd.f32       d12, d12, d12          \n\t"    //d0 = d[0] + d[1]
-    "vmla.f32        d12, d9, d11           \n\t"    //d0 = d0 + d3*d5
+    "vmul.f32        d12, d8, d10           \n\t"    //d12= d8*d10
+    "vpadd.f32       d12, d12, d12          \n\t"    //d12 = d12[0] + d12[1]
+    "vmla.f32        d12, d9, d11           \n\t"    //d12 += d9*d11
    "fmrs            %0, s24                \n\t"    //r0 = s0
    : "=r"(dot), "+r"(v0), "+r"(v1):
    : "d8", "d9", "d10", "d11", "d12"