1
0
mirror of https://github.com/blawar/GLideN64.git synced 2024-07-07 03:13:49 +00:00

arm asm: cleanup

correct comments
This commit is contained in:
gizmo98 2017-03-13 19:07:22 +01:00
parent a20ad660c8
commit 279b011b2d

View File

@ -47,19 +47,19 @@ void MultMatrix( float m0[4][4], float m1[4][4], float dest[4][4])
void TransformVectorNormalize(float vec[3], float mtx[4][4])
{
asm volatile (
"vld1.32 {d0}, [%1] \n\t" //Q0 = v
"flds s2, [%1, #8] \n\t" //Q0 = v
"vld1.32 {d18, d19}, [%0]! \n\t" //Q1 = m
"vld1.32 {d20, d21}, [%0]! \n\t" //Q2 = m+4
"vld1.32 {d22, d23}, [%0] \n\t" //Q3 = m+8
"vld1.32 {d0}, [%1] \n\t" //q0 = v
"flds s2, [%1, #8] \n\t" //q0 = v
"vld1.32 {d18, d19}, [%0]! \n\t" //q9 = m
"vld1.32 {d20, d21}, [%0]! \n\t" //q10 = m+4
"vld1.32 {d22, d23}, [%0] \n\t" //q11 = m+8
"vmul.f32 q2, q9, d0[0] \n\t" //q2 = q9*Q0[0]
"vmla.f32 q2, q10, d0[1] \n\t" //Q5 += Q1*Q0[1]
"vmla.f32 q2, q11, d1[0] \n\t" //Q5 += Q2*Q0[2]
"vmul.f32 q2, q9, d0[0] \n\t" //q2 = q9*d0[0]
"vmla.f32 q2, q10, d0[1] \n\t" //q2 += q11*d0[1]
"vmla.f32 q2, q11, d1[0] \n\t" //q2 += q11*d1[0]
"vmul.f32 d0, d4, d4 \n\t" //d0 = d0*d0
"vpadd.f32 d0, d0, d0 \n\t" //d0 = d[0] + d[1]
"vmla.f32 d0, d5, d5 \n\t" //d0 = d0 + d1*d1
"vmul.f32 d0, d4, d4 \n\t" //d0 = d4*d4
"vpadd.f32 d0, d0, d0 \n\t" //d0 = d[0] + d[1]
"vmla.f32 d0, d5, d5 \n\t" //d0 += d5*d5
"vmov.f32 d1, d0 \n\t" //d1 = d0
"vrsqrte.f32 d0, d0 \n\t" //d0 = ~ 1.0 / sqrt(d0)
@ -68,11 +68,11 @@ void TransformVectorNormalize(float vec[3], float mtx[4][4])
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 d2, d0, d1 \n\t" //d2 = d0 * d1
"vrsqrts.f32 d3, d2, d0 \n\t" //d3 = (3 - d0 * d3) / 2
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d4
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 q2, q2, d0[0] \n\t" //d0= d2*d4
"vmul.f32 q2, q2, d0[0] \n\t" //q2= q2*d0[0]
"vst1.32 {d4}, [%1] \n\t" //Q4 = m+12
"vst1.32 {d4}, [%1] \n\t" //d4
"fsts s10, [%1, #8] \n\t" //Q4 = m+12
: "+r"(mtx), "+r"(vec) :
: "d0","d1","d2","d3","d18","d19","d20","d21","d22", "d23", "memory"
@ -83,11 +83,11 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
{
if(!(std::isnan(src[0]) && std::isnan(src[1]) && std::isnan(src[2]))){
asm volatile (
"vld1.32 {d0}, [%1] \n\t" //Q0 = v
"flds s2, [%1, #8] \n\t" //Q0 = v
"vld1.32 {d18, d19}, [%0]! \n\t" //D18 = m
"vld1.32 {d20, d21}, [%0]! \n\t" //D20 = m+4
"vld1.32 {d22, d23}, [%0] \n\t" //D22 = m+8
"vld1.32 {d0}, [%1] \n\t" //q0 = v
"flds s2, [%1, #8] \n\t" //q0 = v
"vld1.32 {d18, d19}, [%0]! \n\t" //q9 = m
"vld1.32 {d20, d21}, [%0]! \n\t" //q10 = m+4
"vld1.32 {d22, d23}, [%0] \n\t" //q11 = m+8
"vmul.f32 q2, q0, q9 \n\t"
"vmul.f32 q3, q0, q10 \n\t"
@ -100,9 +100,9 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
"vpadd.f32 d10, d6, d6 \n\t"
"vmov.f32 s9, s20 \n\t" //d4[1] = sum of q3
"vmul.f32 d0, d4, d4 \n\t" //d0 = d0*d0
"vpadd.f32 d0, d0, d0 \n\t" //d0 = d[0] + d[1]
"vmla.f32 d0, d5, d5 \n\t" //d0 = d0 + d1*d1
"vmul.f32 d0, d4, d4 \n\t" //d0 = d4*d4
"vpadd.f32 d0, d0, d0 \n\t" //d0 = d0[0] + d0[1]
"vmla.f32 d0, d5, d5 \n\t" //d0 += d5*d5
"vmov.f32 d1, d0 \n\t" //d1 = d0
"vrsqrte.f32 d0, d0 \n\t" //d0 = ~ 1.0 / sqrt(d0)
@ -111,11 +111,11 @@ void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4]
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 d2, d0, d1 \n\t" //d2 = d0 * d1
"vrsqrts.f32 d3, d2, d0 \n\t" //d3 = (3 - d0 * d3) / 2
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d4
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 q2, q2, d0[0] \n\t" //d0= d2*d4
"vst1.32 {d4}, [%2] \n\t" //Q4 = m+12
"vst1.32 {d4}, [%2] \n\t" //d2
"fsts s10, [%2, #8] \n\t" //Q4 = m+12
: "+r"(mtx), "+r"(src), "+r"(dst) :
: "d0","d1","d2","d3","d4","d5","d6","d7","d8","d9","d10","d18","d19",
@ -145,10 +145,10 @@ void Normalize(float v[3])
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 d2, d0, d1 \n\t" //d2 = d0 * d1
"vrsqrts.f32 d3, d2, d0 \n\t" //d3 = (3 - d0 * d3) / 2
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d4
"vmul.f32 d0, d0, d3 \n\t" //d0 = d0 * d3
"vmul.f32 q2, q2, d0[0] \n\t" //d0= d2*d4
"vst1.32 {d4}, [%0]! \n\t" //d2={x0,y0}, d3={z0, w0}
"vmul.f32 q2, q2, d0[0] \n\t" //q2 = q2*d0[0]
"vst1.32 {d4}, [%0]! \n\t" //d4
"fsts s10, [%0] \n\t" //d2={x0,y0}, d3={z0, w0}
:"+r"(v) :
@ -164,9 +164,9 @@ float DotProduct(const float v0[3], const float v1[3])
"vld1.32 {d10}, [%2]! \n\t" //d10={x1,y1}
"flds s18, [%1, #0] \n\t" //d9[0]={z0}
"flds s22, [%2, #0] \n\t" //d11[0]={z1}
"vmul.f32 d12, d8, d10 \n\t" //d0= d2*d4
"vpadd.f32 d12, d12, d12 \n\t" //d0 = d[0] + d[1]
"vmla.f32 d12, d9, d11 \n\t" //d0 = d0 + d3*d5
"vmul.f32 d12, d8, d10 \n\t" //d12= d8*d10
"vpadd.f32 d12, d12, d12 \n\t" //d12 = d12[0] + d12[1]
"vmla.f32 d12, d9, d11 \n\t" //d12 += d9*d11
"fmrs %0, s24 \n\t" //r0 = s0
: "=r"(dot), "+r"(v0), "+r"(v1):
: "d8", "d9", "d10", "d11", "d12"