arm asm: cleanup

fix indentation
2024-07-07 03:13:49 +00:00 · 2017-03-13 18:51:53 +01:00 · 2017-03-13 18:51:53 +01:00 · a20ad660c8
commit a20ad660c8
parent 2fa86eee4f
2 changed files with 214 additions and 212 deletions
--- a/src/3DMathNeon.cpp
+++ b/src/3DMathNeon.cpp
@ -4,172 +4,174 @@

 void MultMatrix( float m0[4][4], float m1[4][4], float dest[4][4])
 {
-	asm volatile (
-	"vld1.32 		{d0, d1}, [%1]!			\n\t"	//q0 = m1
-	"vld1.32 		{d2, d3}, [%1]!	    	\n\t"	//q1 = m1+4
-	"vld1.32 		{d4, d5}, [%1]!	    	\n\t"	//q2 = m1+8
-	"vld1.32 		{d6, d7}, [%1]	    	\n\t"	//q3 = m1+12
-	"vld1.32 		{d16, d17}, [%0]!		\n\t"	//q8 = m0
-	"vld1.32 		{d18, d19}, [%0]!   	\n\t"	//q9 = m0+4
-	"vld1.32 		{d20, d21}, [%0]!   	\n\t"	//q10 = m0+8
-	"vld1.32 		{d22, d23}, [%0]    	\n\t"	//q11 = m0+12
+    asm volatile (
+    "vld1.32         {d0, d1}, [%1]!         \n\t"    //q0 = m1
+    "vld1.32         {d2, d3}, [%1]!         \n\t"    //q1 = m1+4
+    "vld1.32         {d4, d5}, [%1]!         \n\t"    //q2 = m1+8
+    "vld1.32         {d6, d7}, [%1]          \n\t"    //q3 = m1+12
+    "vld1.32         {d16, d17}, [%0]!       \n\t"    //q8 = m0
+    "vld1.32         {d18, d19}, [%0]!       \n\t"    //q9 = m0+4
+    "vld1.32         {d20, d21}, [%0]!       \n\t"    //q10 = m0+8
+    "vld1.32         {d22, d23}, [%0]        \n\t"    //q11 = m0+12

-	"vmul.f32 		q12, q8, d0[0] 			\n\t"	//q12 = q8 * d0[0]
-	"vmul.f32 		q13, q8, d2[0] 		    \n\t"	//q13 = q8 * d2[0]
-	"vmul.f32 		q14, q8, d4[0] 		    \n\t"	//q14 = q8 * d4[0]
-	"vmul.f32 		q15, q8, d6[0]	 		\n\t"	//q15 = q8 * d6[0]
-	"vmla.f32 		q12, q9, d0[1] 			\n\t"	//q12 = q9 * d0[1]
-	"vmla.f32 		q13, q9, d2[1] 		    \n\t"	//q13 = q9 * d2[1]
-	"vmla.f32 		q14, q9, d4[1] 		    \n\t"	//q14 = q9 * d4[1]
-	"vmla.f32 		q15, q9, d6[1] 		    \n\t"	//q15 = q9 * d6[1]
-	"vmla.f32 		q12, q10, d1[0] 		\n\t"	//q12 = q10 * d0[0]
-	"vmla.f32 		q13, q10, d3[0] 		\n\t"	//q13 = q10 * d2[0]
-	"vmla.f32 		q14, q10, d5[0] 		\n\t"	//q14 = q10 * d4[0]
-	"vmla.f32 		q15, q10, d7[0] 		\n\t"	//q15 = q10 * d6[0]
-	"vmla.f32 		q12, q11, d1[1] 		\n\t"	//q12 = q11 * d0[1]
-	"vmla.f32 		q13, q11, d3[1] 		\n\t"	//q13 = q11 * d2[1]
-	"vmla.f32 		q14, q11, d5[1] 		\n\t"	//q14 = q11 * d4[1]
-	"vmla.f32 		q15, q11, d7[1]	 	    \n\t"	//q15 = q11 * d6[1]
+    "vmul.f32        q12, q8, d0[0]          \n\t"    //q12 = q8 * d0[0]
+    "vmul.f32        q13, q8, d2[0]          \n\t"    //q13 = q8 * d2[0]
+    "vmul.f32        q14, q8, d4[0]          \n\t"    //q14 = q8 * d4[0]
+    "vmul.f32        q15, q8, d6[0]          \n\t"    //q15 = q8 * d6[0]
+    "vmla.f32        q12, q9, d0[1]          \n\t"    //q12 = q9 * d0[1]
+    "vmla.f32        q13, q9, d2[1]          \n\t"    //q13 = q9 * d2[1]
+    "vmla.f32        q14, q9, d4[1]          \n\t"    //q14 = q9 * d4[1]
+    "vmla.f32        q15, q9, d6[1]          \n\t"    //q15 = q9 * d6[1]
+    "vmla.f32        q12, q10, d1[0]         \n\t"    //q12 = q10 * d0[0]
+    "vmla.f32        q13, q10, d3[0]         \n\t"    //q13 = q10 * d2[0]
+    "vmla.f32        q14, q10, d5[0]         \n\t"    //q14 = q10 * d4[0]
+    "vmla.f32        q15, q10, d7[0]         \n\t"    //q15 = q10 * d6[0]
+    "vmla.f32        q12, q11, d1[1]         \n\t"    //q12 = q11 * d0[1]
+    "vmla.f32        q13, q11, d3[1]         \n\t"    //q13 = q11 * d2[1]
+    "vmla.f32        q14, q11, d5[1]         \n\t"    //q14 = q11 * d4[1]
+    "vmla.f32        q15, q11, d7[1]         \n\t"    //q15 = q11 * d6[1]

-	"vst1.32 		{d24, d25}, [%2]! 		\n\t"	//d = q12
-	"vst1.32 		{d26, d27}, [%2]! 	    \n\t"	//d+4 = q13
-	"vst1.32 		{d28, d29}, [%2]! 	    \n\t"	//d+8 = q14
-	"vst1.32 		{d30, d31}, [%2] 	    \n\t"	//d+12 = q15
+    "vst1.32         {d24, d25}, [%2]!       \n\t"    //d = q12
+    "vst1.32         {d26, d27}, [%2]!       \n\t"    //d+4 = q13
+    "vst1.32         {d28, d29}, [%2]!       \n\t"    //d+8 = q14
+    "vst1.32         {d30, d31}, [%2]        \n\t"    //d+12 = q15

-	:"+r"(m0), "+r"(m1), "+r"(dest):
-	: "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
-	"d16", "d17", "d18", "d19", "d20", "d21", "d22", "d23",
-	"d24", "d25", "d26", "d27", "d28", "d29", "d30", "d31",
-	"memory"
-	);
+    :"+r"(m0), "+r"(m1), "+r"(dest):
+    : "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
+    "d16", "d17", "d18", "d19", "d20", "d21", "d22", "d23",
+    "d24", "d25", "d26", "d27", "d28", "d29", "d30", "d31",
+    "memory"
+    );
 }

 void TransformVectorNormalize(float vec[3], float mtx[4][4])
 {
-	asm volatile (
-	"vld1.32 		{d0}, [%1]  			\n\t"	//Q0 = v
-	"flds    		s2, [%1, #8]  			\n\t"	//Q0 = v
-	"vld1.32 		{d18, d19}, [%0]!		\n\t"	//Q1 = m
-	"vld1.32 		{d20, d21}, [%0]!	    \n\t"	//Q2 = m+4
-	"vld1.32 		{d22, d23}, [%0]	    \n\t"	//Q3 = m+8
+    asm volatile (
+    "vld1.32         {d0}, [%1]              \n\t"    //Q0 = v
+    "flds            s2, [%1, #8]            \n\t"    //Q0 = v
+    "vld1.32         {d18, d19}, [%0]!       \n\t"    //Q1 = m
+    "vld1.32         {d20, d21}, [%0]!       \n\t"    //Q2 = m+4
+    "vld1.32         {d22, d23}, [%0]        \n\t"    //Q3 = m+8

-	"vmul.f32 		q2, q9, d0[0]			\n\t"	//q2 = q9*Q0[0]
-	"vmla.f32 		q2, q10, d0[1]			\n\t"	//Q5 += Q1*Q0[1]
-	"vmla.f32 		q2, q11, d1[0]			\n\t"	//Q5 += Q2*Q0[2]
+    "vmul.f32        q2, q9, d0[0]           \n\t"    //q2 = q9*Q0[0]
+    "vmla.f32        q2, q10, d0[1]          \n\t"    //Q5 += Q1*Q0[1]
+    "vmla.f32        q2, q11, d1[0]          \n\t"    //Q5 += Q2*Q0[2]

-	"vmul.f32 		d0, d4, d4				\n\t"	//d0 = d0*d0
-	"vpadd.f32 		d0, d0, d0				\n\t"	//d0 = d[0] + d[1]
-	"vmla.f32 		d0, d5, d5				\n\t"	//d0 = d0 + d1*d1
+    "vmul.f32        d0, d4, d4              \n\t"    //d0 = d0*d0
+    "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d[0] + d[1]
+    "vmla.f32        d0, d5, d5              \n\t"    //d0 = d0 + d1*d1

-	"vmov.f32 		d1, d0					\n\t"	//d1 = d0
-	"vrsqrte.f32 	d0, d0					\n\t"	//d0 = ~ 1.0 / sqrt(d0)
-	"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-	"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d2) / 2
-	"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d3
-	"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-	"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d3) / 2
-	"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d4
+    "vmov.f32        d1, d0                  \n\t"    //d1 = d0
+    "vrsqrte.f32     d0, d0                  \n\t"    //d0 = ~ 1.0 / sqrt(d0)
+    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d2) / 2
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
+    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4

-	"vmul.f32 		q2, q2, d0[0]			\n\t"	//d0= d2*d4
+    "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4

-	"vst1.32 		{d4}, [%1] 	    	    \n\t"	//Q4 = m+12
-	"fsts   		s10, [%1, #8] 	    	\n\t"	//Q4 = m+12
-	: "+r"(mtx), "+r"(vec) :
-	: "d0","d1","d2","d3","d18","d19","d20","d21","d22", "d23", "memory"
-	);
+    "vst1.32         {d4}, [%1]              \n\t"    //Q4 = m+12
+    "fsts            s10, [%1, #8]           \n\t"    //Q4 = m+12
+    : "+r"(mtx), "+r"(vec) :
+    : "d0","d1","d2","d3","d18","d19","d20","d21","d22", "d23", "memory"
+    );
 }

 void InverseTransformVectorNormalize(float src[3], float dst[3], float mtx[4][4])
 {
-	if(!(std::isnan(src[0]) && std::isnan(src[1]) && std::isnan(src[2]))){
-		asm volatile (
-		"vld1.32 		{d0}, [%1]  			\n\t"	//Q0 = v
-		"flds    		s2, [%1, #8]  			\n\t"	//Q0 = v
-		"vld1.32 		{d18, d19}, [%0]!		\n\t"	//D18 = m
-		"vld1.32 		{d20, d21}, [%0]!	    \n\t"	//D20 = m+4
-		"vld1.32 		{d22, d23}, [%0]	    \n\t"	//D22 = m+8
+    if(!(std::isnan(src[0]) && std::isnan(src[1]) && std::isnan(src[2]))){
+        asm volatile (
+        "vld1.32         {d0}, [%1]              \n\t"    //Q0 = v
+        "flds            s2, [%1, #8]            \n\t"    //Q0 = v
+        "vld1.32         {d18, d19}, [%0]!       \n\t"    //D18 = m
+        "vld1.32         {d20, d21}, [%0]!       \n\t"    //D20 = m+4
+        "vld1.32         {d22, d23}, [%0]        \n\t"    //D22 = m+8

-		"vmul.f32 		q2, q0, q9				\n\t"
-		"vmul.f32 		q3, q0, q10				\n\t"
-		"vmul.f32 		q4, q0, q11				\n\t"
-		"vpadd.f32 		d4, d4, d5				\n\t"
-		"vpadd.f32 		d4, d4, d4				\n\t"  //d4[0] = sum of q2
-		"vpadd.f32 		d8, d8, d9				\n\t"
-		"vpadd.f32 		d5, d8, d8				\n\t"  //d5[0] = sum of q4
-		"vpadd.f32 		d6, d6, d7				\n\t"
-		"vpadd.f32 		d10, d6, d6				\n\t"
-		"vmov.f32 		s9, s20					\n\t"  //d4[1] = sum of q3
+        "vmul.f32        q2, q0, q9              \n\t"
+        "vmul.f32        q3, q0, q10             \n\t"
+        "vmul.f32        q4, q0, q11             \n\t"
+        "vpadd.f32       d4, d4, d5              \n\t"
+        "vpadd.f32       d4, d4, d4              \n\t"    //d4[0] = sum of q2
+        "vpadd.f32       d8, d8, d9              \n\t"
+        "vpadd.f32       d5, d8, d8              \n\t"    //d5[0] = sum of q4
+        "vpadd.f32       d6, d6, d7              \n\t"
+        "vpadd.f32       d10, d6, d6             \n\t"
+        "vmov.f32        s9, s20                 \n\t"    //d4[1] = sum of q3

-		"vmul.f32 		d0, d4, d4				\n\t"	//d0 = d0*d0
-		"vpadd.f32 		d0, d0, d0				\n\t"	//d0 = d[0] + d[1]
-		"vmla.f32 		d0, d5, d5				\n\t"	//d0 = d0 + d1*d1
+        "vmul.f32        d0, d4, d4              \n\t"    //d0 = d0*d0
+        "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d[0] + d[1]
+        "vmla.f32        d0, d5, d5              \n\t"    //d0 = d0 + d1*d1

-		"vmov.f32 		d1, d0					\n\t"	//d1 = d0
-		"vrsqrte.f32 	d0, d0					\n\t"	//d0 = ~ 1.0 / sqrt(d0)
-		"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-		"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d2) / 2
-		"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d3
-		"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-		"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d3) / 2
-		"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d4
+        "vmov.f32        d1, d0                  \n\t"    //d1 = d0
+        "vrsqrte.f32     d0, d0                  \n\t"    //d0 = ~ 1.0 / sqrt(d0)
+        "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+        "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d2) / 2
+        "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
+        "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+        "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
+        "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4

-		"vmul.f32 		q2, q2, d0[0]			\n\t"	//d0= d2*d4
+        "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4

-		"vst1.32 		{d4}, [%2] 	    	    \n\t"	//Q4 = m+12
-		"fsts   		s10, [%2, #8] 	    	\n\t"	//Q4 = m+12
-		: "+r"(mtx), "+r"(src), "+r"(dst) :
-		: "d0","d1","d2","d3","d4","d5","d6","d7","d8","d9","d10","d18","d19",
-		"d20","d21","d22", "d23", "memory"
-		);
-	}else{
-		dst[0] = NAN;
-		dst[1] = NAN;
-		dst[2] = NAN;
-	}
+        "vst1.32         {d4}, [%2]              \n\t"    //Q4 = m+12
+        "fsts            s10, [%2, #8]           \n\t"    //Q4 = m+12
+        : "+r"(mtx), "+r"(src), "+r"(dst) :
+        : "d0","d1","d2","d3","d4","d5","d6","d7","d8","d9","d10","d18","d19",
+        "d20","d21","d22", "d23", "memory"
+        );
+    }else{
+        dst[0] = NAN;
+        dst[1] = NAN;
+        dst[2] = NAN;
+    }
 }

 void Normalize(float v[3])
 {
-	asm volatile (
-	"vld1.32 		{d4}, [%0]!	    		\n\t"	//d4={x,y}
-	"flds    		s10, [%0]   	    	\n\t"	//d5[0] = z
-	"sub    		%0, %0, #8   	    	\n\t"	//d5[0] = z
-	"vmul.f32 		d0, d4, d4				\n\t"	//d0= d4*d4
-	"vpadd.f32 		d0, d0, d0				\n\t"	//d0 = d[0] + d[1]
-	"vmla.f32 		d0, d5, d5				\n\t"	//d0 = d0 + d5*d5
+    asm volatile (
+    "vld1.32         {d4}, [%0]!             \n\t"    //d4={x,y}
+    "flds            s10, [%0]               \n\t"    //d5[0] = z
+    "sub             %0, %0, #8              \n\t"    //d5[0] = z
+    "vmul.f32        d0, d4, d4              \n\t"    //d0= d4*d4
+    "vpadd.f32       d0, d0, d0              \n\t"    //d0 = d[0] + d[1]
+    "vmla.f32        d0, d5, d5              \n\t"    //d0 = d0 + d5*d5

-	"vmov.f32 		d1, d0					\n\t"	//d1 = d0
-	"vrsqrte.f32 	d0, d0					\n\t"	//d0 = ~ 1.0 / sqrt(d0)
-	"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-	"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d2) / 2
-	"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d3
-	"vmul.f32 		d2, d0, d1				\n\t"	//d2 = d0 * d1
-	"vrsqrts.f32 	d3, d2, d0				\n\t"	//d3 = (3 - d0 * d3) / 2
-	"vmul.f32 		d0, d0, d3				\n\t"	//d0 = d0 * d4
+    "vmov.f32        d1, d0                  \n\t"    //d1 = d0
+    "vrsqrte.f32     d0, d0                  \n\t"    //d0 = ~ 1.0 / sqrt(d0)
+    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d2) / 2
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d3
+    "vmul.f32        d2, d0, d1              \n\t"    //d2 = d0 * d1
+    "vrsqrts.f32     d3, d2, d0              \n\t"    //d3 = (3 - d0 * d3) / 2
+    "vmul.f32        d0, d0, d3              \n\t"    //d0 = d0 * d4

-	"vmul.f32 		q2, q2, d0[0]			\n\t"	//d0= d2*d4
-	"vst1.32 		{d4}, [%0]!  			\n\t"	//d2={x0,y0}, d3={z0, w0}
-	"fsts    		s10, [%0]     			\n\t"	//d2={x0,y0}, d3={z0, w0}
+    "vmul.f32        q2, q2, d0[0]           \n\t"    //d0= d2*d4
+    "vst1.32         {d4}, [%0]!             \n\t"    //d2={x0,y0}, d3={z0, w0}
+    "fsts            s10, [%0]               \n\t"    //d2={x0,y0}, d3={z0, w0}

-	:"+r"(v) :
-	: "d0", "d1", "d2", "d3", "d4", "d5", "memory"
-	);
+    :"+r"(v) :
+    : "d0", "d1", "d2", "d3", "d4", "d5", "memory"
+    );
 }
+
 float DotProduct(const float v0[3], const float v1[3])
 {
-	float dot;
-	asm volatile (
-	"vld1.32 		{d8}, [%1]!			\n\t"	//d8={x0,y0}
-	"vld1.32 		{d10}, [%2]!		\n\t"	//d10={x1,y1}
-	"flds 			s18, [%1, #0]	    \n\t"	//d9[0]={z0}
-	"flds 			s22, [%2, #0]	    \n\t"	//d11[0]={z1}
-	"vmul.f32 		d12, d8, d10		\n\t"	//d0= d2*d4
-	"vpadd.f32 		d12, d12, d12		\n\t"	//d0 = d[0] + d[1]
-	"vmla.f32 		d12, d9, d11		\n\t"	//d0 = d0 + d3*d5
-	"fmrs	        %0, s24	    		\n\t"	//r0 = s0
-	: "=r"(dot), "+r"(v0), "+r"(v1):
-	: "d8", "d9", "d10", "d11", "d12"
+    float dot;
+    asm volatile (
+    "vld1.32         {d8}, [%1]!            \n\t"    //d8={x0,y0}
+    "vld1.32         {d10}, [%2]!           \n\t"    //d10={x1,y1}
+    "flds            s18, [%1, #0]          \n\t"    //d9[0]={z0}
+    "flds            s22, [%2, #0]          \n\t"    //d11[0]={z1}
+    "vmul.f32        d12, d8, d10           \n\t"    //d0= d2*d4
+    "vpadd.f32       d12, d12, d12          \n\t"    //d0 = d[0] + d[1]
+    "vmla.f32        d12, d9, d11           \n\t"    //d0 = d0 + d3*d5
+    "fmrs            %0, s24                \n\t"    //r0 = s0
+    : "=r"(dot), "+r"(v0), "+r"(v1):
+    : "d8", "d9", "d10", "d11", "d12"

-	);
-	return dot;
+    );
+    return dot;
 }
+
--- a/src/gSPNeon.cpp
+++ b/src/gSPNeon.cpp
@ -24,94 +24,94 @@

 void gSPTransformVertex4NEON(u32 v, float mtx[4][4])
 {
-	GraphicsDrawer & drawer = dwnd().getDrawer();
-	SPVertex & vtx = drawer.getVertex(v);
-	void *ptr = &vtx.x;
+    GraphicsDrawer & drawer = dwnd().getDrawer();
+    SPVertex & vtx = drawer.getVertex(v);
+    void *ptr = &vtx.x;

-	asm volatile (
-	"vld1.32 		{d0, d1}, [%1]		  	\n\t"	//q0 = {x,y,z,w}
-	"add 		    %1, %1, %2   		  	\n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d2, d3}, [%1]	    	\n\t"	//q1 = {x,y,z,w}
-	"add 		    %1, %1, %2 	    	  	\n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d4, d5}, [%1]	        \n\t"	//q2 = {x,y,z,w}
-	"add 		    %1, %1, %2 		      	\n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d6, d7}, [%1]	        \n\t"	//q3 = {x,y,z,w}
-	"sub 		    %1, %1, %3   		  	\n\t"	//q0 = {x,y,z,w}
+    asm volatile (
+    "vld1.32         {d0, d1}, [%1]          \n\t"    //q0 = {x,y,z,w}
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d2, d3}, [%1]          \n\t"    //q1 = {x,y,z,w}
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d4, d5}, [%1]          \n\t"    //q2 = {x,y,z,w}
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d6, d7}, [%1]          \n\t"    //q3 = {x,y,z,w}
+    "sub             %1, %1, %3              \n\t"    //q0 = {x,y,z,w}

-	"vld1.32 		{d18, d19}, [%0]!		\n\t"	//q9 = m
-	"vld1.32 		{d20, d21}, [%0]!       \n\t"	//q10 = m
-	"vld1.32 		{d22, d23}, [%0]!       \n\t"	//q11 = m
-	"vld1.32 		{d24, d25}, [%0]        \n\t"	//q12 = m
+    "vld1.32         {d18, d19}, [%0]!       \n\t"    //q9 = m
+    "vld1.32         {d20, d21}, [%0]!       \n\t"    //q10 = m
+    "vld1.32         {d22, d23}, [%0]!       \n\t"    //q11 = m
+    "vld1.32         {d24, d25}, [%0]        \n\t"    //q12 = m

-	"vmov.f32 		q13, q12    			\n\t"	//q13 = q12
-	"vmov.f32 		q14, q12    			\n\t"	//q14 = q12
-	"vmov.f32 		q15, q12    			\n\t"	//q15 = q12
+    "vmov.f32        q13, q12                \n\t"    //q13 = q12
+    "vmov.f32        q14, q12                \n\t"    //q14 = q12
+    "vmov.f32        q15, q12                \n\t"    //q15 = q12

-	"vmla.f32 		q12, q9, d0[0]			\n\t"	//q12 = q9*d0[0]
-	"vmla.f32 		q13, q9, d2[0]			\n\t"	//q13 = q9*d0[0]
-	"vmla.f32 		q14, q9, d4[0]			\n\t"	//q14 = q9*d0[0]
-	"vmla.f32 		q15, q9, d6[0]			\n\t"	//q15 = q9*d0[0]
-	"vmla.f32 		q12, q10, d0[1]			\n\t"	//q12 = q10*d0[1]
-	"vmla.f32 		q13, q10, d2[1]			\n\t"	//q13 = q10*d0[1]
-	"vmla.f32 		q14, q10, d4[1]			\n\t"	//q14 = q10*d0[1]
-	"vmla.f32 		q15, q10, d6[1]			\n\t"	//q15 = q10*d0[1]
-	"vmla.f32 		q12, q11, d1[0]			\n\t"	//q12 = q11*d1[0]
-	"vmla.f32 		q13, q11, d3[0]			\n\t"	//q13 = q11*d1[0]
-	"vmla.f32 		q14, q11, d5[0]			\n\t"	//q14 = q11*d1[0]
-	"vmla.f32 		q15, q11, d7[0]			\n\t"	//q15 = q11*d1[0]
+    "vmla.f32        q12, q9, d0[0]          \n\t"    //q12 = q9*d0[0]
+    "vmla.f32        q13, q9, d2[0]          \n\t"    //q13 = q9*d0[0]
+    "vmla.f32        q14, q9, d4[0]          \n\t"    //q14 = q9*d0[0]
+    "vmla.f32        q15, q9, d6[0]          \n\t"    //q15 = q9*d0[0]
+    "vmla.f32        q12, q10, d0[1]         \n\t"    //q12 = q10*d0[1]
+    "vmla.f32        q13, q10, d2[1]         \n\t"    //q13 = q10*d0[1]
+    "vmla.f32        q14, q10, d4[1]         \n\t"    //q14 = q10*d0[1]
+    "vmla.f32        q15, q10, d6[1]         \n\t"    //q15 = q10*d0[1]
+    "vmla.f32        q12, q11, d1[0]         \n\t"    //q12 = q11*d1[0]
+    "vmla.f32        q13, q11, d3[0]         \n\t"    //q13 = q11*d1[0]
+    "vmla.f32        q14, q11, d5[0]         \n\t"    //q14 = q11*d1[0]
+    "vmla.f32        q15, q11, d7[0]         \n\t"    //q15 = q11*d1[0]

-	"vst1.32 		{d24, d25}, [%1] 		\n\t"	//q12
-	"add 		    %1, %1, %2 		      	\n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d26, d27}, [%1] 	    \n\t"	//q13
-	"add 		    %1, %1, %2 	    	  	\n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d28, d29}, [%1] 	    \n\t"	//q14
-	"add 		    %1, %1, %2   		  	\n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d30, d31}, [%1]     	\n\t"	//q15
+    "vst1.32         {d24, d25}, [%1]        \n\t"    //q12
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d26, d27}, [%1]        \n\t"    //q13
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d28, d29}, [%1]        \n\t"    //q14
+    "add             %1, %1, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d30, d31}, [%1]        \n\t"    //q15

-	: "+&r"(mtx), "+&r"(ptr)
-	: "I"(sizeof(SPVertex)), "I"(3 * sizeof(SPVertex))
-	: "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
-	  "d18","d19", "d20", "d21", "d22", "d23", "d24",
-	  "d25", "d26", "d27", "d28", "d29", "d30", "d31", "memory"
-	);
+    : "+&r"(mtx), "+&r"(ptr)
+    : "I"(sizeof(SPVertex)), "I"(3 * sizeof(SPVertex))
+    : "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
+      "d18","d19", "d20", "d21", "d22", "d23", "d24",
+      "d25", "d26", "d27", "d28", "d29", "d30", "d31", "memory"
+    );
 }

 void gSPBillboardVertex4NEON(u32 v)
 {
-	int i = 0;
-	GraphicsDrawer & drawer = dwnd().getDrawer();
+    int i = 0;
+    GraphicsDrawer & drawer = dwnd().getDrawer();

-	SPVertex & vtx0 = drawer.getVertex(v);
-	SPVertex & vtx1 = drawer.getVertex(i);
+    SPVertex & vtx0 = drawer.getVertex(v);
+    SPVertex & vtx1 = drawer.getVertex(i);

-	void *ptr0 = (void*)&vtx0.x;
-	void *ptr1 = (void*)&vtx1.x;
-	asm volatile (
+    void *ptr0 = (void*)&vtx0.x;
+    void *ptr1 = (void*)&vtx1.x;
+    asm volatile (

-	"vld1.32 		{d0, d1}, [%0]		  	\n\t"	//q0 = {x,y,z,w}
-	"add 		    %0, %0, %2 		  	    \n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d2, d3}, [%0]	    	\n\t"	//q1 = {x,y,z,w}
-	"add 		    %0, %0, %2 		      	\n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d4, d5}, [%0]	        \n\t"	//q2 = {x,y,z,w}
-	"add 		    %0, %0, %2 	    	  	\n\t"	//q0 = {x,y,z,w}
-	"vld1.32 		{d6, d7}, [%0]	        \n\t"	//q3 = {x,y,z,w}
-	"sub 		    %0, %0, %3   		  	\n\t"	//q0 = {x,y,z,w}
+    "vld1.32         {d0, d1}, [%0]          \n\t"    //q0 = {x,y,z,w}
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d2, d3}, [%0]          \n\t"    //q1 = {x,y,z,w}
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d4, d5}, [%0]          \n\t"    //q2 = {x,y,z,w}
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vld1.32         {d6, d7}, [%0]          \n\t"    //q3 = {x,y,z,w}
+    "sub             %0, %0, %3              \n\t"    //q0 = {x,y,z,w}

-	"vld1.32 		{d16, d17}, [%1]		\n\t"	//q2={x1,y1,z1,w1}
-	"vadd.f32 		q0, q0, q8 			    \n\t"	//q1=q1+q1
-	"vadd.f32 		q1, q1, q8 			    \n\t"	//q1=q1+q1
-	"vadd.f32 		q2, q2, q8 			    \n\t"	//q1=q1+q1
-	"vadd.f32 		q3, q3, q8 			    \n\t"	//q1=q1+q1
-	"vst1.32 		{d0, d1}, [%0] 		    \n\t"	//
-	"add 		    %0, %0, %2  		  	\n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d2, d3}, [%0]          \n\t"	//
-	"add 		    %0, %0, %2 		  	    \n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d4, d5}, [%0]          \n\t"	//
-	"add 		    %0, %0, %2 		  	    \n\t"	//q0 = {x,y,z,w}
-	"vst1.32 		{d6, d7}, [%0]          \n\t"	//
-	: "+&r"(ptr0), "+&r"(ptr1)
-	: "I"(sizeof(SPVertex)), "I"(3 * sizeof(SPVertex))
-	: "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
-	  "d16", "d17", "memory"
-	);
+    "vld1.32         {d16, d17}, [%1]        \n\t"    //q2={x1,y1,z1,w1}
+    "vadd.f32        q0, q0, q8              \n\t"    //q1=q1+q1
+    "vadd.f32        q1, q1, q8              \n\t"    //q1=q1+q1
+    "vadd.f32        q2, q2, q8              \n\t"    //q1=q1+q1
+    "vadd.f32        q3, q3, q8              \n\t"    //q1=q1+q1
+    "vst1.32         {d0, d1}, [%0]          \n\t"    //
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d2, d3}, [%0]          \n\t"    //
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d4, d5}, [%0]          \n\t"    //
+    "add             %0, %0, %2              \n\t"    //q0 = {x,y,z,w}
+    "vst1.32         {d6, d7}, [%0]          \n\t"    //
+    : "+&r"(ptr0), "+&r"(ptr1)
+    : "I"(sizeof(SPVertex)), "I"(3 * sizeof(SPVertex))
+    : "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
+      "d16", "d17", "memory"
+    );
 }